「大一統(tǒng)」大模型論文爆火,4種模態(tài)任意轉(zhuǎn)換,本科生5篇頂會一作 觀天下

    來源:量子位時間:2023-05-29 18:09:06

    蕭簫 發(fā)自 凹非寺 量子位 | 公眾號 QbitAI

    多模態(tài)大模型,終于迎來“大一統(tǒng)”時刻!


    (資料圖)

    從聲音、文字、圖像到視頻,所有模態(tài)被徹底打通,如同人腦一般,實現(xiàn)了真正意義上的 任意輸入,任意輸出 。

    要知道,多模態(tài)一直是學(xué)術(shù)界公認(rèn)要達(dá)到更強(qiáng)智能的必經(jīng)之路,連 GPT-4 都在往這個方向發(fā)展。

    也正是因此,這項來自微軟、北卡羅來納大學(xué)教堂山分校的新研究一經(jīng)po出,立即在社交媒體上爆火,有網(wǎng)友驚嘆:

    這是我最近見過 最不可思議的 一篇論文!

    究竟有多不可思議?

    只需告訴大模型,想要“一只玩滑板的泰迪熊”,并輸入一張照片+一段聲音:

    它立刻就能精準(zhǔn)get要點,生成一段在下雨天在城市里玩滑板的心碎小熊錄像,仔細(xì)聽還會發(fā)現(xiàn) 配上了新的雨聲 。

    效果太過于鵝妹子嚶,以至于不少網(wǎng)友表示“有被嚇到”:

    還有網(wǎng)友感嘆“新時代的到來”:

    等不及看到創(chuàng)作者們用這些AI工具制作各種沉浸式故事體驗了。這簡直給RPG角色扮演游戲賦予了全新的意義。

    值得一提的是,一作Zineng Tang雖然 本科還沒畢業(yè) ,但他已經(jīng)在CVPR、發(fā)了6篇頂會論文,其中 5篇都是一作 。

    所以,這個號稱能夠“轉(zhuǎn)一切”(any-to-any)的大一統(tǒng)大模型,實現(xiàn)效果究竟如何?

    4種模態(tài)隨意選,打出“組合拳”

    大模型CoDi,具有任意輸入和輸出 圖、文、聲音、視頻 4種模態(tài)的能力。

    無論是單模態(tài)生成單模態(tài)(下圖黃)、多模態(tài)生成單模態(tài)(下圖紅)、還是多模態(tài)生成多模態(tài)(下圖紫),只要 指定輸入和輸出的模態(tài) ,CoDi就能理解并生成想要的效果:

    先來看 單模態(tài)生成單模態(tài) 。

    輸入任意一種模態(tài),CoDi都能聯(lián)想并輸出指定的模態(tài),例如,輸入一張風(fēng)景圖像,就能輸出“山景,日出”這樣的文字提示詞:

    或是輸入一段鐵軌碰撞聲,就能生成一張地鐵圖像:

    面對 多模態(tài)生成單模態(tài) 時,CoDi威力同樣不減。

    輸入一張“熊貓吃竹子”圖像,加上一段“在咖啡桌上吃”的文字要求:

    CoDi就能生成一段大熊貓坐在咖啡桌旁吃竹子的視頻:

    或是輸入一組文字提示詞“油畫,恐怖畫風(fēng),優(yōu)雅復(fù)雜的概念藝術(shù),克雷格·穆林斯(CG繪畫之父)風(fēng)格”,加上一段拍打木板的水聲;

    CoDi在經(jīng)過聯(lián)想后,就能輸出一張精致的、氣勢恢宏的黃昏時分海盜船畫像:

    最后來看看 多模態(tài)生成多模態(tài) 的效果。

    給CoDi提供一段鋼琴聲,加上一張森林中的照片:

    CoDi就能想象出一段“在森林中彈鋼琴”的文字,并配上對應(yīng)的插圖:

    要知道在這之前,AI生成的視頻不少都沒有配音,停留在老式的“無聲電影”階段。

    然而CoDi不僅能生成視頻,還能生成搭配視頻食用的聲音。

    例如根據(jù)一個“天空中的花火”文字提示詞+一段對應(yīng)的音頻,就能生成一個帶有爆炸聲音的煙花錄像。

    所以,CoDi究竟是如何做到理解不同的模態(tài),并“打出組合拳”的?

    用“對齊”來節(jié)省大模型訓(xùn)練數(shù)據(jù)

    事實上,CoDi的打造面臨兩個難點。

    首先是缺少 訓(xùn)練數(shù)據(jù) 的問題,以作者們能收集到的數(shù)據(jù)集為例:

    無論是像Laion400M這樣的文圖數(shù)據(jù)集、還是像AudioSet之類的音頻文字?jǐn)?shù)據(jù)集,或是油管上的圖像音視頻數(shù)據(jù)集,以及Webvid10M之類的視頻數(shù)據(jù)集,都屬于“單模態(tài)生成單個或兩個模態(tài)”的類型。

    然而,多模態(tài)大模型的訓(xùn)練數(shù)據(jù)需求,隨著模態(tài)數(shù)量的增加呈 指數(shù)級增長 ,許多輸入輸出組合,往往缺少對應(yīng)的訓(xùn)練數(shù)據(jù)集。

    其次,已有的 擴(kuò)散模型 大多是1v1的類型,如何設(shè)計并訓(xùn)練模型,確保多模態(tài)輸入輸出的效果,同樣是個問題。

    針對這兩個問題,作者們決定 分兩個階段 打造CoDi,讓它不僅能實現(xiàn)單模態(tài)“完美輸出”、還能做到多模態(tài)“1+1>2”。

    在 階段一 ,組合條件訓(xùn)練,給每個模態(tài)都打造一個潛在擴(kuò)散模型(LDM),進(jìn)行組合訓(xùn)練。

    針對A模態(tài)生成B模態(tài)數(shù)據(jù)集缺失的問題,作者們提出了一種名為 橋接對齊 (Bridging Alignment)的策略。

    具體來說,就是以帶 文本模態(tài) 的數(shù)據(jù)集為“中介”,對齊另外幾種模態(tài)的訓(xùn)練效果。

    以音頻生成圖像為例。

    雖然音頻生成圖像數(shù)據(jù)集不多,但文本生成音頻、文本生成圖像的數(shù)據(jù)集卻有不少,因此可以將這兩類數(shù)據(jù)集合并起來,用于訓(xùn)練文本+音頻生成圖像的效果。

    在此期間,文本和音頻輸入經(jīng)過模型處理,會被“放置”進(jìn)一個共享特征空間,并用輸出LDM來處理輸入輸入的組合特征,輸出對應(yīng)的圖像結(jié)果。

    階段二 ,進(jìn)一步增加生成的模態(tài)數(shù)量。

    在階段一的基礎(chǔ)上,給每個潛在擴(kuò)散模型和環(huán)境編碼器上增加一個交叉注意力模塊,就能將潛在擴(kuò)散模型的潛變量投射到共享空間中,使得生成的模態(tài)也進(jìn)一步多樣化。

    最終訓(xùn)練出來的模型,雖然訓(xùn)練數(shù)據(jù)類型不是“全能的”,但也具備了多模態(tài)輸入、多模態(tài)輸出的能力。

    值得一提的是,可別以為這種方法會降低模型生成的質(zhì)量。

    事實上,在多種評估方法上,CoDi均超越了現(xiàn)有多模態(tài)大模型的生成效果。

    華人本科生,5篇頂會論文一作

    一作 Zineng Tang ,本科就讀于北卡羅來納大學(xué)教堂山分校,也是微軟研究院的實習(xí)生,今年6月將進(jìn)入加州大學(xué)伯克利分校讀博。

    他的研究興趣在于多模態(tài)學(xué)習(xí)、機(jī)器學(xué)習(xí)和NLP領(lǐng)域,而從大一開始,他就在NeurIPS、CVPR、ACL和NAACL等頂會上相繼發(fā)了6篇文章,其中5篇一作。

    就在今年1月,Zineng Tang還獲得了2023年的美國計算機(jī)研究學(xué)會(CRA)設(shè)立的優(yōu)秀本科生研究員獎。

    每年全美國能獲得這個獎項的本科生, 只有4人 。

    這一獎項旨在表彰在計算機(jī)研究領(lǐng)域有杰出研究潛力的本科生,包括MIT、斯坦福、哈佛和耶魯大學(xué)等不少北美名校在內(nèi),每年都會提名一些優(yōu)秀學(xué)生,經(jīng)過層層篩選后決定獲獎?wù)摺?

    通訊作者 Ziyi Yang ,目前是微軟Azure認(rèn)知服務(wù)研究團(tuán)隊(CSR)的高級研究員,研究方向是多模態(tài)理解和生成,文檔智能和NLP等。

    在加入微軟之前,他本科畢業(yè)于南京大學(xué)物理系,并于斯坦福大學(xué)獲得電氣工程碩士和機(jī)械工程博士學(xué)位。

    通訊作者 Mohit Bansal ,是北卡羅來納大學(xué)教堂山分校計算機(jī)系教授。他于加州大學(xué)伯克利分校獲得博士學(xué)位,目前研究方向是NLP和多模態(tài)機(jī)器學(xué)習(xí),尤其側(cè)重語言生成問答和對話、以及可解釋深度學(xué)習(xí)等。

    你感覺多模態(tài)大模型發(fā)展的下一階段,會是什么樣子?

    論文地址: https://arxiv.org/abs/2305.11846

    項目地址: https://github.com/microsoft/i-Code/tree/main/i-Code-V3

    參考鏈接: [1]https://twitter.com/AviSchiffmann/status/1660771055676588033 [2]https://twitter.com/ZinengTang/status/1660726736642887681 [3]https://cra.org/2023-outstanding-undergraduate-researcher-award-recipients/ [4]https://codi-gen.github.io/

    — 完 —

    量子位 QbitAI · 頭條號簽約

    關(guān)注我們,第一時間獲知前沿科技動態(tài)

    關(guān)鍵詞:

    圖文推薦

    熱門文字

    標(biāo)簽

    精彩賞析