GPT-5前瞻!艾倫人工智能研究所發(fā)布最強多模態(tài)模型,預(yù)測GPT-5新能力
GPT-5何時到來,會有什么能力?
來自艾倫人工智能研究所(Allen Institute for AI)的新模型告訴你答案。
艾倫人工智能研究所推出的Unified-IO 2是第一個可以處理和生成文本、圖像、音頻、視頻和動作序列的模型。
這個新的高級人工智能模型使用幾十億個數(shù)據(jù)點進行訓(xùn)練,雖然模型大小只有7B,卻展現(xiàn)出迄今為止最廣泛的多模態(tài)能力。

論文地址:https://arxiv.org/pdf/2312.17172.pdf
那么,Unified-IO 2和GPT-5有什么關(guān)系呢?
早在2022年6月,艾倫人工智能研究所就推出了第一代Unified-IO,它是首批能夠處理圖像和語言的多模態(tài)模型之一。
大約在同一時間,OpenAI正在內(nèi)部測試GPT-4,并在2023年3月正式發(fā)布。
所以,Unified-IO可以看作是對于未來大規(guī)模AI模型的前瞻。
也就是說,OpenAI可能正在內(nèi)部測試GPT-5,并將在幾個月后發(fā)布。
而本次Unified-IO 2向我們展現(xiàn)的能力,也將是我們在新的一年可以期待的內(nèi)容:
GPT-5等新的AI模型可以處理更多模態(tài),通過廣泛的學(xué)習(xí)以本地方式執(zhí)行許多任務(wù),并且對與物體和機器人的交互有基本的了解。

Unified-IO 2的訓(xùn)練數(shù)據(jù)包括:10億個圖像-文本對、1 萬億個文本標(biāo)記、1.8億個視頻剪輯、1.3億張帶文本的圖像、300萬個3D資產(chǎn)和100萬個機器人代理運動序列。
研究團隊將總共120多個數(shù)據(jù)集組合成一個600 TB的包,涵蓋220個視覺、語言、聽覺和動作任務(wù)。
Unified-IO 2采用編碼器-解碼器架構(gòu),并進行了一些更改,以穩(wěn)定訓(xùn)練并有效利用多模態(tài)信號。
模型可以回答問題、根據(jù)指令撰寫文本、以及分析文本內(nèi)容。

模型還可以識別圖像內(nèi)容,提供圖像描述,執(zhí)行圖像處理任務(wù),并根據(jù)文本描述創(chuàng)建新圖像。

它還可以根據(jù)描述或說明生成音樂或聲音,以及分析視頻并回答有關(guān)視頻的問題。

通過使用機器人數(shù)據(jù)進行訓(xùn)練,Unified-IO 2還可以為機器人系統(tǒng)生成動作,例如將指令轉(zhuǎn)換為機器人的動作序列。
由于多模態(tài)訓(xùn)練,它還可以處理不同的模態(tài),例如,在圖像上標(biāo)記某個音軌使用的樂器。

Unified-IO 2在超過35個基準(zhǔn)測試中表現(xiàn)良好,包括圖像生成和理解、自然語言理解、視頻和音頻理解以及機器人操作。
在大多數(shù)任務(wù)中,它能夠比肩專用模型,甚至更勝一籌。
在圖像任務(wù)的GRIT基準(zhǔn)測試中,Unified-IO 2獲得了目前的最高分(GRIT用于測試模型如何處理圖像噪聲和其他問題)。
研究人員現(xiàn)在計劃進一步擴展Unified-IO 2,提高數(shù)據(jù)質(zhì)量,并將編碼器-解碼器模型,轉(zhuǎn)換為行業(yè)標(biāo)準(zhǔn)的解碼器模型架構(gòu)。
Unified-IO 2
Unified-IO 2是第一個能夠理解和生成圖像、文本、音頻和動作的自回歸多模態(tài)模型。
為了統(tǒng)一不同的模態(tài),研究人員將輸入和輸出(圖像、文本、音頻、動作、邊界框等)標(biāo)記到一個共享的語義空間中,然后使用單個編碼器-解碼器轉(zhuǎn)換器模型對其進行處理。

由于訓(xùn)練模型所采用的數(shù)據(jù)量龐大,而且來自各種不同的模態(tài),研究人員采取了一系列技術(shù)來改進整個訓(xùn)練過程。
為了有效地促進跨多種模態(tài)的自監(jiān)督學(xué)習(xí)信號,研究人員開發(fā)了一種新型的去噪器目標(biāo)的多模態(tài)混合,結(jié)合了跨模態(tài)的去噪和生成。
還開發(fā)了動態(tài)打包,可將訓(xùn)練吞吐量提高4倍,以處理高度可變的序列。
為了克服訓(xùn)練中的穩(wěn)定性和可擴展性問題,研究人員在感知器重采樣器上做了架構(gòu)更改,包括2D旋轉(zhuǎn)嵌入、QK歸一化和縮放余弦注意力機制。
對于指令調(diào)整,確保每個任務(wù)都有一個明確的提示,無論是使用現(xiàn)有任務(wù)還是制作新任務(wù)。另外還包括開放式任務(wù),并為不太常見的模式創(chuàng)建合成任務(wù),以增強任務(wù)和教學(xué)的多樣性。
統(tǒng)一任務(wù)表示
將多模態(tài)數(shù)據(jù)編碼到共享表示空間中的標(biāo)記序列,包括以下幾個方面:
文本、稀疏結(jié)構(gòu)和操作
文本輸入和輸出使用LLaMA中的字節(jié)對編碼進行標(biāo)記化,邊界框、關(guān)鍵點和相機姿勢等稀疏結(jié)構(gòu)被離散化,然后使用添加到詞匯表中的1000個特殊標(biāo)記進行編碼。
點使用兩個標(biāo)記(x,y)進行編碼,盒子用四個標(biāo)記(左上角和右下角)的序列進行編碼,3D長方體用12個標(biāo)記表示(編碼投影中心、虛擬深度、對數(shù)歸一化框尺寸、和連續(xù)同心旋轉(zhuǎn))。
對于具身任務(wù),離散的機器人動作被生成為文本命令(例如,「向前移動」)。特殊標(biāo)記用于對機器人的狀態(tài)進行編碼(例如位置和旋轉(zhuǎn))。
圖像和密集結(jié)構(gòu)
圖像使用預(yù)先訓(xùn)練的視覺轉(zhuǎn)換器(ViT)進行編碼。將ViT的第二層和倒數(shù)第二層的補丁特征連接起來,以捕獲低級和高級視覺信息。
生成圖像時,使用VQ-GAN將圖像轉(zhuǎn)換為離散標(biāo)記,這里采用patch大小為8 × 8的密集預(yù)訓(xùn)練VQ-GAN模型,將256 × 256的圖像編碼為1024個token,碼本大小為16512。
然后將每個像素的標(biāo)簽(包括深度、表面法線和二進制分割掩碼)表示為RGB圖像。
音頻
U-IO 2將長達4.08秒的音頻編碼為頻譜圖,然后使用預(yù)先訓(xùn)練的音頻頻譜圖轉(zhuǎn)換器(AST)對頻譜圖進行編碼,并通過連接AST的第二層和倒數(shù)第二層特征并應(yīng)用線性層來構(gòu)建輸入嵌入,就像圖像ViT一樣。
生成音頻時,使用ViT-VQGAN將音頻轉(zhuǎn)換為離散的標(biāo)記,模型的patch大小為8 × 8,將256 × 128的頻譜圖編碼為512個token,碼本大小為8196。
圖像和音頻歷史記錄
模型最多允許提供四個額外的圖像和音頻片段作為輸入,這些元素也使用ViT或AST進行編碼,隨后使用感知器重采樣器,進一步將特征壓縮為較少數(shù)量(圖像為32個,音頻為16個)。
這大大縮短了序列長度,并允許模型在使用歷史記錄中的元素作為上下文時,以高細節(jié)檢查圖像或音頻片段。
穩(wěn)定訓(xùn)練的模型架構(gòu)和技術(shù)
研究人員觀察到,隨著我們集成其他模式,使用 U-IO 之后的標(biāo)準(zhǔn)實現(xiàn)會導(dǎo)致訓(xùn)練越來越不穩(wěn)定。
如下圖(a)和(b)所示,僅對圖像生成(綠色曲線)進行訓(xùn)練會導(dǎo)致穩(wěn)定的損失和梯度范數(shù)收斂。
與單一模態(tài)相比,引入圖像和文本任務(wù)的組合(橙色曲線)略微增加了梯度范數(shù),但保持穩(wěn)定。然而,包含視頻模態(tài)(藍色曲線)會導(dǎo)致梯度范數(shù)的無限制升級。

如圖中(c)和(d)所示,當(dāng)模型的XXL版本在所有模態(tài)上訓(xùn)練時,損失在350k步后爆炸,下一個標(biāo)記預(yù)測精度在400k步時顯著下降。
為了解決這個問題,研究人員進行了各種架構(gòu)更改:
在每個Transformer層應(yīng)用旋轉(zhuǎn)位置嵌入(RoPE)。對于非文本模態(tài),將RoPE擴展到二維位置;當(dāng)包括圖像和音頻模態(tài)時,將LayerNorm應(yīng)用于點積注意力計算之前的Q和K。
另外,使用感知器重采樣器,將每個圖像幀和音頻片段壓縮成固定數(shù)量的標(biāo)記,并使用縮放余弦注意力在感知者中應(yīng)用更嚴(yán)格的歸一化,這顯著穩(wěn)定了訓(xùn)練。
為了避免數(shù)值不穩(wěn)定,還啟用了float32注意力對數(shù),并在預(yù)訓(xùn)練期間凍結(jié)ViT和 AST,并在指令調(diào)整結(jié)束時對其進行微調(diào)。

上圖顯示,盡管輸入和輸出模態(tài)存在異質(zhì)性,但模型的預(yù)訓(xùn)練損失是穩(wěn)定的。
多模態(tài)訓(xùn)練目標(biāo)
本文遵循UL2范式。對于圖像和音頻目標(biāo),這里定義了兩種類似的范式:
[R]:掩碼去噪,隨機屏蔽x%的輸入圖像或音頻補丁特征,并讓模型重新構(gòu)建它;
[S]:要求模型在其他輸入模態(tài)條件下生成目標(biāo)模態(tài)。
在訓(xùn)練期間,用模態(tài)標(biāo)記([Text]、[Image] 或 [Audio])和范式標(biāo)記([R]、[S] 或 [X])作為輸入文本的前綴,以指示任務(wù),并使用動態(tài)遮罩進行自回歸。

如上圖所示,圖像和音頻屏蔽去噪的一個問題是解碼器側(cè)的信息泄漏。
這里的解決方案是在解碼器中屏蔽token(除非在預(yù)測這個token),這不會干擾因果預(yù)測,同時又消除了數(shù)據(jù)泄漏。
效率優(yōu)化
對大量多模態(tài)數(shù)據(jù)進行訓(xùn)練,會導(dǎo)致轉(zhuǎn)換器輸入和輸出的序列長度高度可變。
這里使用打包來解決這個問題:多個示例的標(biāo)記被打包到一個序列中,并屏蔽注意力以防止轉(zhuǎn)換器在示例之間交叉參與。
在訓(xùn)練過程中,使用啟發(fā)式算法來重新排列流式傳輸?shù)侥P偷臄?shù)據(jù),以便將長樣本與可以打包的短樣本相匹配。本文的動態(tài)打包使訓(xùn)練吞吐量增加了近4倍。
指令調(diào)優(yōu)
多模態(tài)指令調(diào)優(yōu)是使模型具備各種模態(tài)的不同技能和能力,甚至適應(yīng)新的和獨特的指令的關(guān)鍵過程。
研究人員通過結(jié)合廣泛的監(jiān)督數(shù)據(jù)集和任務(wù)來構(gòu)建多模態(tài)指令調(diào)優(yōu)數(shù)據(jù)集。

指令調(diào)諧數(shù)據(jù)的分布如上圖所示??傮w而言,指令調(diào)優(yōu)組合包括60%的提示數(shù)據(jù)、30%從預(yù)訓(xùn)練中繼承下來的數(shù)據(jù)(為了避免災(zāi)難性的遺忘)、6%使用現(xiàn)有數(shù)據(jù)源構(gòu)建的任務(wù)增強數(shù)據(jù)、以及4%自由格式文本(以實現(xiàn)類似聊天的回復(fù))。




































