Llama 3.2 Vision & Molmo:多模態(tài)開(kāi)源生態(tài)系統(tǒng)基礎(chǔ) 原創(chuàng)
編者按: 視覺(jué)功能的融入對(duì)模型能力和推理方式的影響如何?當(dāng)我們需要一個(gè)既能看懂圖像、又能生成文本的 AI 助手時(shí),是否只能依賴于 GPT-4V 這樣的閉源解決方案?
我們今天為大家分享的這篇文章,作者的核心觀點(diǎn)是:多模態(tài)語(yǔ)言模型領(lǐng)域正處于快速發(fā)展階段,Llama 3.2 Vision 和 Molmo 等開(kāi)源模型的出現(xiàn)為構(gòu)建開(kāi)放的多模態(tài)生態(tài)系統(tǒng)奠定了重要基礎(chǔ)。
本文分享了來(lái)自 Meta 的 Llama 3.2 Vision 和 AI2 的 Molmo 模型的主要技術(shù)架構(gòu)及其特點(diǎn),同時(shí)比較了它們與眾多多模態(tài)大模型的性能表現(xiàn)。文中介紹在多數(shù)視覺(jué)領(lǐng)域測(cè)試中, Molmo 表現(xiàn)更優(yōu),Llama 3.2 V 在 MMMU 等文本相關(guān)任務(wù)中表現(xiàn)更好,目前多模態(tài)模型的開(kāi)源定義仍需進(jìn)一步探討和完善,但 Molmo 是目前最接近開(kāi)源的視覺(jué)模型。同時(shí)還探究了視覺(jué)功能的融入對(duì)模型能力和推理方式的影響。
盡管目前在評(píng)估工具、數(shù)據(jù)集等方面還存在不足,但開(kāi)源模型已經(jīng)展現(xiàn)出與閉源模型相媲美的潛力,這預(yù)示著多模態(tài) AI 領(lǐng)域即將迎來(lái)新的發(fā)展機(jī)遇。
作者 | Nathan Lambert
編譯 | 岳揚(yáng)
多模態(tài)語(yǔ)言模型領(lǐng)域相比純語(yǔ)言模型,顯得定義更為不明確、未解決的問(wèn)題更多,同時(shí)也有更多空間讓人們發(fā)揮創(chuàng)意。在語(yǔ)言模型領(lǐng)域,存在一系列明確的任務(wù)和行為,那些前沿實(shí)驗(yàn)室正試圖通過(guò)例如 OpenAI o1 這樣的創(chuàng)新訓(xùn)練方法,在最為棘手的推理問(wèn)題上取得突破。然而,無(wú)論是前沿實(shí)驗(yàn)室(frontier labs)還是小型實(shí)驗(yàn)室(small labs),都在探索多模態(tài)模型的應(yīng)用方向。AI如何“感知”和理解外部世界?擁有一系列強(qiáng)大的開(kāi)放式模型(open models)對(duì)于該領(lǐng)域全面且公開(kāi)、透明的發(fā)展至關(guān)重要——這是實(shí)現(xiàn)積極成果的兩個(gè)關(guān)鍵條件(譯者注:這兩個(gè)條件應(yīng)當(dāng)是指全面、公開(kāi)透明的發(fā)展)。
目前,多模態(tài)語(yǔ)言模型研究大多是通過(guò) late-fusion 模型進(jìn)行的,即基于語(yǔ)言主干網(wǎng)絡(luò)(language backbone)和圖像編碼器(image encoder)(很可能也是 GPT-4V 所使用的方法)進(jìn)行初始化。 這種對(duì)基礎(chǔ)語(yǔ)言模型的微調(diào)方式雖然成本較高,但實(shí)際上計(jì)算成本并沒(méi)有人們想象的那么難以承受。雖然存在多種模型架構(gòu)[1],但由于 late-fusion 這一架構(gòu)的穩(wěn)定性和可預(yù)測(cè)性,成為了當(dāng)下研究的熱門(mén)選擇。Molmo 和 Llama 3.2 V 就是通過(guò)這種方法訓(xùn)練而成的。
通過(guò)在多模態(tài)數(shù)據(jù)集上預(yù)訓(xùn)練的 early-fusion 模型來(lái)擴(kuò)展數(shù)據(jù)的預(yù)期效果尚未顯現(xiàn)?;蛟S只有當(dāng)這些模型在 GPT-5 級(jí)別的計(jì)算集群上進(jìn)行測(cè)試時(shí),它們的真正優(yōu)勢(shì)才會(huì)顯現(xiàn)出來(lái)。
Late-fusion 的多模態(tài)方法激發(fā)了我們對(duì)如何將基礎(chǔ)語(yǔ)言模型轉(zhuǎn)型升級(jí)為多樣化輸出形式的深入探索?;仡欉^(guò)去幾年我們?cè)谀P臀⒄{(diào)領(lǐng)域所采用的各種技術(shù),從 RLHF 開(kāi)始,到多模態(tài) late-fusion 模型,再到像 o1 這樣的創(chuàng)新模型,我們意識(shí)到模型還有大量表達(dá)潛能等待我們?nèi)グl(fā)掘。一些基本問(wèn)題仍然值得關(guān)注,比如“多模態(tài)訓(xùn)練會(huì)對(duì) GSM8k 或 IFEval 這樣的標(biāo)準(zhǔn)文本評(píng)測(cè)基準(zhǔn)造成何種影響?”在對(duì)模型進(jìn)行視覺(jué)方面的微調(diào)之后,那些主要用于評(píng)估模型知識(shí)水平的標(biāo)準(zhǔn)測(cè)試,例如 MMLU(Massive Multitask Language Understanding)測(cè)試,并沒(méi)有發(fā)生較大變化。
這個(gè)領(lǐng)域?qū)ξ襾?lái)說(shuō)同樣新穎。本文的主要介紹對(duì)象是 Ai2 的一個(gè)重要模型版本——Molmo[2](開(kāi)放式多模態(tài)語(yǔ)言模型),以及 Meta 的新模型 Llama 3.2 Vision。兩者都推出了一套不同規(guī)模的四個(gè)模型。它們的性能表現(xiàn)相當(dāng),但 Molmo 在開(kāi)放程度上更勝一籌。
Meta 發(fā)布了 Llama 3.2 的早期版本,包括 1B、3B、11B-Vision 和 90B-Vision[3],并在博客文章中透露了一些訓(xùn)練過(guò)程的細(xì)節(jié)[4](文章中還有相關(guān)鏈接)。11B 模型可能是基于 Llama 3 8B 模型的改進(jìn)版,而 90B 模型則是在 Llama 3 70B 模型的基礎(chǔ)上發(fā)展而來(lái)的。
Ai2 推出了基于 Qwen 2 72B 打造的 Molmo 72B,基于 Qwen 2 7B 的 Molmo-7B-D,即將問(wèn)世的基于 OLMo 7B 版本的 Molmo-O,以及基于 OLMoE 并擁有 1B 活躍參數(shù)的 Molmo-E。
Molmo 系列模型采用 Apache 2.0 許可協(xié)議,而 Meta 模型則采用了 Llama 3.2 社區(qū)許可協(xié)議,該許可協(xié)議對(duì)模型的使用施加了一些較為嚴(yán)格的限制。
這不禁讓人思考,人工智能領(lǐng)域的發(fā)展將何去何從。實(shí)際上,重頭戲是 1B 和 3B 參數(shù)規(guī)模的 Llama 模型。小型語(yǔ)言模型的市場(chǎng)需求持續(xù)攀升,而且隨著這些模型能力的不斷提升,市場(chǎng)潛力還在不斷擴(kuò)大。我會(huì)反復(fù)探討這一話題,但今天我們聚焦的是多模態(tài)。
01 Llama Vision:面向大眾開(kāi)發(fā)者的多模態(tài)模型
自 Llama 3 報(bào)告[5]發(fā)布以來(lái),Meta 已經(jīng)明確表示這些模型不久將面世(歐盟地區(qū)除外)。Meta 正在將它們應(yīng)用到 Meta AI 以及旗下的增強(qiáng)現(xiàn)實(shí)(AR)/虛擬現(xiàn)實(shí)(VR)設(shè)備,例如 RayBan 智能眼鏡。這些模型非??煽?,比封閉實(shí)驗(yàn)室的小型模型更勝一籌,后者的活躍參數(shù)通常估計(jì)在 60B 范圍內(nèi)。
關(guān)于這些模型的具體信息相對(duì)較少。若歐盟地區(qū)的用戶嘗試從 Meta AI 的官方頁(yè)面下載模型,將會(huì)看到我在 HuggingFace 平臺(tái)上看到的地理限制鎖??。
其他用戶可在 Meta AI 中獲取這些模型。不過(guò)還有個(gè)更重要的消息,還有一些具有更豐富文檔和更高開(kāi)放性的模型可供使用(且不受地理限制)。
02 Molmo:與 Llama Vision 相當(dāng)?shù)囊粋€(gè)(大部分)開(kāi)源的模型
Molmo 是 Ai2 最新推出的開(kāi)源語(yǔ)言模型[6],它附有一份初步的技術(shù)報(bào)告[7],用戶可以免費(fèi)體驗(yàn)?zāi)P?demo[8],而且即將公開(kāi)相應(yīng)的數(shù)據(jù)集。該項(xiàng)目的宗旨是構(gòu)建開(kāi)源語(yǔ)言模型,讓任何人都有機(jī)會(huì)參與或理解構(gòu)建現(xiàn)代 AI 模型的最關(guān)鍵部分。Molmo 模型是在 Qwen2 和 OLMo 的架構(gòu)基礎(chǔ)上,結(jié)合了 CLIP 編碼器[9]進(jìn)行訓(xùn)練的。但盡管有了這個(gè)數(shù)據(jù)開(kāi)放的 CLIP 版本[10],研究團(tuán)隊(duì)并沒(méi)有選擇這個(gè)版本,而是放棄使用它,轉(zhuǎn)而選擇另一種版本,因?yàn)楹笳呦掠涡阅芨吭?。?qǐng)注意,Mistral 的 Pixtral 模型[11]和 Llama 模型都訓(xùn)練了自己的編碼器。相關(guān)博客文章清晰地闡述了這些組成部分是如何協(xié)同工作的:
該模型架構(gòu)采用了將語(yǔ)言模型與圖像編碼器結(jié)合的簡(jiǎn)潔而標(biāo)準(zhǔn)的設(shè)計(jì)。整個(gè)模型由四個(gè)主要部分組成: (1) 一個(gè)預(yù)處理器,將輸入的單張圖像轉(zhuǎn)換成一系列不同尺度(multiscale)和不同裁剪方式(multi-crop)的圖像集合; (2) 一個(gè) ViT 圖像編碼器,獨(dú)立地將這些圖像轉(zhuǎn)換成一系列視覺(jué) tokens; (3) 一個(gè)連接器,負(fù)責(zé)將視覺(jué) tokens 轉(zhuǎn)換為適合語(yǔ)言模型輸入的維度,并通過(guò)池化技術(shù)減少視覺(jué) tokens 數(shù)量; (4) 一個(gè)僅包含解碼器的 Transformer 大語(yǔ)言模型(LLM)。
論文中對(duì)該模型結(jié)構(gòu)進(jìn)行了詳細(xì)的概述。
請(qǐng)留意,在這些模型的兩個(gè)訓(xùn)練階段中,所有的模型參數(shù)都會(huì)得到更新,而不是保持不變。此外,這些模型在訓(xùn)練過(guò)程中并未采用RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))或偏好調(diào)優(yōu)技術(shù)(preference tuning)。就我們針對(duì)視覺(jué)模型所設(shè)定的基準(zhǔn)測(cè)試而言,Molmo 模型在性能上可與 GPT、Claude 以及 Gemini 模型相媲美。
相較于 Llama 3.2 V 模型,Molmo 在多數(shù)視覺(jué)領(lǐng)域的表現(xiàn)更勝一籌。以下是對(duì)各個(gè)基準(zhǔn)測(cè)試得分情況的概述:
- 在MMMU測(cè)試中,Llama模型的得分高出6分;
- 在MathVista測(cè)試中,Molmo模型的得分領(lǐng)先1分;
- 在ChatQA測(cè)試中,Molmo模型的得分高出2分;
- 在AI2D測(cè)試中,Molmo模型的得分領(lǐng)先4分;
- 在DocVQA測(cè)試中,Molmo模型的得分高出3分;
- 而在VQAv2測(cè)試中,兩者的得分相近,或者 Molmo 稍占優(yōu)勢(shì)(Llama 3.2 的博客文章中對(duì)這一處的報(bào)告不夠明確)。
以下是 Reddit 上的用戶 LocalLlama[12] 對(duì)評(píng)估結(jié)果的獨(dú)立復(fù)現(xiàn)。
依我看,這一點(diǎn)也基本符合各組織的追求目標(biāo),Llama 3.2 V 在文本方面表現(xiàn)更佳,或許優(yōu)勢(shì)還相當(dāng)明顯,但在圖像方面,Molmo 則更勝一籌。特別是在識(shí)別圖像中的指向性特征和讀取時(shí)鐘等任務(wù)上,Molmo 的表現(xiàn)尤為出色。
正如我將在本文后續(xù)部分進(jìn)一步探討的,基準(zhǔn)測(cè)試并不能全面反映這些模型的實(shí)力。Molmo 對(duì)開(kāi)源和科學(xué)界做出了巨大貢獻(xiàn),但探討這些模型的行為特性同樣重要。Molmo 具備一項(xiàng)獨(dú)特的功能,是其同等級(jí)模型所不具備的 —— 那就是能夠指向參考圖片中的特定像素。 例如,我向 Molmo 詢問(wèn)了一張我的照片中自行車(chē)的位置[13]。
這種指向性功能是多模態(tài)模型在 web agents 應(yīng)用中最顯著的優(yōu)點(diǎn)。一旦在模型訓(xùn)練時(shí)融入了足夠的 web 數(shù)據(jù),它就能迅速掌握瀏覽所有常規(guī)網(wǎng)頁(yè)的能力。
當(dāng)模型被要求對(duì)同一張圖片進(jìn)行描述時(shí),它給出了一個(gè)相當(dāng)詳盡的描述[14],而且相當(dāng)標(biāo)準(zhǔn):
圖片是一張 Zoom 通話的截屏,圖片被黑色邊框和白色內(nèi)框所環(huán)繞。在右上角,有一個(gè)小窗口顯示另一位參與者,他留著胡須,戴著眼鏡和耳機(jī),身穿一件黑色T恤。他坐在壁爐前,壁爐臺(tái)上擺放著照片和書(shū)籍。主畫(huà)面中的年輕男子有著短短的棕色頭發(fā)和藍(lán)色的眼睛,面帶微笑,穿著一件點(diǎn)綴著白色圓點(diǎn)的藍(lán)色襯衫。他坐在一個(gè)白色墻壁、帶窗臺(tái)窗戶的房間里,背后是一個(gè)黑色的架子。架子上陳列著各式物品,墻上還掛著一個(gè)自行車(chē)輪胎。屋內(nèi)還擺放了幾幅裝框的畫(huà)作。屏幕頂端顯示著文件名……
這種詳細(xì)的描述得益于新數(shù)據(jù)集 PixMo 的直接影響,該數(shù)據(jù)集被用于訓(xùn)練 Molmo 模型。PixMo 的價(jià)值遠(yuǎn)遠(yuǎn)超出這些早期模型。這個(gè)數(shù)據(jù)集的創(chuàng)新之處在于,它讓標(biāo)注人員通過(guò)音頻而非文字來(lái)對(duì)圖片做出回應(yīng)(類似于這篇關(guān)于局部化敘述的研究[15]),這使得他們的數(shù)據(jù)標(biāo)注更加富有創(chuàng)造性和描述性。事實(shí)上,數(shù)據(jù)標(biāo)注人員們非常喜歡這些任務(wù)(比如提供指向數(shù)據(jù)),以至于他們主動(dòng)要求完成更多任務(wù)。激發(fā)數(shù)據(jù)標(biāo)注人員的高度參與度是任何人工數(shù)據(jù)流程(human data pipeline)的目標(biāo),而這在我所見(jiàn)過(guò)的案例中是前所未有的。這個(gè)數(shù)據(jù)集有數(shù)百萬(wàn)個(gè)樣例,涉及各種各樣的圖像。
我們所掌握的有關(guān) Llama 3.2 V 的少數(shù)技術(shù)細(xì)節(jié)之一是,它是在 “6B(圖像,文本)對(duì)” 上進(jìn)行訓(xùn)練的,其中大部分可能是合成數(shù)據(jù)。而 Molmo 則是通過(guò)主要由人類產(chǎn)生的數(shù)百萬(wàn)份數(shù)據(jù)進(jìn)行訓(xùn)練。
對(duì)于 OLMo 模型,包括 Molmo 在內(nèi),最關(guān)鍵的差異化因素和戰(zhàn)略是其開(kāi)放性(openness)。隨著對(duì)“開(kāi)源 AI”定義的討論進(jìn)行,像這些多模態(tài)模型(例如 CLIP)就是很好的案例,可以用來(lái)檢驗(yàn)或“壓力測(cè)試”我們對(duì)開(kāi)源 AI 的理解。以下是對(duì) Molmo 模型及其同類模型的開(kāi)放性比較 —— Llama 3.2 V 的開(kāi)放性與其他所有權(quán)重開(kāi)源模型(open-weight models)相似。
這些模型都采用了沒(méi)有開(kāi)放數(shù)據(jù)的視覺(jué)編碼器(主要是 OpenAI 的 CLIP),但也有開(kāi)源的替代方案。公開(kāi)圖像數(shù)據(jù)風(fēng)險(xiǎn)較高(可能會(huì)涉及像 CSAM 這樣的敏感問(wèn)題),而且過(guò)程復(fù)雜。Molmo 模型是基于非開(kāi)源模型進(jìn)行微調(diào)的(并對(duì)參數(shù)進(jìn)行了更新),根據(jù)開(kāi)源倡議的最新定義,它們并不能算作開(kāi)源。但如果 Molmo 只是公開(kāi)數(shù)據(jù)的嵌入,而不是原始圖像或文本數(shù)據(jù),那么這種做法是否能讓模型滿足開(kāi)源要求。這就引出了一個(gè)問(wèn)題:當(dāng)核心權(quán)重保持不變并且公開(kāi)嵌入數(shù)據(jù)時(shí),模型的開(kāi)源性是否依舊符合標(biāo)準(zhǔn)?
這與根據(jù)其他語(yǔ)言模型(包括非公開(kāi)模型)的合成輸出訓(xùn)練出的模型可被視為開(kāi)源的定義是一樣的。在同時(shí)使用多個(gè)模型和數(shù)據(jù)流的領(lǐng)域,開(kāi)源 AI 的定義還需要進(jìn)一步的探討。 對(duì)于僅使用文本進(jìn)行預(yù)訓(xùn)練的模型,其“開(kāi)源”定義原則上是合理的,只需要在一些細(xì)節(jié)上做出調(diào)整。然而,當(dāng)涉及到微調(diào)和多模態(tài)時(shí),情況變得更加復(fù)雜,因此還需要更多的討論。
基于這些原因,我不會(huì)直接宣稱“Molmo 是開(kāi)源的”,但它無(wú)疑是目前最為接近開(kāi)源的視覺(jué)模型。從定義上講,生態(tài)系統(tǒng)中最開(kāi)放的實(shí)驗(yàn)室在戰(zhàn)略上與開(kāi)源的差距微乎其微。
03 視覺(jué)功能的融入對(duì)模型能力和推理方式的影響
視覺(jué)功能的增加可以被視為一種微調(diào)問(wèn)題,讓我不禁要問(wèn),當(dāng)前頂級(jí)模型在處理帶圖像和不帶圖像的相同提示詞時(shí)會(huì)有怎樣的表現(xiàn)。在幕后會(huì)將 query 路由給不同的模型。對(duì)于那些不是 early fusion 模型的,比如 GPT-4 和 Claude,除了推理成本之外,帶有視覺(jué)元素幾乎肯定會(huì)對(duì)性能有所影響 —— 否則,所有的模型都將是視覺(jué)模型。而對(duì)于像 GPT-4o 這樣能夠原生處理圖像數(shù)據(jù)的模型,這一測(cè)試并不適用。
最直接的比較方法就是查看模型的標(biāo)準(zhǔn)版本和視覺(jué)版本對(duì)文本任務(wù)進(jìn)行評(píng)估的差異。然而,在目前已經(jīng)發(fā)布的模型中,進(jìn)行這種直接比較的寥寥無(wú)幾。即便有,也通常只限于部分評(píng)估。在撰寫(xiě)本文的過(guò)程中,我做了一個(gè)還算不錯(cuò)但并不完全詳盡的調(diào)查,發(fā)現(xiàn)對(duì)比數(shù)據(jù)不足,因此沒(méi)法用具體的數(shù)字支撐一個(gè)有說(shuō)服力的論點(diǎn)。我的直覺(jué)是,在模型中加入視覺(jué)處理會(huì)使得模型在訓(xùn)練完成之后通過(guò)各種方法(如微調(diào)、優(yōu)化等)實(shí)現(xiàn)的性能提升(我們?cè)?ChatBotArena 等平臺(tái)上觀察到的)變得更加難以實(shí)現(xiàn)。
本實(shí)驗(yàn)旨在觀察 GPT-4 和 Claude 3.5 Sonnet 在處理中等難度的推理或編程任務(wù)時(shí),能否在有圖像干擾的情況下正確地忽略非相關(guān)信息。實(shí)驗(yàn)結(jié)果顯示,當(dāng)明確指示模型忽略某些信息時(shí),它們都能輕松做到,并且在后續(xù)詢問(wèn)圖像相關(guān)問(wèn)題時(shí),仍能準(zhǔn)確理解圖像內(nèi)容。圖像的引入可能會(huì)導(dǎo)致模型更容易出現(xiàn)之前模型在處理類似任務(wù)時(shí)遇到的那些典型問(wèn)題或錯(cuò)誤。
我首先提出了一個(gè)我經(jīng)常使用的簡(jiǎn)單推理問(wèn)題:“月球能裝下多少高爾夫球?”無(wú)論是附有圖像還是無(wú)圖像的 ChatGPT4 ,它們的推理過(guò)程幾乎相同,得出的答案也非常接近。
另一方面,Claude 的視覺(jué)系統(tǒng)在這個(gè)例子中(見(jiàn)下圖右側(cè))顯得有些力不從心。Claude 給出的回應(yīng),更像是一種巧妙的回避,而不是像往常那樣嘗試解答這個(gè)常見(jiàn)的概念性問(wèn)題。
這個(gè)任務(wù)難度似乎不夠,于是我決定挑戰(zhàn)一個(gè)編程問(wèn)題,要求 LLM 闡述解題思路,然后為其編寫(xiě)一個(gè) Python 腳本 —— 一個(gè)語(yǔ)言模型的基本訓(xùn)練腳本。首先未提供給 ChatGPT 相關(guān)圖像,這也在情理之中,對(duì)于實(shí)際開(kāi)發(fā)來(lái)說(shuō),其作用有限。
ChatGPT 對(duì)帶有圖像的提示詞的回應(yīng)不夠詳盡,也不夠周全。
而 Claude 所給出的兩次回答在內(nèi)容上幾乎無(wú)二致。
這個(gè)結(jié)論并不讓人意外。模型的圖像輸入不那么成熟,因此我們看到了更多去年常見(jiàn)的典型問(wèn)題或不足之處。
更值得關(guān)注的問(wèn)題是未來(lái)這種情況會(huì)有顯著改善,還是維持現(xiàn)狀?像 o1 這樣的特性獲得的認(rèn)可度,明顯高于更優(yōu)質(zhì)的視覺(jué)輸入。在 AI 模型領(lǐng)域,語(yǔ)言仍然是核心, 如果沒(méi)有明確的任務(wù)來(lái)挑戰(zhàn)視覺(jué)的極限 ,就很難證明視覺(jué)輸入具有變革性。語(yǔ)言依然是這個(gè)生態(tài)系統(tǒng)的命脈。
對(duì)于 Molmo 而言,由于缺乏標(biāo)準(zhǔn)的文本指令調(diào)優(yōu)和 RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí)),在進(jìn)行推理任務(wù)時(shí),給人的感覺(jué)與以往熟悉的模型大相徑庭。我們清楚,需要在所有 OLMo 模型上不斷優(yōu)化這類任務(wù)。
然而,Molmo 還有一些 Claude 和 ChatGPT 所不具備的特殊功能。我們期待這些功能能夠證明其使用價(jià)值。如果想要體驗(yàn)這些模型,還有一個(gè)選擇是 Vision Arena[16],但需要注意的是,它的某些功能接口出現(xiàn)了問(wèn)題,而且其運(yùn)行速度不及原生的本地應(yīng)用程序。
04 多模態(tài)語(yǔ)言模型:正處于快速發(fā)展階段的前端
Molmo 項(xiàng)目與我之前關(guān)注的純文本模型項(xiàng)目的進(jìn)展相比,最顯著的區(qū)別在于多模態(tài)模型生態(tài)系統(tǒng)的成熟度較低。 尤其是在模型訓(xùn)練完成后的行為研究方面,我們?nèi)鄙僭u(píng)估工具、數(shù)據(jù)集、開(kāi)放的基準(zhǔn)模型 —— 總之,一切都非常缺乏。我在今年年初就這個(gè)問(wèn)題發(fā)表了自己的看法,特別是對(duì)于開(kāi)放流程(open pipelines)中多模態(tài) RLHF 的不明確性[17],遺憾的是,至今變化不大。這就導(dǎo)致了一個(gè)現(xiàn)象:某些可以說(shuō)是“開(kāi)源”的模型幾乎能與像 GPT-4o 這樣的閉源模型相媲美。
需要明確的是,雖然技術(shù)報(bào)告中對(duì)模型的基準(zhǔn)測(cè)試討論頗多,但與潛在的研究空間相比,這些討論僅僅是觸及了表面。許多評(píng)估工作是將傳統(tǒng)語(yǔ)言模型的理念,如解釋概念或識(shí)別內(nèi)容,遷移到視覺(jué)領(lǐng)域。 而對(duì)于視覺(jué)模型來(lái)說(shuō),我們需要的是全新的基準(zhǔn)測(cè)試方向。對(duì)于視覺(jué)語(yǔ)言模型,SWE-Bench 的對(duì)等基準(zhǔn)測(cè)試會(huì)是什么?我推測(cè)可能會(huì)出現(xiàn) SWE-Bench-Vision,但我們還需要開(kāi)發(fā)更多無(wú)法與文本模型相對(duì)應(yīng)的新測(cè)試類別。
在使用多模態(tài)模型時(shí),我發(fā)現(xiàn)并不清楚應(yīng)該用它們來(lái)做什么。這些模型在信息提取和加工處理等方面確實(shí)強(qiáng)大。我就經(jīng)常用 Claude 或 ChatGPT 來(lái)復(fù)制表格內(nèi)容或重新編寫(xiě)代碼生成圖表。除了前面提到的用途之外,還有很多功能,特別是場(chǎng)景描述(scene captioning),雖然展示出來(lái)的時(shí)候非常吸引人,讓人印象深刻,但并不是我們?nèi)粘I钪袝?huì)經(jīng)常使用到的功能。
曾經(jīng),視覺(jué)語(yǔ)言模型的效果并不理想。但現(xiàn)在,它們的性能得到了大大增強(qiáng),更重要的是,它們現(xiàn)在可以被大規(guī)模公開(kāi)使用,這無(wú)疑會(huì)促進(jìn)其被更廣泛地采用。而隨著使用率的提升,就有了發(fā)展的反饋回路。以下是對(duì)這一論點(diǎn)的詳細(xì)解釋。
特別是,Meta 采取了將“開(kāi)源 AI”的品牌與 Llama 模型掛鉤的策略,這一行動(dòng)提升了 Llama 模型在業(yè)界的可信度,從而促使更多開(kāi)發(fā)者更加重視此類模型。
在未來(lái)的多模態(tài)語(yǔ)言模型中,唯一尚未解決但肯定會(huì)重要的應(yīng)用是理解網(wǎng)頁(yè)元素。 Web agents 成為了阻礙生成式 AI 產(chǎn)品大規(guī)模部署的最后幾道關(guān)卡之一。 我們之所以尚未見(jiàn)到更多的 web agents,可能是因?yàn)楫?dāng)前的生態(tài)系統(tǒng)過(guò)于依賴封閉模型,而這些模型很難獲得執(zhí)行相關(guān)操作所需的權(quán)限(尤其是在企業(yè)級(jí)應(yīng)用中)。隨著技術(shù)能力的提升,我們有理由相信,權(quán)重開(kāi)源模型(open-weight models)將會(huì)得到快速的推廣和應(yīng)用。推動(dòng)多模態(tài)模型發(fā)展的原因似乎更多是市場(chǎng)、技術(shù)、行業(yè)趨勢(shì)等方面的因素,而非僅僅是為了推廣本地多模態(tài)模型 —— 這一點(diǎn)我們可以向 Adept 公司進(jìn)行探討。隨著權(quán)重開(kāi)源模型和近乎開(kāi)源模型((nearly) open-source models)的增多,AI 領(lǐng)域的加速發(fā)展指日可待。
Thanks for reading!
Hope you have enjoyed and learned new things from this blog!
About the authors
Nathan Lambert
ML researcher making sense of AI research, products, and the uncertain technological future. PhD from Berkeley AI. Experience at Meta, DeepMind, HuggingFace.
END
本期互動(dòng)內(nèi)容 ??
?Molmo 模型的“像素級(jí)指向功能”給您帶來(lái)了哪些啟發(fā)?您認(rèn)為這個(gè)功能在未來(lái)可能催生什么樣的創(chuàng)新應(yīng)用?
??文中鏈接??
[1]??https://lilianweng.github.io/posts/2022-06-09-vlm??
[2]??https://molmo.allenai.org/blog??
[3]??https://huggingface.co/collections/meta-llama/llama-32-66f448ffc8c32f949b04c8cf??
[5]??https://arxiv.org/abs/2407.21783??
[6]??https://www.interconnects.ai/p/olmo??
[7]??https://molmo.allenai.org/paper.pdf??
[8]??https://molmo.allenai.org/??
[9]??https://huggingface.co/openai/clip-vit-large-patch14-336??
[10]??https://github.com/mlfoundations/open_clip??
[11]??https://mistral.ai/news/pixtral-12b/??
[13]??https://molmo.allenai.org/share/963de0d0-9069-4a14-ad5a-8e4bc0863136??
[14]??https://molmo.allenai.org/chat/d1917496-1581-4ca5-8bda-1f4216d1ea1e??
[15]??https://arxiv.org/abs/1912.03098??
[16]??https://huggingface.co/spaces/WildVision/vision-arena??
[17]??https://www.interconnects.ai/i/140525309/multimodal-rlhf-questions-ideas-and-resources??
原文鏈接:
??https://www.interconnects.ai/p/molmo-and-llama-3-vision??
