偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

號稱擊敗Claude 3.5 Sonnet,媲美GPT-4o,開源多模態(tài)模型Molmo挑戰(zhàn)Scaling law

人工智能 新聞
Ai2 又是如何做到「四兩撥千金」的呢?答案在 Ai2 公布的技術(shù)報告和論文中,這個秘訣就是:數(shù)據(jù)。

雖然大家一直在期待谷歌、OpenAI 等等擁有無限資金儲備和頂尖人才的大廠做出新的 Sota 模型。不過,一家默默耕耘的創(chuàng)業(yè)公司 Ai2 發(fā)布了一款多模態(tài)人工智能模型 Molmo。

在下面展示的視頻中,我們可以看到 Molmo 就像鋼鐵俠的「賈維斯」一樣萬能。想賣自行車,咨詢一下 Molmo 的建議,僅靠一張照片,Molmo 就能把自行車的顏色、品牌和二手售價搞清楚,并且?guī)湍銓懗鲆痪漤樋诘膹V告語。

它也可以從虛擬世界幫你解決現(xiàn)實世界的問題,說一句:「Molmo,幫我買杯星巴克的南瓜拿鐵?!故O碌木筒挥脛邮至?,打開外賣網(wǎng)頁、點餐、付款,Molmo 一氣呵成。你所要做的,就是坐在家中,靜候咖啡送到你的手中。

圖片

機器之心也嘗試了一下他們在線發(fā)布的 Demo 模型。相較于宣傳視頻,其功能還很有限,所以我們讓其執(zhí)行了圖像描述任務(wù),可以看到 Molmo 在細節(jié)描述和準確度上的表現(xiàn)確實很不錯,它甚至能注意到貓背上的小玩具:「玩具看起來像一只綠色的老鼠,鼻子是粉紅色的,尾巴是蓬松的,羽毛色彩繽紛?!?/span>

圖片

但遺憾的是,Molmo 的漢語輸出能力非常有限,即使我們明確要求其輸出漢語,它也未能辦到:

圖片

除了 Demo,從數(shù)據(jù)來看,Molmo 的表現(xiàn)也足夠驚艷。在人類測評和一系列測試集中,Molmo 的得分擊敗了 Claude 3.5 Sonnet、GPT4V 等一眾頂尖模型,甚至可以媲美 GPT4o。

圖片

不過,Molmo 的體量更小,卻能「以小搏大」,性能超越了比它的參數(shù)量大十倍的其他模型。據(jù) Ai2 首席執(zhí)行官 Ali Farhadi 稱,Molmo 的體積小到可以在本地運行,它無需 API、無需訂閱、更無需成本高昂的液冷 GPU 集群。

更重要的是 Molmo 完全免費且開源,所有的權(quán)重、代碼、數(shù)據(jù)和評估流程都即將公布。

部分模型權(quán)重、推理代碼和一個基于 Molmo-7B-D 模型的公開演示已經(jīng)可以使用。

體驗鏈接:https://huggingface.co/collections/allenai/molmo-66f379e6fe3b8ef090a8ca19

Ai2 又是如何做到「四兩撥千金」的呢?答案在 Ai2 公布的技術(shù)報告和論文中,這個秘訣就是:數(shù)據(jù)。

圖片

論文鏈接:https://molmo.allenai.org/paper.pdf

目前,最先進的多模態(tài)模型大多是閉源的,即使有一些開源的模型表現(xiàn)不錯,但它們通常依賴于專有模型生成的合成數(shù)據(jù)。因此,如何從零開始構(gòu)建高性能 VLM,對于開源社區(qū)來說,種種基礎(chǔ)知識都很難獲得。

圖片

各大多模態(tài)模型的開源程度

如上圖所示,Ai2 的研究團隊統(tǒng)計了目前 VLM 的開源程度,除了直接看模型的權(quán)重、數(shù)據(jù)和代碼是否公開,他們還考慮了模型是否依賴于其他閉源模型。如果一個模型在訓練中用了其他專有模型生成的數(shù)據(jù),那它就被標記為「蒸餾」,這意味著它無法完全獨立再現(xiàn)。

針對「閉源」的瓶頸,Ai2 使用語音描述收集了一個高細節(jié)度的圖像描述數(shù)據(jù)集,這個數(shù)據(jù)集完全由人工標注,并可以公開訪問。

該團隊認為提升模型性能的訣竅是使用更少但質(zhì)量更好的數(shù)據(jù)。面對數(shù)十億張圖像,不可能僅靠人力完成篩選、精細標注和去重的工作,因此,他們沒有選擇 scaling law,而是精心挑選并注釋了 60 萬張圖像。

數(shù)據(jù)集鏈接:https://docs.google.com/forms/u/0/d/e/1FAIpQLSdML1MhNNBDsCHpgWG65Oydg2SjZzVasyqlP08nBrWjZp_c7A/formResponse?pli=1

為了讓 Molmo 能處理更多任務(wù),Ai2 還引入了一個多樣化的數(shù)據(jù)混合對模型進一步微調(diào),其中就包括一種獨特的二維「指向」數(shù)據(jù)。

因為現(xiàn)在市面上的多模態(tài)模型的工作原理是把圖片、聲音、文字等多種模態(tài)轉(zhuǎn)換成自然語言的表示,而基于「指向」數(shù)據(jù)的 Molmo 更進一步,它可以用非語言的方式(如指向物體)進行解答。

比如,向 Molmo 提問:「你可以指出這塊白板上的哪個模型的訓練時間最短嗎?」它不僅能用語音準確回答,還能直接用箭頭「指向」它是從哪些數(shù)據(jù)中得到答案的。

圖片

Molmo 用紅色的波紋標出了自己識別的對象。

要求 Molmo 數(shù)圖中有多少只狗,它的計數(shù)方法是在每只狗的臉上畫一個點。如果要求它數(shù)狗狗舌頭的數(shù)量,它會在每只舌頭上畫一個點。

「指向」讓 Molmo 能夠在零樣本的情況下執(zhí)行更廣泛的任務(wù),同時,無需查看網(wǎng)站的代碼,它可以懂得如何瀏覽頁面、提交表單。

這種能力也讓 Molmo 更自然地連接現(xiàn)實世界和數(shù)字世界,為下一代應(yīng)用程序提供全新的互動方式。

PixMo:數(shù)據(jù)質(zhì)量勝過數(shù)量

通常而言,要訓練一個大型 VLM,需要數(shù)以十億計的圖像 - 文本對數(shù)據(jù)。而這些數(shù)據(jù)往往取自網(wǎng)絡(luò),因此噪聲很高。模型就需要在訓練過程中分離信號與噪聲。有噪聲文本還會導致模型輸出出現(xiàn)幻覺。

基于這樣的考慮,該團隊采用了不同的方法來獲取數(shù)據(jù)。他們將數(shù)據(jù)質(zhì)量放在了更重要的位置,結(jié)果發(fā)現(xiàn),使用少于 1M 的圖像 - 文本對就足以訓練出強大的模型 —— 這比許多其它同類方法少了 3 個數(shù)量級。

Molmo 系列模型之所以能取得成功,最關(guān)鍵的要素莫過于 PixMo——Molmo 的訓練數(shù)據(jù)。

Pixmo 包含兩大類數(shù)據(jù):(1) 用于多模式預(yù)訓練的密集描述數(shù)據(jù)和 (2) 用于實現(xiàn)各種用戶交互的監(jiān)督式微調(diào)數(shù)據(jù),包括問答、文檔閱讀和指向等行為。

該團隊表示,在收集這些數(shù)據(jù)時,主要限制是避免使用已有的 VLM,因為「我們希望從頭構(gòu)建一個高性能 VLM」,而不是蒸餾某個已有的系統(tǒng)(但注意,他們也確實會使用僅語言的 LLM,但并不會把圖像輸入這些模型)。

在實踐中,要讓人類來標注大量數(shù)據(jù)是非常困難的。而且人類編寫的圖像描述往往僅會提及一些突出的視覺元素,而缺乏細節(jié)。如果強制要求最低字數(shù),標注者要么需要花費太長時間,使收集過程成本高昂,要么就會從專有 VLM 復(fù)制粘貼響應(yīng),這又會違背避免蒸餾模型的目標。

因此,開放研究社區(qū)一直在努力,在不依賴專有 VLM 的合成數(shù)據(jù)的前提下,創(chuàng)建這樣的數(shù)據(jù)集。

該團隊提出了一種簡單但有效的數(shù)據(jù)收集方法,可以避免這些問題:讓標注者用語音描述圖像 60 到 90 秒,而不是要求他們打字。他們讓標注者詳細描述他們看到的一切,包括空間定位和關(guān)系的描述。

從結(jié)果上看,該團隊發(fā)現(xiàn),通過這種模態(tài)切換「技巧」,標注者可以在更短的時間內(nèi)提供更詳細的描述,并且對于每個描述都有對應(yīng)的錄音,可證明未使用 VLM。

總的來說,他們收集了 71.2 萬幅圖像的詳細音頻描述,涵蓋 50 個高層級主題。

他們的混合微調(diào)數(shù)據(jù)包含了標準的學術(shù)數(shù)據(jù)集以及一些新收集的數(shù)據(jù)集,這些新數(shù)據(jù)集也將會公開發(fā)布。學術(shù)數(shù)據(jù)集主要用于使模型在基準測試數(shù)據(jù)上表現(xiàn)良好,而新收集的數(shù)據(jù)集則能賦予模型大量重要功能,包括在與用戶聊天時能夠回答關(guān)于圖像的一般性問題(超出學術(shù)基準數(shù)據(jù)范圍)、提升 OCR 相關(guān)任務(wù)(如讀取文檔和圖表)、精準識別模擬時鐘的時間,以及在圖像中指向一個或多個視覺元素。

指向功能可為圖像中的像素提供自然的解釋,從而帶來 Molmo 全新且更強大的能力。該團隊認為,指向?qū)⒊蔀?VLM 和智能體之間重要的交流方式。例如,一個機器人可以查詢具有指向功能的 VLM 以獲得路徑點或要拾取物體的位置,而一個網(wǎng)頁智能體可以查詢 VLM 以定位需要點擊的用戶界面元素。這組系列數(shù)據(jù)集也分為以下六個:

  • PixMo-Cap:用于預(yù)訓練 VLM 的數(shù)據(jù)集,可讓其理解圖像細節(jié),其中包含 71.2 萬張不同圖像和大約 130 萬個密集圖像描述。
  • PixMo-AskModelAnything:其設(shè)計目標是讓 AI 模型可回答有關(guān)圖像的不同問題。其中包含 16.2 個問答對,涉及 7.3 萬圖像。其中問題由人類標注者編寫,答案則來自一個語言模型。
  • PixMo-Points:其中的圖像描述數(shù)據(jù)是關(guān)于圖像中物體的位置。該數(shù)據(jù)集包含 230 萬個問題 - 位置點對,涉及 42.8 萬張圖像。
  • PixMo-CapQA:包含 21.4 萬個問答對,涉及 16.5 萬個使用語言模型生成的圖像描述。
  • PixMo-Docs:包含 25.5 萬張帶有大量文本和圖表(表格、文檔、圖表)的圖像,還有語言模型生成的相應(yīng)代碼。另有 230 萬對基于生成的代碼生成的問答。
  • PixMo-Clocks:這是一個合成數(shù)據(jù)集,其中包含 82.6 萬張不同款式的模擬時鐘圖像,以及有關(guān)相應(yīng)時間的問答。

基準評估和大規(guī)模人類偏好排名

為了進行全面的評估,該團隊既使用了學術(shù)基準評測,也執(zhí)行了人類評估以根據(jù)用戶偏好對模型進行排名。

從結(jié)果上看,學術(shù)基準評測結(jié)果與人類評估結(jié)果高度一致。唯一的例外是 Qwen VL2,其在學術(shù)基準上表現(xiàn)很好,但在人類評估中表現(xiàn)相對較差。

圖片

該團隊總結(jié)得到了一些關(guān)鍵結(jié)果,并表示「Small is the new big, less is the new more」,詳情如下:

  • Molmo 系列模型中最高效的是 MolmoE-1B,其基于完全開放的 OLMoE-1B-7B 混合專家 LLM,在學術(shù)基準和人類評估上的表現(xiàn)接近 GPT-4V。
  • 在學術(shù)基準和人類評估基準上,兩個 Molmo-7B 模型的表現(xiàn)大概在 GPT-4V 和 GPT-4o 之間,并且在這兩個基準上均顯著優(yōu)于近期發(fā)布的 Pixtral 12B 模型。
  • 表現(xiàn)最好的 Molmo-72B 在學術(shù)基準上取得了最高分,但人類評估基準上則僅次于 GPT-4o,居于第二。
  • 表現(xiàn)最好的 Molmo-72B 也勝過當前最佳的一些專有系統(tǒng),包括 Gemini 1.5 Pro 和 Flash 以及 Claude 3.5 Sonnet。

圖片

在接受 TechCrunch 的采訪時, Ai2 首席執(zhí)行官 Ali Farhadi 表示,人工智能界有條定律 ——「越大越好」,訓練數(shù)據(jù)越多,模型中的參數(shù)就越多,需要的算力也就越多。但發(fā)展到一定階段時,「scaling law」就會遇到瓶頸,根本無法繼續(xù)擴大模型規(guī)模了:沒有足夠的數(shù)據(jù)、或者計算成本和時間變得太高,以至于弄巧成拙。你只能利用現(xiàn)有的資源,或者更好的辦法是,用更少的資源做更多的事情。

圖片

Ai2 首席執(zhí)行官 Ali Farhadi

模型架構(gòu)

Molmo 的模型架構(gòu)采用了簡單的標準設(shè)計,也就是將一個語言模型和一個圖像編碼器組合起來。其包含 4 個組件:

  1. 預(yù)處理器,其作用是將輸入圖像轉(zhuǎn)換為一組多尺寸和經(jīng)過不同裁剪的圖像;
  2. ViT 圖像編碼器,其作用是將每一張圖像都獨立映射成一組視覺 token;
  3. 連接器,其作用是使用 MLP 將視覺 token 投影成語言模型的輸入維度,然后匯集視覺 token 以減少其數(shù)量;
  4. 僅解碼器 Transformer LLM。

該團隊基于這一模板構(gòu)建了一個模型系列。通過選擇不同的視覺編碼器和 LLM 可以為其賦予不同的參數(shù)。在這些選擇基礎(chǔ)上,所有模型的后續(xù)訓練數(shù)據(jù)和方案都一樣。

對于視覺編碼器,他們發(fā)布的所有模型均使用 OpenAI 的 ViT-L/14 336px CLIP 模型,該模型的效果好且質(zhì)量穩(wěn)定。

對于 LLM,他們采用不同的規(guī)模,基于不同的開放程度訓練了模型:OLMo-7B-1024 的權(quán)重和數(shù)據(jù)完全開放的(使用了 2024 年 10 月的預(yù)發(fā)布權(quán)重,其將于晚些時候公布)、高效的 OLMoE-1B-7B-0924 也是完全開放權(quán)重和數(shù)據(jù),Qwen2 7B、Qwen2 72B、Mistral 7B、Gemma2 9B 則是僅開放權(quán)重。新發(fā)布的是該系列的 4 個樣本。

他們的訓練過程也很簡單,首先從已經(jīng)獨立完成預(yù)訓練的視覺編碼器和 LLM 開始,接下來分為兩個階段:

  1. 多模態(tài)預(yù)訓練,以使用他們新收集的描述數(shù)據(jù)生成描述;
  2. 使用上述混合數(shù)據(jù)集進行監(jiān)督式微調(diào)。

這兩個階段都會對所有參數(shù)進行更新,并且過程中不使用 RLHF。

發(fā)布計劃

該團隊首次發(fā)布就分量十足,包含一個演示模型、推理代碼、一份簡要的技術(shù)報告和以下模型權(quán)重:

  • MolmoE-1B,由 1B(活躍參數(shù)量)的專家模型構(gòu)成的混合專家模型,共 7B
  • Molmo-7B-O,最開放的 7B 模型
  • Molmo-7B-D,演示版本的模型
  • Molmo-72B,表現(xiàn)最佳的模型

未來兩個月,該團隊還將陸續(xù)發(fā)布以下研究成果:

  • 一份詳細的技術(shù)報告
  • PixMo 系列數(shù)據(jù)集
  • 更多模型權(quán)重和檢查點
  • 訓練和評估代碼

更多研究細節(jié),可訪問原博客。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-06-21 09:58:38

2024-06-28 18:13:05

2025-01-22 16:57:32

字節(jié)跳動豆包大模型

2024-06-21 09:51:17

2024-06-24 12:25:22

2025-04-08 02:26:00

2024-11-22 14:10:00

AI智能體

2024-05-20 08:20:00

OpenAI模型

2024-09-29 13:07:16

2024-07-24 11:30:04

2024-12-27 10:27:58

2024-12-26 07:10:00

2024-06-21 09:57:00

2025-02-27 07:48:25

2025-05-12 08:50:00

2024-10-17 14:05:34

2025-01-21 13:15:15

2024-07-16 13:24:38

2024-07-11 16:38:15

2025-05-27 15:59:41

AI工具模型
點贊
收藏

51CTO技術(shù)棧公眾號