偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<sub id="v7h5q"><style id="v7h5q"></style></sub>

<dfn id="v7h5q"><button id="v7h5q"></button></dfn>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

號(hào)稱擊敗Claude 3.5 Sonnet，媲美GPT-4o，開源多模態(tài)模型Molmo挑戰(zhàn)Scaling law

作者：機(jī)器之心 2024-10-06 09:00:00

人工智能新聞

Ai2 又是如何做到「四兩撥千金」的呢？答案在 Ai2 公布的技術(shù)報(bào)告和論文中，這個(gè)秘訣就是：數(shù)據(jù)。

雖然大家一直在期待谷歌、OpenAI 等等擁有無限資金儲(chǔ)備和頂尖人才的大廠做出新的 Sota 模型。不過，一家默默耕耘的創(chuàng)業(yè)公司 Ai2 發(fā)布了一款多模態(tài)人工智能模型 Molmo。

在下面展示的視頻中，我們可以看到 Molmo 就像鋼鐵俠的「賈維斯」一樣萬能。想賣自行車，咨詢一下 Molmo 的建議，僅靠一張照片，Molmo 就能把自行車的顏色、品牌和二手售價(jià)搞清楚，并且?guī)湍銓懗鲆痪漤樋诘膹V告語。

它也可以從虛擬世界幫你解決現(xiàn)實(shí)世界的問題，說一句：「Molmo，幫我買杯星巴克的南瓜拿鐵?！故Ｏ碌木筒挥脛?dòng)手了，打開外賣網(wǎng)頁、點(diǎn)餐、付款，Molmo 一氣呵成。你所要做的，就是坐在家中，靜候咖啡送到你的手中。

機(jī)器之心也嘗試了一下他們在線發(fā)布的 Demo 模型。相較于宣傳視頻，其功能還很有限，所以我們讓其執(zhí)行了圖像描述任務(wù)，可以看到 Molmo 在細(xì)節(jié)描述和準(zhǔn)確度上的表現(xiàn)確實(shí)很不錯(cuò)，它甚至能注意到貓背上的小玩具：「玩具看起來像一只綠色的老鼠，鼻子是粉紅色的，尾巴是蓬松的，羽毛色彩繽紛。」

但遺憾的是，Molmo 的漢語輸出能力非常有限，即使我們明確要求其輸出漢語，它也未能辦到：

除了 Demo，從數(shù)據(jù)來看，Molmo 的表現(xiàn)也足夠驚艷。在人類測評(píng)和一系列測試集中，Molmo 的得分擊敗了 Claude 3.5 Sonnet、GPT4V 等一眾頂尖模型，甚至可以媲美 GPT4o。

不過，Molmo 的體量更小，卻能「以小搏大」，性能超越了比它的參數(shù)量大十倍的其他模型。據(jù) Ai2 首席執(zhí)行官 Ali Farhadi 稱，Molmo 的體積小到可以在本地運(yùn)行，它無需 API、無需訂閱、更無需成本高昂的液冷 GPU 集群。

更重要的是 Molmo 完全免費(fèi)且開源，所有的權(quán)重、代碼、數(shù)據(jù)和評(píng)估流程都即將公布。

部分模型權(quán)重、推理代碼和一個(gè)基于 Molmo-7B-D 模型的公開演示已經(jīng)可以使用。

體驗(yàn)鏈接：https://huggingface.co/collections/allenai/molmo-66f379e6fe3b8ef090a8ca19

Ai2 又是如何做到「四兩撥千金」的呢？答案在 Ai2 公布的技術(shù)報(bào)告和論文中，這個(gè)秘訣就是：數(shù)據(jù)。

論文鏈接：https://molmo.allenai.org/paper.pdf

目前，最先進(jìn)的多模態(tài)模型大多是閉源的，即使有一些開源的模型表現(xiàn)不錯(cuò)，但它們通常依賴于專有模型生成的合成數(shù)據(jù)。因此，如何從零開始構(gòu)建高性能 VLM，對(duì)于開源社區(qū)來說，種種基礎(chǔ)知識(shí)都很難獲得。

各大多模態(tài)模型的開源程度

如上圖所示，Ai2 的研究團(tuán)隊(duì)統(tǒng)計(jì)了目前 VLM 的開源程度，除了直接看模型的權(quán)重、數(shù)據(jù)和代碼是否公開，他們還考慮了模型是否依賴于其他閉源模型。如果一個(gè)模型在訓(xùn)練中用了其他專有模型生成的數(shù)據(jù)，那它就被標(biāo)記為「蒸餾」，這意味著它無法完全獨(dú)立再現(xiàn)。

針對(duì)「閉源」的瓶頸，Ai2 使用語音描述收集了一個(gè)高細(xì)節(jié)度的圖像描述數(shù)據(jù)集，這個(gè)數(shù)據(jù)集完全由人工標(biāo)注，并可以公開訪問。

該團(tuán)隊(duì)認(rèn)為提升模型性能的訣竅是使用更少但質(zhì)量更好的數(shù)據(jù)。面對(duì)數(shù)十億張圖像，不可能僅靠人力完成篩選、精細(xì)標(biāo)注和去重的工作，因此，他們沒有選擇 scaling law，而是精心挑選并注釋了 60 萬張圖像。

數(shù)據(jù)集鏈接：https://docs.google.com/forms/u/0/d/e/1FAIpQLSdML1MhNNBDsCHpgWG65Oydg2SjZzVasyqlP08nBrWjZp_c7A/formResponse?pli=1

為了讓 Molmo 能處理更多任務(wù)，Ai2 還引入了一個(gè)多樣化的數(shù)據(jù)混合對(duì)模型進(jìn)一步微調(diào)，其中就包括一種獨(dú)特的二維「指向」數(shù)據(jù)。

因?yàn)楝F(xiàn)在市面上的多模態(tài)模型的工作原理是把圖片、聲音、文字等多種模態(tài)轉(zhuǎn)換成自然語言的表示，而基于「指向」數(shù)據(jù)的 Molmo 更進(jìn)一步，它可以用非語言的方式（如指向物體）進(jìn)行解答。

比如，向 Molmo 提問：「你可以指出這塊白板上的哪個(gè)模型的訓(xùn)練時(shí)間最短嗎？」它不僅能用語音準(zhǔn)確回答，還能直接用箭頭「指向」它是從哪些數(shù)據(jù)中得到答案的。

Molmo 用紅色的波紋標(biāo)出了自己識(shí)別的對(duì)象。

要求 Molmo 數(shù)圖中有多少只狗，它的計(jì)數(shù)方法是在每只狗的臉上畫一個(gè)點(diǎn)。如果要求它數(shù)狗狗舌頭的數(shù)量，它會(huì)在每只舌頭上畫一個(gè)點(diǎn)。

「指向」讓 Molmo 能夠在零樣本的情況下執(zhí)行更廣泛的任務(wù)，同時(shí)，無需查看網(wǎng)站的代碼，它可以懂得如何瀏覽頁面、提交表單。

這種能力也讓 Molmo 更自然地連接現(xiàn)實(shí)世界和數(shù)字世界，為下一代應(yīng)用程序提供全新的互動(dòng)方式。

PixMo：數(shù)據(jù)質(zhì)量勝過數(shù)量

通常而言，要訓(xùn)練一個(gè)大型 VLM，需要數(shù)以十億計(jì)的圖像 - 文本對(duì)數(shù)據(jù)。而這些數(shù)據(jù)往往取自網(wǎng)絡(luò)，因此噪聲很高。模型就需要在訓(xùn)練過程中分離信號(hào)與噪聲。有噪聲文本還會(huì)導(dǎo)致模型輸出出現(xiàn)幻覺。

基于這樣的考慮，該團(tuán)隊(duì)采用了不同的方法來獲取數(shù)據(jù)。他們將數(shù)據(jù)質(zhì)量放在了更重要的位置，結(jié)果發(fā)現(xiàn)，使用少于 1M 的圖像 - 文本對(duì)就足以訓(xùn)練出強(qiáng)大的模型 —— 這比許多其它同類方法少了 3 個(gè)數(shù)量級(jí)。

Molmo 系列模型之所以能取得成功，最關(guān)鍵的要素莫過于 PixMo——Molmo 的訓(xùn)練數(shù)據(jù)。

Pixmo 包含兩大類數(shù)據(jù)：(1) 用于多模式預(yù)訓(xùn)練的密集描述數(shù)據(jù)和 (2) 用于實(shí)現(xiàn)各種用戶交互的監(jiān)督式微調(diào)數(shù)據(jù)，包括問答、文檔閱讀和指向等行為。

該團(tuán)隊(duì)表示，在收集這些數(shù)據(jù)時(shí)，主要限制是避免使用已有的 VLM，因?yàn)椤肝覀兿Ｍ麖念^構(gòu)建一個(gè)高性能 VLM」，而不是蒸餾某個(gè)已有的系統(tǒng)（但注意，他們也確實(shí)會(huì)使用僅語言的 LLM，但并不會(huì)把圖像輸入這些模型）。

在實(shí)踐中，要讓人類來標(biāo)注大量數(shù)據(jù)是非常困難的。而且人類編寫的圖像描述往往僅會(huì)提及一些突出的視覺元素，而缺乏細(xì)節(jié)。如果強(qiáng)制要求最低字?jǐn)?shù)，標(biāo)注者要么需要花費(fèi)太長時(shí)間，使收集過程成本高昂，要么就會(huì)從專有 VLM 復(fù)制粘貼響應(yīng)，這又會(huì)違背避免蒸餾模型的目標(biāo)。

因此，開放研究社區(qū)一直在努力，在不依賴專有 VLM 的合成數(shù)據(jù)的前提下，創(chuàng)建這樣的數(shù)據(jù)集。

該團(tuán)隊(duì)提出了一種簡單但有效的數(shù)據(jù)收集方法，可以避免這些問題：讓標(biāo)注者用語音描述圖像 60 到 90 秒，而不是要求他們打字。他們讓標(biāo)注者詳細(xì)描述他們看到的一切，包括空間定位和關(guān)系的描述。

從結(jié)果上看，該團(tuán)隊(duì)發(fā)現(xiàn)，通過這種模態(tài)切換「技巧」，標(biāo)注者可以在更短的時(shí)間內(nèi)提供更詳細(xì)的描述，并且對(duì)于每個(gè)描述都有對(duì)應(yīng)的錄音，可證明未使用 VLM。

總的來說，他們收集了 71.2 萬幅圖像的詳細(xì)音頻描述，涵蓋 50 個(gè)高層級(jí)主題。

他們的混合微調(diào)數(shù)據(jù)包含了標(biāo)準(zhǔn)的學(xué)術(shù)數(shù)據(jù)集以及一些新收集的數(shù)據(jù)集，這些新數(shù)據(jù)集也將會(huì)公開發(fā)布。學(xué)術(shù)數(shù)據(jù)集主要用于使模型在基準(zhǔn)測試數(shù)據(jù)上表現(xiàn)良好，而新收集的數(shù)據(jù)集則能賦予模型大量重要功能，包括在與用戶聊天時(shí)能夠回答關(guān)于圖像的一般性問題（超出學(xué)術(shù)基準(zhǔn)數(shù)據(jù)范圍）、提升 OCR 相關(guān)任務(wù)（如讀取文檔和圖表）、精準(zhǔn)識(shí)別模擬時(shí)鐘的時(shí)間，以及在圖像中指向一個(gè)或多個(gè)視覺元素。

指向功能可為圖像中的像素提供自然的解釋，從而帶來 Molmo 全新且更強(qiáng)大的能力。該團(tuán)隊(duì)認(rèn)為，指向?qū)⒊蔀?VLM 和智能體之間重要的交流方式。例如，一個(gè)機(jī)器人可以查詢具有指向功能的 VLM 以獲得路徑點(diǎn)或要拾取物體的位置，而一個(gè)網(wǎng)頁智能體可以查詢 VLM 以定位需要點(diǎn)擊的用戶界面元素。這組系列數(shù)據(jù)集也分為以下六個(gè)：

PixMo-Cap：用于預(yù)訓(xùn)練 VLM 的數(shù)據(jù)集，可讓其理解圖像細(xì)節(jié)，其中包含 71.2 萬張不同圖像和大約 130 萬個(gè)密集圖像描述。
PixMo-AskModelAnything：其設(shè)計(jì)目標(biāo)是讓 AI 模型可回答有關(guān)圖像的不同問題。其中包含 16.2 個(gè)問答對(duì)，涉及 7.3 萬圖像。其中問題由人類標(biāo)注者編寫，答案則來自一個(gè)語言模型。
PixMo-Points：其中的圖像描述數(shù)據(jù)是關(guān)于圖像中物體的位置。該數(shù)據(jù)集包含 230 萬個(gè)問題 - 位置點(diǎn)對(duì)，涉及 42.8 萬張圖像。
PixMo-CapQA：包含 21.4 萬個(gè)問答對(duì)，涉及 16.5 萬個(gè)使用語言模型生成的圖像描述。
PixMo-Docs：包含 25.5 萬張帶有大量文本和圖表（表格、文檔、圖表）的圖像，還有語言模型生成的相應(yīng)代碼。另有 230 萬對(duì)基于生成的代碼生成的問答。
PixMo-Clocks：這是一個(gè)合成數(shù)據(jù)集，其中包含 82.6 萬張不同款式的模擬時(shí)鐘圖像，以及有關(guān)相應(yīng)時(shí)間的問答。

基準(zhǔn)評(píng)估和大規(guī)模人類偏好排名

為了進(jìn)行全面的評(píng)估，該團(tuán)隊(duì)既使用了學(xué)術(shù)基準(zhǔn)評(píng)測，也執(zhí)行了人類評(píng)估以根據(jù)用戶偏好對(duì)模型進(jìn)行排名。

從結(jié)果上看，學(xué)術(shù)基準(zhǔn)評(píng)測結(jié)果與人類評(píng)估結(jié)果高度一致。唯一的例外是 Qwen VL2，其在學(xué)術(shù)基準(zhǔn)上表現(xiàn)很好，但在人類評(píng)估中表現(xiàn)相對(duì)較差。

該團(tuán)隊(duì)總結(jié)得到了一些關(guān)鍵結(jié)果，并表示「Small is the new big, less is the new more」，詳情如下：

Molmo 系列模型中最高效的是 MolmoE-1B，其基于完全開放的 OLMoE-1B-7B 混合專家 LLM，在學(xué)術(shù)基準(zhǔn)和人類評(píng)估上的表現(xiàn)接近 GPT-4V。
在學(xué)術(shù)基準(zhǔn)和人類評(píng)估基準(zhǔn)上，兩個(gè) Molmo-7B 模型的表現(xiàn)大概在 GPT-4V 和 GPT-4o 之間，并且在這兩個(gè)基準(zhǔn)上均顯著優(yōu)于近期發(fā)布的 Pixtral 12B 模型。
表現(xiàn)最好的 Molmo-72B 在學(xué)術(shù)基準(zhǔn)上取得了最高分，但人類評(píng)估基準(zhǔn)上則僅次于 GPT-4o，居于第二。
表現(xiàn)最好的 Molmo-72B 也勝過當(dāng)前最佳的一些專有系統(tǒng)，包括 Gemini 1.5 Pro 和 Flash 以及 Claude 3.5 Sonnet。

在接受 TechCrunch 的采訪時(shí)， Ai2 首席執(zhí)行官 Ali Farhadi 表示，人工智能界有條定律 ——「越大越好」，訓(xùn)練數(shù)據(jù)越多，模型中的參數(shù)就越多，需要的算力也就越多。但發(fā)展到一定階段時(shí)，「scaling law」就會(huì)遇到瓶頸，根本無法繼續(xù)擴(kuò)大模型規(guī)模了：沒有足夠的數(shù)據(jù)、或者計(jì)算成本和時(shí)間變得太高，以至于弄巧成拙。你只能利用現(xiàn)有的資源，或者更好的辦法是，用更少的資源做更多的事情。

Ai2 首席執(zhí)行官 Ali Farhadi

模型架構(gòu)

Molmo 的模型架構(gòu)采用了簡單的標(biāo)準(zhǔn)設(shè)計(jì)，也就是將一個(gè)語言模型和一個(gè)圖像編碼器組合起來。其包含 4 個(gè)組件：

預(yù)處理器，其作用是將輸入圖像轉(zhuǎn)換為一組多尺寸和經(jīng)過不同裁剪的圖像；
ViT 圖像編碼器，其作用是將每一張圖像都獨(dú)立映射成一組視覺 token；
連接器，其作用是使用 MLP 將視覺 token 投影成語言模型的輸入維度，然后匯集視覺 token 以減少其數(shù)量；
僅解碼器 Transformer LLM。

該團(tuán)隊(duì)基于這一模板構(gòu)建了一個(gè)模型系列。通過選擇不同的視覺編碼器和 LLM 可以為其賦予不同的參數(shù)。在這些選擇基礎(chǔ)上，所有模型的后續(xù)訓(xùn)練數(shù)據(jù)和方案都一樣。

對(duì)于視覺編碼器，他們發(fā)布的所有模型均使用 OpenAI 的 ViT-L/14 336px CLIP 模型，該模型的效果好且質(zhì)量穩(wěn)定。

對(duì)于 LLM，他們采用不同的規(guī)模，基于不同的開放程度訓(xùn)練了模型：OLMo-7B-1024 的權(quán)重和數(shù)據(jù)完全開放的（使用了 2024 年 10 月的預(yù)發(fā)布權(quán)重，其將于晚些時(shí)候公布）、高效的 OLMoE-1B-7B-0924 也是完全開放權(quán)重和數(shù)據(jù)，Qwen2 7B、Qwen2 72B、Mistral 7B、Gemma2 9B 則是僅開放權(quán)重。新發(fā)布的是該系列的 4 個(gè)樣本。

他們的訓(xùn)練過程也很簡單，首先從已經(jīng)獨(dú)立完成預(yù)訓(xùn)練的視覺編碼器和 LLM 開始，接下來分為兩個(gè)階段：

多模態(tài)預(yù)訓(xùn)練，以使用他們新收集的描述數(shù)據(jù)生成描述；
使用上述混合數(shù)據(jù)集進(jìn)行監(jiān)督式微調(diào)。

這兩個(gè)階段都會(huì)對(duì)所有參數(shù)進(jìn)行更新，并且過程中不使用 RLHF。

發(fā)布計(jì)劃

該團(tuán)隊(duì)首次發(fā)布就分量十足，包含一個(gè)演示模型、推理代碼、一份簡要的技術(shù)報(bào)告和以下模型權(quán)重：

MolmoE-1B，由 1B（活躍參數(shù)量）的專家模型構(gòu)成的混合專家模型，共 7B
Molmo-7B-O，最開放的 7B 模型
Molmo-7B-D，演示版本的模型
Molmo-72B，表現(xiàn)最佳的模型

未來兩個(gè)月，該團(tuán)隊(duì)還將陸續(xù)發(fā)布以下研究成果：

一份詳細(xì)的技術(shù)報(bào)告
PixMo 系列數(shù)據(jù)集
更多模型權(quán)重和檢查點(diǎn)
訓(xùn)練和評(píng)估代碼

更多研究細(xì)節(jié)，可訪問原博客。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 訓(xùn)練數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="9cphz"></sub>

<blockquote id="9cphz"><p id="9cphz"></p></blockquote>