看圖猜位置不輸o3!字節(jié)發(fā)布Seed1.5-VL多模態(tài)推理模型,在60個主流基準測試中拿下38項第一
在60個主流基準測試中拿下38項第一!
字節(jié)發(fā)布輕量級多模態(tài)推理模型Seed1.5-VL,僅用532M視覺編碼器+200億活躍參數(shù)就能與一眾規(guī)模更大的頂尖模型掰手腕,還是能帶圖深度思考的那種。
相關(guān)技術(shù)報告也第一時間公開了。
整體而言,雖然是“以小博大”,但新模型在復雜謎題推理、OCR、圖表理解、3D空間理解等方面表現(xiàn)出色。
比如猜下圖中有幾只貓,人眼很容易誤將地上的黑貓當成影子:
還能用來玩“看圖找茬”,速度和準確率雙雙勝于人類:
同時也能用來解答復雜推理謎題,考公黨有福了(bushi~)
當然,以上也基于其強大的OCR識別能力。即便是長度驚人、中英混雜的消費小票,也能分分鐘轉(zhuǎn)換成表格。
除此之外,新模型還擅長處理Agent任務(wù)。它在GUI界面操作和游戲場景中,顯著優(yōu)于OpenAI的CUA和Claude 3.7等模型。
那么它是如何做到的呢?
532M視覺編碼器 + 20B混合專家語言模型
通過深扒技術(shù)報告,背后關(guān)鍵主要在于模型架構(gòu)和訓練細節(jié)。
據(jù)介紹,Seed1.5-VL由以下三個核心組件組成:
- SeedViT:用于對圖像和視頻進行編碼;
- MLP適配器:將視覺特征投射為多模態(tài)token;
- 大語言模型:用于處理多模態(tài)輸入并執(zhí)行推理。
模型支持多種分辨率的圖像輸入,并通過原生分辨率變換(native-resolution transform)確保最大限度保留圖像細節(jié)。
在視頻處理方面,團隊提出了一種動態(tài)幀分辨率采樣策略(dynamic frame-resolution sampling strategy),能夠根據(jù)需要動態(tài)調(diào)整采樣幀率和分辨率。
此外,為了增強模型的時間信息感知能力,在每幀圖像之前引入了時間戳標記(timestamp token)。
這些設(shè)計讓模型能夠高效處理各種多模態(tài)數(shù)據(jù),包括文本、圖像和視頻等。
而基于上述架構(gòu),團隊接著開始了模型訓練。
首先,團隊使用了3萬億個多樣化且高質(zhì)量的多模態(tài)標注,這些數(shù)據(jù)是根據(jù)模型需要發(fā)展的特定能力來組織和分類的。
其預訓練過程分為三個階段:
- 階段0:僅訓練MLP適配器,以對齊視覺編碼器和語言模型;
- 階段1:訓練所有模型參數(shù),重點是掌握視覺定位和OCR能力;
- 階段2:增加數(shù)據(jù)多樣性,擴展序列長度,以適應視頻理解和復雜推理任務(wù)。
值得一提的是,團隊在預訓練階段觀察到了——
大多數(shù)子類別的數(shù)據(jù)訓練損失與訓練標記數(shù)量之間遵循冪律關(guān)系,即訓練損失隨著訓練標記數(shù)量的增加而減少。
此外,某一子類別的訓練損失與該類別對應的下游任務(wù)評估指標之間呈現(xiàn)對數(shù)線性關(guān)系(例如:評估指標 ~ log(訓練損失))的趨勢,尤其在局部區(qū)域內(nèi)尤為顯著。
后者意味著,可以通過訓練損失來一定程度上預測模型在下游任務(wù)上的表現(xiàn)。
接下來團隊又進行了后訓練,使用了監(jiān)督微調(diào)和強化學習等技術(shù)。
其一,使用高質(zhì)量的指令數(shù)據(jù)對模型進行微調(diào),包括一般指令和長鏈推理(Long CoT)數(shù)據(jù);
其二,結(jié)合人類反饋和可驗證獎勵信號,通過PPO算法進行訓練,以提高模型的對齊能力和推理能力。
需要注意的是,團隊在后訓練采用了結(jié)合拒絕采樣(rejection sampling)和在線強化學習(online reinforcement learning)的迭代更新方法。
他們構(gòu)建了一條完整的數(shù)據(jù)pipeline,用于收集和篩選復雜提示,以增強后訓練階段的數(shù)據(jù)質(zhì)量。
并且在強化學習過程中,監(jiān)督信號通過獎勵模型和規(guī)則驗證器(rule verifiers)僅作用于模型生成的最終輸出結(jié)果。
也就是說,團隊特意避免對模型的詳細鏈式思維推理(chain-of-thought reasoning)過程進行監(jiān)督。
最后,為了支持大規(guī)模預訓練和后訓練,團隊還開發(fā)了一系列優(yōu)化技術(shù):
- 混合并行化:針對視覺編碼器和語言模型的不同特點,采用不同的并行策略;
- 工作負載平衡:通過貪心算法重新分配視覺數(shù)據(jù),平衡GPU工作負載;
- 并行感知數(shù)據(jù)加載:減少多模態(tài)數(shù)據(jù)的I/O開銷;
- 容錯機制:使用MegaScale框架實現(xiàn)容錯,確保訓練的穩(wěn)定性。
這些技術(shù)顯著提高了訓練吞吐量,并降低了硬件成本。
60項測試中拿下38項SOTA
那么其實際表現(xiàn)如何呢?
實驗結(jié)果顯示,新模型在60項公開基準測試中取得了38項新SOTA,其中包括19項視頻基準測試中的14項,以及7項GUI智能體任務(wù)中的3項。
部分測試結(jié)果如下:
單拎出多模態(tài)智能體任務(wù)來看,它在多個GUI任務(wù)上,優(yōu)于OpenAI的CUA和Claude 3.7等現(xiàn)有模型。
在多個游戲中,它也展現(xiàn)出強大的推理和決策能力。
與此同時,在內(nèi)部測試中,新模型尤其在視覺推理、文檔理解、3D空間理解等方面表現(xiàn)出色。
光看測試結(jié)果可能還不夠,我們最后也來簡單實測一下。
比如玩最近很火的“看圖找地理位置”,隨意一張游客照也能正確推理識別。
鑒于圖中有燈塔這種可能容易暴露地標的元素,我們再換張難度更高的。
在無明顯標識的情況下,o3曾因猜出的位置距離正確答案(加州埃爾格拉納達附近的一家露天酒吧里)僅相差200-300公里而出圈。
而Seed1.5-VL最后的答案是加州沿海地區(qū)(比如蒙特雷縣、圣巴巴拉周邊的小鎮(zhèn)):
這兩個地點距離正確位置分別為160公里和440公里,和o3的表現(xiàn)已經(jīng)相當接近。
不過最后需要提醒,團隊表示新模型仍存在一些局限性,尤其是在細粒度視覺感知、三維空間推理以及復雜組合搜索任務(wù)方面。
目前新模型可在Hugging Face在線體驗,歡迎大家評論區(qū)分享討論~
在線體驗:
https://huggingface.co/spaces/ByteDance-Seed/Seed1.5-VL
論文:
https://arxiv.org/abs/2505.07062
GitHub:
https://github.com/ByteDance-Seed/Seed1.5-VL