字節(jié)屠榜!最強(qiáng)多模態(tài)大模型發(fā)布:20 B參數(shù)橫掃38項(xiàng)第一!
5月13日,火山引擎FORCE LINK AI創(chuàng)新巡展上,Seed團(tuán)隊(duì)推出的視覺(jué)-語(yǔ)言多模態(tài)大模型Seed1.5-VL,以?xún)H20B激活參數(shù)的架構(gòu),橫掃60個(gè)評(píng)測(cè)基準(zhǔn)中的38項(xiàng)SOTA,在視頻理解、GUI智能體等關(guān)鍵指標(biāo)上直接叫板谷歌Gemini 2.5 Pro,而推理成本僅為對(duì)方的1/3。
Seed1.5-VL的顛覆性首先體現(xiàn)在全能戰(zhàn)士般的多模態(tài)理解力。上傳一張畫(huà)作,它能全面分析畫(huà)面元素,自動(dòng)識(shí)別出作品的作者、藝術(shù)風(fēng)格、畫(huà)面元素、思想內(nèi)涵等。
面對(duì)包含多個(gè)人物的圖片,Seed1.5-VL 能精準(zhǔn)識(shí)別觀(guān)眾、棒球、座椅、圍欄等畫(huà)面元素,并給出正確坐標(biāo);
而在視頻理解領(lǐng)域,Seed1.5-VL則展現(xiàn)出偵探般的敏銳度。
輸入一段監(jiān)控視頻詢(xún)問(wèn)「小貓今天干了哪些壞事」,它能快速標(biāo)記出抓撓沙發(fā)、打翻水杯等現(xiàn)場(chǎng),并生成帶時(shí)間戳的“案情報(bào)告”。
而Seed1.5-VL的殺手锏多模態(tài)智能體功能,可以讓AI能像人類(lèi)一樣操作PC界面:在測(cè)試中成功完成點(diǎn)擊點(diǎn)贊按鈕、填寫(xiě)表單等GUI交互任務(wù),可以為自動(dòng)化測(cè)試、智能客服等場(chǎng)景打開(kāi)新的可能。
Seed1.5-VL采用三件套設(shè)計(jì):
532M參數(shù)的SeedViT視覺(jué)編碼器處理任意比例圖像,MLP適配器對(duì)齊多模態(tài)表征;
20B參數(shù)的MoE架構(gòu)語(yǔ)言模型專(zhuān)注復(fù)雜推理。這種模塊化組合既保證性能,又將推理成本壓至每千token輸入0.003元,輸出僅0.009元,比同類(lèi)模型降低67%;
訓(xùn)練策略上獨(dú)創(chuàng)漸進(jìn)式解鎖:先凍結(jié)視覺(jué)編碼器訓(xùn)練MLP對(duì)齊特征,再解凍所有參數(shù)進(jìn)行大規(guī)模預(yù)訓(xùn)練,最后引入強(qiáng)化學(xué)習(xí)優(yōu)化長(zhǎng)鏈推理。
這種精細(xì)調(diào)優(yōu),讓模型在3T token的多模態(tài)數(shù)據(jù)中提煉出了極致效率。
據(jù)透露,該模型已開(kāi)始在抖音內(nèi)容審核、飛書(shū)智能助手等場(chǎng)景試點(diǎn),預(yù)計(jì)半年內(nèi)接入全線(xiàn)產(chǎn)品。
