年末重磅！ByteDance Research視頻理解大模型「眼鏡猴」正式發(fā)布

作者：機(jī)器之心 2025-01-26 09:15:00

Tarsier 在生成詳細(xì)且準(zhǔn)確的視頻描述方面超越了現(xiàn)有的閉源和開源工作，更是在廣泛的視頻理解任務(wù)中樹立了新的標(biāo)桿。

最近，ByteDance Research 的視頻理解大模型眼鏡猴（Tarsier）迎來了巨大更新，發(fā)布了第二代模型 Tarsier2 及相關(guān)技術(shù)報告。研究團(tuán)隊此前發(fā)布的 Tarsier-7B/34B 在視頻描述領(lǐng)域已經(jīng)是最強(qiáng)開源模型，僅次于閉源模型 Gemini-1.5-Pro 和 GPT-4o。那么這次新版 Tarsier2 又會帶給我們什么樣的驚喜呢？

直接上強(qiáng)度！來看看 Tarsier2 對下面這兩個影視名場面的理解如何：

《燕子，沒有你我怎么活》

《曹操蓋飯》

可以看到，Tarsier2 不僅對于視頻中人物動作捕捉得細(xì)致入微（如小岳岳追車、跪地，曹操蓋飯、揮手），還可以充分結(jié)合視頻中的字幕信息，從而進(jìn)一步分析人物的動機(jī) / 心理，理解人物關(guān)系和情節(jié)發(fā)展。

既然如此復(fù)雜的影視片段能夠分析清楚，Tarsier 最擅長的視頻描述任務(wù)自然也不在話下：

Tarsier2 視頻描述效果合集

無論是真人還是動畫、橫屏還是豎屏、多場景還是多鏡頭，Tarsier2 總是能敏銳地捕捉視頻中的核心視覺元素及動態(tài)事件，使用簡練的語言表述出來，并且很少產(chǎn)生幻覺。這么看來，Tarsier2 已經(jīng)可以和 GPT-4o 扳一扳手腕了。

“火眼金睛” 是怎么煉成的？

Tarsier2 是一個 7B 大小的輕量級模型，支持動態(tài)分辨率，能夠看得懂長達(dá)幾十分鐘的視頻，尤其擅長對幾十秒的短視頻片段進(jìn)行分析。研究團(tuán)隊公開了詳盡的技術(shù)報告，相關(guān)數(shù)據(jù)、代碼和模型也在持續(xù)開源中：

論文地址：https://arxiv.org/abs/2501.07888
項目倉庫：https://github.com/bytedance/tarsier
HuggingFace：https://huggingface.co/omni-research

Tarsier2 強(qiáng)大的視頻理解能力主要得益于預(yù)訓(xùn)練和后訓(xùn)練兩個階段的精益求精。

預(yù)訓(xùn)練

Tarsier2 在 4000 萬個互聯(lián)網(wǎng)視頻 - 文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練。不同于文本模型只需要互聯(lián)網(wǎng)上的單語語料就可訓(xùn)練，視頻理解模型嚴(yán)重依賴高質(zhì)量的視頻 - 文本對齊數(shù)據(jù)。因此，如何大規(guī)模地獲取對齊數(shù)據(jù)是模型訓(xùn)練的最大難點(diǎn)。團(tuán)隊主要通過以下兩個途徑來解決：

數(shù)據(jù)收集方面：Tarsier2 海量收集互聯(lián)網(wǎng)上的視頻 - 文本數(shù)據(jù)。這些數(shù)據(jù)分布廣泛，涵蓋電影、電視劇、短視頻等各種來源，涉及人機(jī)交互、自動駕駛等多個領(lǐng)域。值得一提的是，Tarsier2 篩選了一大批影視劇解說的視頻。這些視頻不僅能夠幫助模型學(xué)會簡單的動作、事件，還能輔助模型理解更高層次的情節(jié)信息。
數(shù)據(jù)篩選方面：Tarsier2 設(shè)計了一套嚴(yán)謹(jǐn)?shù)牧鞒蹋瑏砗Y選高質(zhì)量訓(xùn)練數(shù)據(jù)。每條數(shù)據(jù)都會經(jīng)歷 “分鏡 → 過濾 → 合并” 3 個階段?！胺昼R” 階段，視頻會被切分成多個單一鏡頭片段；“過濾” 階段針對不同的數(shù)據(jù)使用不同的模型過濾低質(zhì)數(shù)據(jù)，如過濾掉動態(tài)性太差的、文本和畫面無關(guān)的等；“合并” 階段再將剩下的相鄰的視頻片段合在一起，增加視頻的復(fù)雜度。

后訓(xùn)練

后訓(xùn)練分為 SFT 和 DPO 兩個階段。

SFT：這一階段，模型在人工標(biāo)注的視頻描述數(shù)據(jù)上進(jìn)行訓(xùn)練。這個階段的描述數(shù)據(jù)也是大有講究。Tarsier2 提出在視頻描述中引入針對每個子事件的具體定位信息（即明確每個事件源自哪些幀），以強(qiáng)化模型對時序信息與視覺特征的關(guān)注度，增強(qiáng)文本與視覺信號的對齊。

SFT數(shù)據(jù)樣例

DPO：這一階段，模型在自動化構(gòu)造的正負(fù)樣本上進(jìn)行 DPO 訓(xùn)練。其中，正樣來源于模型對原始視頻的預(yù)測結(jié)果；負(fù)樣本來源于模型對經(jīng)過預(yù)先設(shè)計的隨機(jī)擾動的視頻的預(yù)測結(jié)果。這種直觀高效的構(gòu)造方式使得模型能夠在描述視頻時，“又準(zhǔn)確又全面”，減少描述中存在的幻覺。

是騾子是馬，牽出來溜溜！

俗話說，“光說不練假把式”，Tarsier2 在多達(dá) 19 個視頻理解公開基準(zhǔn)上進(jìn)行了性能測試，和最新最強(qiáng)的 10+ 個開源模型（Qwen2-VL、InternVL2.5、LLaVA-Video 等）以及閉源模型（Gemini-1.5, GPT-4o）來了場 “硬碰硬”。

Tarsier2 在包括視頻描述、短 / 長視頻問答在內(nèi)的通用視頻理解任務(wù)上表現(xiàn)亮眼。在視頻描述評測集 DREAM-1K 上，Tarsier2 相比 GPT-4o 提升 +2.8%，相比 Gemini-1.5-Pro 提升 +5.8%；在人工評估中，Tarsier2-7b 相比 GPT-4o 優(yōu)勢占比 +7.8%，相比 Gemini-1.5-Pro 優(yōu)勢占比 +12.3%。

視頻描述質(zhì)量人工評估結(jié)果

此外，Tarsier2 更是在 10+ 個視頻理解公開榜單上，超越了 Qwen2-VL-7B、InternVL2.5-8B 等同規(guī)模的模型，取得了 SOTA 成績：

Tarsier2在廣泛的視頻理解任務(wù)上樹立了新的標(biāo)桿

除了勝任各種通用視頻理解任務(wù)，Tarsier2 作為基座模型在機(jī)器人、智能駕駛等下游任務(wù)場景中也展現(xiàn)出了極強(qiáng)的泛化能力。在機(jī)器人領(lǐng)域，Tarsier2 能為指定的任務(wù)生成詳細(xì)的步驟指令。在智能駕駛方面，Tarsier2 也能夠幫助車輛識別道路情況，并輔助進(jìn)行決策。

機(jī)器人場景。

智能駕駛場景。

向更強(qiáng)的智能進(jìn)發(fā)

Tarsier 在生成詳細(xì)且準(zhǔn)確的視頻描述方面超越了現(xiàn)有的閉源和開源工作，更是在廣泛的視頻理解任務(wù)中樹立了新的標(biāo)桿。文本、語音、圖片、視頻多模態(tài)深度融合是當(dāng)下人工智能發(fā)展的核心趨勢與關(guān)鍵方向，Tarsier2 在這條道路上已經(jīng)邁出了堅實(shí)的步伐。期待未來 Tarsier2 能在多模態(tài)融合的浪潮中持續(xù)領(lǐng)航，為人工智能的發(fā)展帶來更多驚喜與突破。

責(zé)任編輯：張燕妮來源：機(jī)器之心

模型視頻生成 AI

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

年末重磅！ByteDance Research視頻理解大模型「眼鏡猴」正式發(fā)布

“火眼金睛” 是怎么煉成的？

是騾子是馬，牽出來溜溜！

向更強(qiáng)的智能進(jìn)發(fā)

“火眼金睛” 是怎么煉成的？

是騾子是馬，牽出來溜溜！