偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

NVIDIA發(fā)布Eagle 2.5:長文本理解的“新星”,如何打破視覺-語言模型的局限? 原創(chuàng)

發(fā)布于 2025-4-28 09:23
瀏覽
0收藏

在多模態(tài)學(xué)習(xí)領(lǐng)域,視覺-語言模型(VLMs)的飛速發(fā)展讓我們看到了不同模態(tài)之間融合的巨大潛力。然而,盡管取得了顯著的進(jìn)步,這些模型大多集中在短文本任務(wù)上,對于長文本的理解能力卻始終是它們的“軟肋”。尤其是在處理長視頻理解和高分辨率圖像/視頻理解時,如何有效處理擴(kuò)展的視覺上下文,依然是一個亟待解決的難題。

長文本理解的困境與挑戰(zhàn)

長文本理解的不足,很大程度上是因為現(xiàn)有的視覺-語言模型在數(shù)據(jù)集構(gòu)建、架構(gòu)設(shè)計、訓(xùn)練策略以及計算/內(nèi)存瓶頸等方面都面臨著諸多挑戰(zhàn)。雖然之前的研究嘗試過擴(kuò)展上下文長度,但效果并不理想:與專有模型相比,性能提升有限;隨著視覺輸入的增加,改進(jìn)效果也不一致;而且,最優(yōu)的訓(xùn)練策略也尚未明確。

Eagle 2.5:長文本訓(xùn)練的“破局者”

在這樣的背景下,NVIDIA推出的Eagle 2.5模型,就像一顆璀璨的新星,為長文本視覺-語言模型的發(fā)展帶來了新的希望。與那些僅僅為了處理更長多模態(tài)序列而犧牲性能的模型不同,Eagle 2.5在增加輸入長度的同時,能夠?qū)崿F(xiàn)一致的性能提升,而不僅僅是容納更長的輸入。它在上下文覆蓋方面表現(xiàn)出色,并且隨著幀數(shù)的增加,性能呈一致的上升趨勢。與GPT-4o和Qwen2.5-VL-72B等參數(shù)量更大的模型相比,Eagle 2.5在性能上毫不遜色,同時卻保持著更小的參數(shù)規(guī)模。

圖像和視頻理解的卓越表現(xiàn)

Eagle 2.5在圖像和視頻理解的多個基準(zhǔn)測試中都展現(xiàn)出了非凡的性能,無論是與開源模型還是專有模型相比,都取得了極具競爭力的結(jié)果。在視頻理解方面,Eagle2.5-8B在多個視頻基準(zhǔn)測試中都取得了令人矚目的成績:在MVBench上達(dá)到了74.8,在Perception_test上達(dá)到了82.0,在EgoSchema上達(dá)到了72.2,輕松超越了類似規(guī)模的InternVL2.5-8B(72.0)和Qwen2.5-VL-8B(69.6、70.5、65.0)。在長視頻理解方面,Eagle 2.5更是表現(xiàn)出色,在MLVU上達(dá)到了77.6,在LongVideobench上達(dá)到了66.4,甚至超過了InternVL2.5-78B(75.7、63.6)。在VideoMME(無字幕)上,Eagle 2.5達(dá)到了72.4,與擁有72B參數(shù)的模型極為接近,但使用的參數(shù)卻少得多。

NVIDIA發(fā)布Eagle 2.5:長文本理解的“新星”,如何打破視覺-語言模型的局限?-AI.x社區(qū)

在圖像理解方面,Eagle2.5-8B同樣表現(xiàn)出色,涵蓋了文檔理解(DocVQA上達(dá)到94.1,ChartQA上達(dá)到87.5)、信息提?。↖nfoVQA上達(dá)到80.4,TextVQA上達(dá)到83.7)以及光學(xué)字符識別(OCRBench上達(dá)到869)等多個領(lǐng)域。此外,該模型在通用感知和推理任務(wù)(MMstar上達(dá)到66.2,RWQA上達(dá)到76.7,MMB?.?上達(dá)到81.7)、特定領(lǐng)域的知識(MMMU上達(dá)到55.8,AI2D上達(dá)到84.5)、視覺幻覺評估(HallB上達(dá)到54.7)以及數(shù)學(xué)推理(MathVista上達(dá)到67.8)等方面也展現(xiàn)出了均衡的能力。

NVIDIA發(fā)布Eagle 2.5:長文本理解的“新星”,如何打破視覺-語言模型的局限?-AI.x社區(qū)

獨(dú)特的訓(xùn)練策略:信息優(yōu)先采樣與漸進(jìn)式訓(xùn)練

Eagle 2.5之所以能夠取得如此優(yōu)異的性能,其訓(xùn)練策略功不可沒。該策略包含兩個關(guān)鍵組成部分:信息優(yōu)先采樣和漸進(jìn)式訓(xùn)練。

NVIDIA發(fā)布Eagle 2.5:長文本理解的“新星”,如何打破視覺-語言模型的局限?-AI.x社區(qū)

信息優(yōu)先采樣

在多模態(tài)訓(xùn)練中,視覺內(nèi)容的采樣至關(guān)重要。多圖像文檔通常包含數(shù)十頁超高分辨率的圖像,而視頻內(nèi)容的長度則可以從幾秒到幾小時不等。為了有效管理這種多樣性,Eagle 2.5提出了信息優(yōu)先采樣策略,從視覺和語義兩個維度促進(jìn)信息的保留。

  • 圖像區(qū)域保護(hù)(IAP):傳統(tǒng)的平鋪方法將大小為W×H的圖像劃分為一個固定的網(wǎng)格。雖然這種方法在處理高分辨率輸入時效果不錯,但往往會因為不恰當(dāng)?shù)膶捀弑忍幚矶で紙D像的幾何形狀。為了解決這個問題,Eagle 2.5提出了一種以面積優(yōu)先的平鋪策略,優(yōu)化了兩個關(guān)鍵目標(biāo):面積保護(hù)和寬高比保真度。
  • 自動降級采樣(ADS):視覺-語言模型需要在視覺和文本輸入之間仔細(xì)分配序列長度預(yù)算。Eagle 2.5提出了自動降級采樣(ADS),這是一種以全上下文為中心的策略,動態(tài)優(yōu)化這種平衡。ADS采用雙階段降級過程:時間降級首先優(yōu)化幀或頁面的采樣,然后是平鋪降級,以最大化利用可用上下文。

漸進(jìn)式訓(xùn)練

Eagle 2.5還引入了一個全面的后訓(xùn)練框架,包含兩種互補(bǔ)的策略:

  • 混合后訓(xùn)練:ADS方法根據(jù)最大序列長度自適應(yīng)調(diào)整每個訓(xùn)練樣本,提供了一種與幀無關(guān)的訓(xùn)練范式。通過實施混合訓(xùn)練策略和長度平衡打包,Eagle 2.5能夠在整個上下文長度范圍內(nèi)均勻優(yōu)化性能。
  • 漸進(jìn)式混合后訓(xùn)練:對于最大序列長度值較大的場景,Eagle 2.5提出了一種漸進(jìn)式混合訓(xùn)練方法,逐漸讓模型接觸到越來越長的序列長度,系統(tǒng)地增強(qiáng)其處理擴(kuò)展上下文的能力。

NVIDIA發(fā)布Eagle 2.5:長文本理解的“新星”,如何打破視覺-語言模型的局限?-AI.x社區(qū)

Eagle-Video-110K:為長文本理解量身定制的多樣化視頻數(shù)據(jù)集

現(xiàn)有的視頻數(shù)據(jù)集往往包含的視頻過短,無法滿足全面長文本理解的需求。Eagle-Video-110K通過從多個來源(如Vidchapters、MiraData、InternVid-10M、Panda-70M、Vript、Shot2story、ViTT和WebVid-10M)精心策劃一系列較長的視頻,解決了這一局限性。通過采用基于CLIP嵌入和相似性閾值的多樣性驅(qū)動策略,Eagle-Video-110K能夠識別并選擇顯著延長訓(xùn)練和評估可用平均時長的全新視頻。

NVIDIA發(fā)布Eagle 2.5:長文本理解的“新星”,如何打破視覺-語言模型的局限?-AI.x社區(qū)

Eagle-Video-110K的另一個亮點是其獨(dú)特的雙注釋管道,結(jié)合了自上而下和自下而上的方法,以實現(xiàn)全面的視頻理解。在自上而下的方法中,利用人類注釋的章節(jié)作為語義上有意義的視頻片段,通過GPT-4o生成章節(jié)級密集字幕和長形式問答對。與此同時,自下而上的方法則專注于局部時空細(xì)節(jié),通過GPT-4o生成帶有時間間隔參考和文本上下文錨點的剪輯級問答對。這種分層方法使得模型能夠同時實現(xiàn)細(xì)粒度的時空理解和高級語義理解,為長文本視頻推理提供了有力支持。

NVIDIA發(fā)布Eagle 2.5:長文本理解的“新星”,如何打破視覺-語言模型的局限?-AI.x社區(qū)

Eagle-Video-110K對視頻理解性能產(chǎn)生了顯著影響。它不僅在主流的長視頻和短視頻基準(zhǔn)測試中提升了模型性能,還通過提供之前開源訓(xùn)練集中缺失的更長視頻訓(xùn)練數(shù)據(jù),大幅提高了模型處理高幀數(shù)(≥128幀)的能力。這一改進(jìn)在Video-MME基準(zhǔn)測試中尤為明顯,Eagle 2.5在使用Eagle-Video-110K訓(xùn)練時,隨著幀數(shù)的增加,性能呈一致的上升趨勢,而其他模型則會趨于平穩(wěn)甚至退化。

性能與基準(zhǔn)測試

Eagle 2.5-8B在多個視頻和圖像理解任務(wù)中展現(xiàn)出了強(qiáng)大的性能。在視頻基準(zhǔn)測試中,它在MVBench上達(dá)到了74.8,在MLVU上達(dá)到了77.6,在LongVideoBench上達(dá)到了66.4。在圖像基準(zhǔn)測試中,該模型在DocVQA上達(dá)到了94.1,在ChartQA上達(dá)到了87.5,在InfoVQA上達(dá)到了80.4等。

NVIDIA發(fā)布Eagle 2.5:長文本理解的“新星”,如何打破視覺-語言模型的局限?-AI.x社區(qū)

消融研究表明了Eagle采樣策略的重要性。移除IAP會導(dǎo)致在高分辨率基準(zhǔn)測試中性能下降,而省略ADS則會降低在需要密集監(jiān)督的任務(wù)中的有效性。模型還從漸進(jìn)式訓(xùn)練中受益:逐步增加上下文長度相比一次性長文本訓(xùn)練能夠帶來更穩(wěn)定的性能提升。此外,加入Eagle-Video-110K顯著提高了在高幀數(shù)(≥128幀)下的性能,進(jìn)一步凸顯了專門的長文本數(shù)據(jù)集的價值。

結(jié)論

Eagle 2.5為長文本視覺-語言建模提供了一種技術(shù)上合理的方法。它強(qiáng)調(diào)保持上下文完整性、逐步訓(xùn)練適應(yīng)以及數(shù)據(jù)集多樣性,使其能夠在保持架構(gòu)通用性的同時實現(xiàn)強(qiáng)大的性能。Eagle 2.5證明了,通過精心設(shè)計的訓(xùn)練策略和數(shù)據(jù)設(shè)計,而非僅僅依賴模型擴(kuò)展,可以打造出高效、有競爭力的復(fù)雜多模態(tài)理解系統(tǒng)。這使得Eagle 2.5成為構(gòu)建更適合現(xiàn)實世界多媒體應(yīng)用的更具上下文感知能力的AI系統(tǒng)的重要一步。


本文轉(zhuǎn)載自公眾號Halo咯咯    作者:基咯咯

原文鏈接:??https://mp.weixin.qq.com/s/pJECaBj-yRxL9xlDx2fY-A??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
已于2025-4-28 09:23:26修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦