Meta斯坦福全新多模態(tài)Apollo,60分鐘視頻輕松理解!7B性能超越30B
雖然語(yǔ)言和圖像語(yǔ)言建模進(jìn)展迅速,但視頻多模態(tài)大模型(LMM)卻難以望其項(xiàng)背。
近日,Meta和斯坦福大學(xué)的團(tuán)隊(duì)聯(lián)手,從評(píng)估基準(zhǔn)、模型設(shè)計(jì)到開源模型, 做出了全方位的探索,創(chuàng)建ApolloBench用于解決視頻理解領(lǐng)域評(píng)估效率低下的問題, 提出了模型設(shè)計(jì)的拓展一致性,發(fā)現(xiàn)了驅(qū)動(dòng)LMM性能的關(guān)鍵因素,開源了Apollo模型。
值得注意的是,Apollo-3B超越了幾乎所有的7B模型,而Apollo-7B變體則是7B模型中目前最佳的。
論文鏈接: https://arxiv.org/abs/2412.10360
項(xiàng)目網(wǎng)站: https://apollo-lmms.github.io
示例鏈接: https://huggingface.co/spaces/Apollo-LMMs/Apollo-3B…
模型鏈接: https://huggingface.co/Apollo-LMMs
現(xiàn)有的視頻問答基準(zhǔn)的有效性如何?
視頻大型多模態(tài)模型(video-LMMs)的快速發(fā)展推動(dòng)了眾多視頻問答基準(zhǔn)的建立,其中包括Video-MME、MLVU、LongVideoBench等。雖然這些基準(zhǔn)能夠進(jìn)行全面評(píng)估,但也會(huì)帶來大量的資源密集和冗余。
該團(tuán)隊(duì)通過篩選問題,確定了五大時(shí)態(tài)感知類別:時(shí)態(tài)OCR、第一視角、空間、感知和推理。
然后,將問題手動(dòng)歸入這些類別中的每一類。從這些類別中選出了前400個(gè)問題,并對(duì)每個(gè)問題進(jìn)行人工驗(yàn)證,以驗(yàn)證所選問題的正確性。
在ApolloBench上進(jìn)行評(píng)估要快 41 倍,同時(shí)與現(xiàn)有基準(zhǔn)高度相關(guān)(見圖1的右圖 ),并且受視頻感知的影響更大(圖1的左圖 )。
新提出的基準(zhǔn)ApolloBench與所有測(cè)試過的基準(zhǔn)都高度相關(guān),這表明它能提供同樣有效的評(píng)估,同時(shí)計(jì)算效率更高。
圖1:基準(zhǔn)分析。(左圖)當(dāng)提供不同輸入模式時(shí),開源 LMM 在各種視頻問題解答基準(zhǔn)測(cè)試中的準(zhǔn)確率:完整視頻(綠條)、視頻中的單幀(紅條)和不含任何視覺內(nèi)容的純文本輸入(藍(lán)條)。(右圖)相關(guān)矩陣通過說明模型在不同基準(zhǔn)上的表現(xiàn)之間的相關(guān)系數(shù),顯示了基準(zhǔn)之間的冗余度
圖1中的左圖的淺藍(lán)色陰影區(qū)域表示視頻和文本輸入之間的準(zhǔn)確率差異,突出了視頻感知比單純的文本理解在多大程度上提高了性能;黃色陰影區(qū)域表示視頻和圖像輸入之間的差異,量化了視頻與靜態(tài)圖像相比所帶來的時(shí)間信息的額外優(yōu)勢(shì)。
圖1中右圖的矩陣中的每個(gè)單元格表示兩個(gè)基準(zhǔn)在模型性能方面的密切程度。
拓展一致性:在模型設(shè)計(jì)中能做到多小?
通過研究不同規(guī)模 LMM 的設(shè)計(jì)決策之間的相關(guān)性,發(fā)現(xiàn)規(guī)模 (約等于2-4B) 模型的設(shè)計(jì)決策與更大模型的設(shè)計(jì)決策高度相關(guān)(相關(guān)系數(shù)大于0.9),將這種現(xiàn)象稱為「規(guī)模一致性」(Scaling Consistency)(見下圖 2)。
圖2:擴(kuò)展一致性
左圖展示7B和0.5B與其他規(guī)模的LLM的相關(guān)系數(shù),表明7B模型的相關(guān)性隨著LLM規(guī)模的增大而增大,而在0.5B模型中沒有看到同樣的趨勢(shì)。
右圖展示0.5B\1.5B\4B模型與數(shù)據(jù)集規(guī)模的相關(guān)系數(shù)。相關(guān)系數(shù)在500K樣本左右開始趨于穩(wěn)定。
擴(kuò)展一致性表明,在中等規(guī)模的模型(~ 2-4B)和數(shù)據(jù)集上做出的設(shè)計(jì)決策可以可靠地轉(zhuǎn)移到更大的模型上,即使在不同的模型族中也是如此。
數(shù)據(jù)集上做出的設(shè)計(jì)決策可以可靠地轉(zhuǎn)移到更大的模型上,甚至在不同的模型族中也是如此。這使研究人員無(wú)需進(jìn)行大量的擴(kuò)展研究就能做出明智的設(shè)計(jì)選擇。
擴(kuò)展一致性,即可以在較小的模型和數(shù)據(jù)集上做出設(shè)計(jì)決策,并可靠地遷移到較大的模型和數(shù)據(jù)集上。
探索設(shè)計(jì)空間:什么影響高效的模型設(shè)計(jì)
1. 視頻采樣
為了評(píng)估幀速率與均勻采樣的影響,訓(xùn)練了四個(gè)模型,分別均勻地8、16、32 或 64 幀采樣。
為了測(cè)試性能差異是由于測(cè)試還是訓(xùn)練時(shí)的幀采樣不同造成的,對(duì)這些模型進(jìn)行了均勻采樣和fps采樣評(píng)估。
與fps采樣相比,均勻幀采樣的性能始終低于fps采樣(圖3中的左圖)??梢钥闯觯@種性能差距并不是由于測(cè)試時(shí)采樣的幀數(shù)。因此得出結(jié)論,視頻的均勻幀采樣導(dǎo)致了訓(xùn)練過程中的性能差距。
在模型訓(xùn)練和推理過程中,fps采樣比均勻采樣更可取。
圖3:比較不同的取樣策略及其對(duì)性能的影響。(左圖)模型使用均勻采樣進(jìn)行訓(xùn)練和測(cè)試。(中圖)使用均勻采樣訓(xùn)練模型,但使用fps采樣進(jìn)行測(cè)試。(右圖)分析每秒幀數(shù)(fps) 和每秒token數(shù)(tps) 對(duì)總體性能的影響
圖3的左圖表明增加幀數(shù)可提高整體性能,但達(dá)不到fps采樣性能。當(dāng)以恒定的幀頻進(jìn)行訓(xùn)練時(shí),每秒的token數(shù)(tps)也可以通過token重采樣器來改變。
如圖3中的右圖所示,在tps 和fps之間似乎存在著一種短視頻和長(zhǎng)視頻性能的折衷方法。在不同的幀速率下,每幀8-32個(gè)token的性能都很強(qiáng)。
tps和fps之間需要權(quán)衡,每幀8-32個(gè)token最為理想。
2. 視頻表示
在單編碼器設(shè)置中,與其他圖像/視頻編碼器相比,SigLIP-SO400M的性能最佳,這表明必須改進(jìn)視頻編碼器才能取代圖像編碼器。
視頻編碼器僅在時(shí)態(tài)感知方面優(yōu)于圖像編碼器,這表明LLM在細(xì)粒度時(shí)態(tài)集成(如估計(jì)運(yùn)動(dòng)速度和方向)方面存在困難。
圖4:視覺編碼器。測(cè)試了InternVideo2、LanguageBind-Image/Video、V-JEPA、Video-MAE、SigLIP-SO400M和DINOv2及組合。(左圖)單一編碼器測(cè)試,(右圖)雙編碼器配置的性能
在單編碼器測(cè)試中,左圖顯示SigLIP-SO-400M 的整體性能最佳;與視頻編碼器相比,圖像編碼器在時(shí)態(tài)感知方面表現(xiàn)不佳。
右圖顯示語(yǔ)言監(jiān)督編碼器的表現(xiàn)優(yōu)于自我監(jiān)督編碼器;InternVideo2和SigLIP-SO-400M結(jié)合使用可獲得最佳的整體性能。
SigLIP-SO400M是用于視頻LMM的最佳單一編碼器。
將視頻編碼器和圖像編碼器結(jié)合起來可以抵消它們的局限性,因?yàn)閳D像編碼器不對(duì)時(shí)間信息進(jìn)行編碼,而視頻編碼器的空間表示能力較弱。
組合編碼器的性能始終優(yōu)于單編碼器的同類產(chǎn)品,其中InternVideo2+SigLIP-SO400M的總體性能最好,在ApolloBench中提高了~7%。可以發(fā)現(xiàn)輸入幀數(shù)較少的視頻編碼器表現(xiàn)更佳,這可能是由于圖像-視頻傳輸效果更好。
將SigLIP-SO400M與InternVideo2結(jié)合使用,整體性能最佳。
3. 視頻token重采樣
相比于其他大模型,token重采樣在視頻 LMM 中更為重要,因?yàn)檫@直接影響到可處理的幀數(shù),限制了視頻的最大長(zhǎng)度。視頻token重采樣可以由文本引導(dǎo)(如使用 Q-Former)。
然而,這種方法并不能很好地適用于多輪對(duì)話,因?yàn)閠oken會(huì)根據(jù)第一個(gè)問題向下采樣。還有許多人采用某種形式的平均匯聚(average pooling)。
作者測(cè)試了三種token重采樣方法:mlp上投影 + 平均匯聚、2D conv + 平均匯聚和感知器重采樣(perceiver resampling)。
如表1所示,感知重采樣(perceiver resampling)在所有指標(biāo)上都優(yōu)于其他方法。
表1:視頻token重采樣方法。不同token重采樣技術(shù)在視頻-LMM 任務(wù)中的表現(xiàn)
在所有指標(biāo)上,感知重采樣(perceiver resampling)都優(yōu)于其他方法。
在減少token/幀時(shí),感知重采樣(perceiver resampling)出卓越的性能。
4. 視頻token集成
集成視頻和文本token是視頻 LMM 的關(guān)鍵設(shè)計(jì)選擇,因?yàn)樗苯佑绊懙侥P吞幚砗徒忉尪嗄B(tài)內(nèi)容的效率。
為了確定最穩(wěn)健的集成策略,如表2所示,評(píng)估了四種集成策略:直接插入、分離token、文本時(shí)間戳以及將分離token與時(shí)間戳相結(jié)合。
可以看出,我們發(fā)現(xiàn)在視頻token之間添加任何文本或?qū)W習(xí)到的token都會(huì)在ApolloBench上帶來2-3%的改進(jìn)。
表2:視頻token集成方法。將視頻token集成到文本序列的不同策略的性能
在每個(gè)片段前加入文本時(shí)間戳的整體性能最佳。
在來自不同幀或片段的視頻token之間添加token(文本、學(xué)習(xí)到的標(biāo)簽等),足以實(shí)現(xiàn)高效的token集成。
多模態(tài)大模型的訓(xùn)練
1. 訓(xùn)練調(diào)度器
如表3所示, 作者系統(tǒng)地評(píng)估了不同訓(xùn)練計(jì)劃對(duì)模型性能的影響,比較了單階段、兩階段和三階段訓(xùn)練方案, 發(fā)現(xiàn)分三階段訓(xùn)練模型的效果最好,緊隨其后的是兩階段的訓(xùn)練調(diào)度策略。對(duì)于每種訓(xùn)練調(diào)度策略,測(cè)試了三種超參數(shù),并報(bào)告了其中最優(yōu)參數(shù)的結(jié)果。
表3:訓(xùn)練調(diào)度器。評(píng)估的七種不同訓(xùn)練計(jì)劃概覽,突出顯示了 LLM 和視覺編碼器在每個(gè)階段是凍結(jié)還是解凍,以及用于訓(xùn)練的數(shù)據(jù)類型。
在不同的階段逐步解凍不同的組件,從而獲得卓越的模型訓(xùn)練動(dòng)態(tài)。
2. 訓(xùn)練視頻解碼器
作者在表3中比較了在混合數(shù)據(jù)上訓(xùn)練視覺編碼器還是完全在視頻數(shù)據(jù)上訓(xùn)練視覺編碼器,以及對(duì)齊優(yōu)先的連接器是否能提高性能。
當(dāng)LLM解凍時(shí),使用文本、圖像、多圖像和視頻數(shù)據(jù)的混合數(shù)據(jù)。因此,如果視頻和LLM同時(shí)解凍,視覺編碼器將在圖像和視頻數(shù)據(jù)的組合上進(jìn)行訓(xùn)練。
可以發(fā)現(xiàn),這將大大損害LMM性能。訓(xùn)練編碼器提高了以自我為中心的推理性能,而其他指標(biāo)則基本不受影響,這很可能是由于視覺-語(yǔ)言的細(xì)粒度配準(zhǔn)得到了改善。
僅在視頻數(shù)據(jù)上對(duì)視頻編碼器進(jìn)行微調(diào)可進(jìn)一步提高整體性能,尤其是在推理和特定領(lǐng)域任務(wù)上。
3. 數(shù)據(jù)組合
在圖7中,研究了文本、圖像和視頻混合數(shù)據(jù)對(duì)視頻LMM性能的影響。
可以看出,在訓(xùn)練組合中包含10~14%的文本數(shù)據(jù)對(duì)性能是必需的。這可能會(huì)減輕災(zāi)難性遺忘。將文本數(shù)據(jù)的比例從14%提高到25%,或?qū)⑵浣档偷?%以下,都會(huì)損害性能。
除了包含文本數(shù)據(jù)外,其余模式的混合比例最好略微偏重于視頻。這種平衡可以讓模型從更高質(zhì)量、更多樣化的圖像數(shù)據(jù)中學(xué)習(xí)。
圖7:微調(diào)數(shù)據(jù)集的數(shù)據(jù)統(tǒng)計(jì)。(左)數(shù)據(jù)模式分類,包括文本、圖像、多圖像和視頻,說明微調(diào)數(shù)據(jù)集的構(gòu)成。(中)視頻注釋類型的分布,突出顯示了對(duì)話、推理、第一視角、時(shí)態(tài)感知、OCR和字幕注釋的比例。(右圖)視頻時(shí)長(zhǎng)直方圖,顯示了訓(xùn)練數(shù)據(jù)集中時(shí)長(zhǎng)的分布情況
Apollo模型評(píng)估
基于新的發(fā)現(xiàn),團(tuán)隊(duì)開發(fā)了一系列Apollo模型,其機(jī)構(gòu)圖如下。
Apollo模型在多個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行了評(píng)估,其在視頻語(yǔ)言理解任務(wù)中的結(jié)果見表4。
此外, Apollo-7B可與參數(shù)超過30B的模型(如Oryx-34B和VILA1.5-40B 等)相媲美,甚至超越了參數(shù)超過30B的模型,如Oryx-34B和VILA1.5-40B。
例如,在MLVU基準(zhǔn)上,Apollo-7B得分為70.9,以微弱優(yōu)勢(shì)超過Oryx-34B的70.8。
這證實(shí)了精心選擇的架構(gòu)和訓(xùn)練策略可以帶來實(shí)質(zhì)性的改進(jìn),而無(wú)需求助于更大的模型規(guī)模。