北航推出TinyLLaVA-Video,有限計算資源優(yōu)于部分7B模型,代碼、模型、訓練數(shù)據(jù)全開源
近年來,隨著多模態(tài)大模型的崛起,視頻理解技術取得了顯著進展。但是目前主流的全開源視頻理解多模態(tài)模型普遍具有 7B 以上的參數(shù)量,這些模型往往采用復雜的架構設計,并依賴于大規(guī)模訓練數(shù)據(jù)集。受限于高昂的計算資源成本,模型訓練與定制化開發(fā)對于資源有限的科研人員而言仍存在顯著的門檻。
近日,北京航空航天大學的研究團隊基于 TinyLLaVA_Factory 的原項目,推出小尺寸簡易視頻理解框架 TinyLLaVA-Video,其模型,代碼以及訓練數(shù)據(jù)全部開源。在計算資源需求顯著降低的前提下,訓練出的整體參數(shù)量不超過 4B 的模型在多個視頻理解 benchmark 上優(yōu)于現(xiàn)有的 7B + 模型。同時,由于 TinyLLaVA-Video 衍生自 Tinyllava_Factory 代碼庫,因此項目仍然具有組件化與可擴展性等優(yōu)點,使用者可以根據(jù)自身需求進行定制與拓展研究。
- 論文地址:https://arxiv.org/abs/2501.15513
- Github 項目:https://github.com/ZhangXJ199/TinyLLaVA-Video
全開源項目,支持定制與拓展
區(qū)別于眾多僅開源模型權重的項目,TinyLLaVA-Video 秉承了 TinyLLaVA_Factory 全面開源的理念。該項目不僅公開了完整的模型權重、訓練代碼和訓練數(shù)據(jù)集,也延續(xù)了原有的模塊化設計架構,研究人員可根據(jù)具體實驗需求,靈活替換語言模型、視覺編碼器等核心組件,并可自定義訓練策略。這種開放性設計不僅降低了小規(guī)模研究團隊進入視頻理解研究領域的門檻,還為未來的輕量級視頻理解模型的訓練范式與架構創(chuàng)新探索提供了實驗平臺。
在模型架構方面,TinyLLaVA-Video 沿用 LLaVA 類多模態(tài)模型常見的 Vision Tower+Connector+LLM 框架,并同樣保持預訓練對齊與監(jiān)督微調(diào)的兩階段訓練策略。項目中采用的所有預訓練模型組件均遵循開源協(xié)議,包括如 Qwen2.5-3B 等語言模型和 SigLIP 等視覺編碼器此類核心模塊,確保了實驗的可復現(xiàn)性,為研究者提供了可靠的基準參考。同時,研究人員可以方便地替換模型組件,更改訓練策略,定制符合自身需求的視頻理解模型。
在訓練數(shù)據(jù)方面,TinyLLaVA-Video 基于開源的 LLaVA-Video-178K 和 Valley 數(shù)據(jù)集進行實驗。同時,為進一步精簡數(shù)據(jù)集,提高訓練數(shù)據(jù)的質(zhì)量并控制計算資源成本,項目對訓練數(shù)據(jù)進行了多步篩選與過濾,最終得到 397k 的預訓練數(shù)據(jù)與 491k 的監(jiān)督微調(diào)數(shù)據(jù)。這使得研究者即便僅具備有限的計算資源,也能在合理的訓練時間內(nèi)復現(xiàn)實驗結果并開展進一步研究。經(jīng)過處理的數(shù)據(jù)標注信息(annotation)也已經(jīng)完整公開于 HuggingFace 平臺,這也為后續(xù)研究提供了高質(zhì)量的數(shù)據(jù)基礎。
小尺寸簡易框架,依然保持高性能
以往的視頻理解方法受限于語言模型的輸入長度限制,往往面臨兩難選擇:要么通過設計復雜的模型架構來處理長序列信息,要么犧牲視頻信息的完整性而限制采樣幀數(shù)。因此,如何處理長時序視覺序列,并平衡計算資源與性能之間的矛盾,成為輕量級視頻理解模型亟待解決的問題。
為在保持模型結構輕量化的同時解決長序列信息處理的問題,TinyLLaVA-Video 對于經(jīng)過 Vision Tower 處理后的整體視頻序列,使用簡單的視頻級 Resampler 作為 Connector 來對齊視覺和語言,從而能極大地減少輸入至語言模型的 Visual Token 的數(shù)量。這種處理方式可以使得模型支持靈活的視頻采樣策略,研究者可以根據(jù)視頻類型與使用需求進行 fps 采樣或均勻幀采樣,設置不同的視頻采樣幀數(shù)。
雖然簡化模型架構并控制訓練數(shù)據(jù)的規(guī)模,但是 TinyLLaVA-Video 的表現(xiàn)依然非??捎^。實驗結果表明,整體參數(shù)不超過 4B 的模型在包含 MLVU、Video-MME 在內(nèi)的多個視頻理解基準測試集上的表現(xiàn)優(yōu)于同等訓練數(shù)據(jù)量級下的 7B + 模型,充分驗證了該框架的有效性。
此外,該研究也進行了大量實驗,系統(tǒng)性地探索了不同配置下的模型性能,包括選擇不同的語言模型、視覺編碼器以及采樣不同的幀數(shù)等設置的影響(實驗設置與結果詳見技術報告)。這些實驗結果揭示了在不同參數(shù)設定下,模型在視頻理解任務中的表現(xiàn),為研究者提供了優(yōu)化模型結構的實證數(shù)據(jù)。這些探索不僅提升了 TinyLLaVA-Video 的適用性,也為后續(xù)研究提供了重要的參考依據(jù)。
TinyLLaVA-Video 的研究表明,小尺寸視頻理解模型在計算成本有限的環(huán)境下仍具有廣闊的發(fā)展空間。未來,計算資源有限的研究者們可以基于該工作,進一步優(yōu)化模型結構和訓練策略,以推動小尺寸視頻理解模型的持續(xù)發(fā)展,為資源受限環(huán)境下的多模態(tài)研究提供更多可能性。
TinyLLaVA 系列項目始終致力于在有限計算資源下研究小尺寸模型的訓練與設計空間,堅持完全開源原則,完整公開模型參數(shù)、源代碼及訓練數(shù)據(jù)。同時,項目采用模塊化設計理念,確保項目的可拓展性,方便資源有限的研究者們通過實踐來理解與探索多模態(tài)大模型。