長短大小樣樣精通!原始分辨率、超長視頻輸入:更靈活的全開源多模態(tài)架構Oryx
本文的主要作者來自清華大學智能視覺實驗室(i-Vision Group)、騰訊公司和南洋理工大學 S-Lab。本文的共同第一作者為清華大學自動化系博士生劉祖炎和南洋理工大學博士生董宇昊,主要研究方向為多模態(tài)模型。本文的通訊作者為騰訊高級研究員饒永銘和清華大學自動化系魯繼文教授。
視覺數據的種類極其多樣,囊括像素級別的圖標到數小時的視頻?,F有的多模態(tài)大語言模型(MLLM)通常將視覺輸入進行分辨率的標準化或進行動態(tài)切分等操作,以便視覺編碼器處理。然而,這些方法對多模態(tài)理解并不理想,在處理不同長度的視覺輸入時效率較低。
為了解決上述問題,來自清華大學、騰訊、南洋理工大學的研究者們提出一種更靈活的多模態(tài)模型 Oryx。Oryx 是一種統一的多模態(tài)架構,能夠處理圖像、視頻和多視角 3D 場景,提供了一種能夠按照需求處理任意空間大小和時間長度視覺輸入的解決方案。
Oryx 的核心創(chuàng)新點包括:一個預訓練的 OryxViT 模型,能夠將任意原始分辨率的圖像編碼為視覺 token;一個動態(tài)壓縮模塊,支持按需對視覺 token 進行 1 倍到 16 倍的壓縮。上述設計使 Oryx 能夠在處理不同需求下的任務時保持更高的效率和精度。此外,Oryx 通過增強的混合數據和針對上下文檢索、空間感知數據的訓練,在多模態(tài)融合上取得了更強的能力。
- 項目地址:https://oryx-mllm.github.io/
- 論文:https://arxiv.org/abs/2409.12961
- 代碼:https://github.com/Oryx-mllm/Oryx
- Demo:https://huggingface.co/spaces/THUdyh/Oryx
1. 介紹
現有方法簡單地將各種視覺輸入統一處理,忽略了視覺內容的差異和不同應用的具體需求。例如,早期的 MLLM 將視覺輸入轉化為固定分辨率;近期的 MLLM 通過動態(tài)切分方式生成高分辨率的視覺表示。然而,由于缺乏支持原始分辨率輸入的高質量視覺編碼器,這些解決方案仍然是一種妥協。我們認為,提供原始分辨率的視覺輸入具有以下優(yōu)勢:利用整個圖像輸入以防止信息丟失;解決邊緣情況;提高效率和自然性;具有更高的性能等。
圖 1:按需求理解的概念。
如圖 1 所示,在分辨率和壓縮比上的優(yōu)化可以提高效率,滿足實際需求。例如,高分辨率對于與文本相關的任務更重要,而對象層次的任務只需要簡單的圖像,部分應用場景需要總結極長的視頻,其他應用場景需要對每一幀保持高精度。因此,支持時空上的任意分辨率是一種更通用和高效的方案。
為了解決以上挑戰(zhàn),本文提出了一個統一的時空理解 MLLM 框架 Oryx,能夠在按需方式下處理任意視覺分辨率、不同時間長度和多樣化的任務。Oryx 的主要貢獻包括:
- 預訓練視覺編碼器 OryxViT。通過自適應位置嵌入層和變長自注意力機制,能夠并行處理原始分辨率的視覺表示,更加適合語言模型。
- 動態(tài)壓縮模塊。能夠任意調整下采樣比例,支持 1 倍到 16 倍壓縮的無縫切換,保持精度和長度上的取舍。
- 更好的數據和訓練策略,能夠在圖像、視頻和 3D 數據理解上取得優(yōu)異的性能。
我們提供了 7B/34B 兩種尺度的 Oryx 模型,在視頻、圖像和 3D 理解任務上表現出色,在 7B 規(guī)模下取得了綜合最好的結果,34B 模型超越了部分 72B 模型的性能,在部分數據集超過 GPT-4o、GPT-4V 等模型,成為開源模型的新標桿。
2. 方法概覽
圖 2:Oryx 方法總覽圖。
原始分辨率表示
此前在圖像理解上的工作證明,保持視覺內容的原始形式具有更高的有效性。然而,原始分辨率在 MLLM 上的應用還未得到探索。我們認為,MLLM 實際上是一個應用原始分辨率的最好環(huán)境:視覺輸入的來源更加多樣,具有不同的需求和格式;語言 token 長度本質是動態(tài)的,因此視覺的動態(tài)表示可以無縫與后續(xù)階段對接。
現有的解決方案證明,傳統的視覺編碼器無法處理原始分辨率輸入。因此,我們基于 SigLIP 模型提出 OryxViT 視覺編碼器。OryxViT 通過將位置嵌入矩陣進行縮放插值適應輸入內容。我們通過輕量級的語言模型作為接口,訓練視覺編碼器的參數,從多個多模態(tài)任務下獲取數據進行訓練,得到 OryxViT 模型。
為了解決批處理過程中動態(tài)的序列長度問題,我們在通道維度上對不同長度的序列進行拼接,通過可變長自注意力操作,獨立計算每個視覺輸入的注意力矩陣,因此 OryxViT 可以高效處理不同縱橫比的視覺信號,并保持與固定分辨率編碼器相同的推理速度。
動態(tài)壓縮模塊
在處理不同長度的視覺輸入時,對所有輸入一視同仁會降低總體計算效率。我們通過動態(tài)壓縮模塊實現更高比例的壓縮,并將不同壓縮比的視覺內容統一成一致的模式,從而能夠按需控制視覺序列的長度。我們對圖像、視頻和長視頻應用不同壓縮比的下采樣層,并設置下采樣倍率為 1 倍、4 倍、16 倍,從而實現可變和極高的壓縮比。
為了減輕下采樣的影響,我們采用區(qū)域注意力操作對高分辨率、低分辨率特征圖進行交互。低分辨率的圖像塊作為查詢向量,通過交叉注意力操作與高分辨率鄰近小塊進行交互
其中,我們通過投影層將 Q、K 向量投影到更低的維度,并省略了 V 向量和輸出層的投影以保持原始視覺特征。我們通過共享的 MLP 處理不同壓縮比的視覺輸入,以保持不同視覺輸入的一致性。最終的視覺表示被展平后輸入到語言模型進行上下文預測。
全能模型:圖像、視頻、三維理解
我們進一步擴展了此前多任務 MLLM 的能力,處理更多樣化的情境、不同長度的內容和更廣泛的任務。
視頻大海撈針訓練。我們認為,處理長視頻的關鍵在于從廣泛的上下文中找到特定信息。因此,我們從 MovieNet 數據集中獲取視頻樣本,并通過單幀標題生成和兩幀差異識別兩個任務對模型進行強化訓練。
通過粗略空間關系學習 3D 知識。3D 環(huán)境相關的多視圖圖像缺乏時間或軌跡線索,因此以往的方法在 3D 任務中難以實現正確的空間理解。我們通過粗略空間關系對應的方法,使得模型在多視角中能夠跟隨和捕捉空間關聯。
訓練策略、數據組成
Oryx 的訓練策略輕量且直接。模型初始化包括視覺編碼器 OryxViT 和大語言模型。第一階段訓練僅涉及圖像數據,首先在 LLaVA-1.5-558k 圖文對中進行簡單的對齊預訓練,訓練動態(tài)壓縮模塊。此后在 4M 高質量圖文對中進行有監(jiān)督微調,這些數據從各種開源學術數據集中獲取。需要注意的是,我們沒有進行大規(guī)模的預訓練,也沒有使用私有的有監(jiān)督微調數據以獲取更好的性能,我們的主要目標是驗證架構的有效性。
在第二階段,我們通過圖像、視頻和 3D 理解的多種視覺輸入聯合訓練 Oryx 模型,微調策略與第一階段類似。我們從第一階段中抽樣 600k 圖像數據,并從開源視頻數據集中選取多個視頻數據集進行混合。此外,我們包含了所提出的視頻大海撈針樣本、具有粗略空間關系的 3D 樣本。這部分引入的視頻和多視角數據共 650k。
我們的訓練數據均來源于開源數據集,因此確保了 Oryx 的可復現性,并提供了較大的進一步改進空間。
3. 實驗結果
通用視頻理解
我們選取 4 個選擇題評測標準和 3 個回答生成評測標準進行通用視頻理解能力的測試。Oryx 在不同尺度的模型下均取得了有競爭力的表現。在帶字幕的 VideoMME 數據集中,Oryx 取得 62.6% 和 67.4% 的平均準確率。在 NextQA 和 Perception Test 數據集分別超越此前的 SOTA 結果 3.3% 和 5.4%。在 GPT 評測的標準下,Oryx 表現出色,取得了 1.49、3.53 和 3.76 的平均得分。
長視頻理解
為了專門測試在長視頻輸入下的能力,我們選取了 3 個主流且具代表性的長視頻理解基準,包括 MLVU、LongVideoBench 和 VideoMME 長視頻子集。Oryx 在理解長視頻內容表現出顯著的能力,超越了所有現有的 7B 模型系列,34B 模型在 MLVU 和 LongVideoBench 上相比之前最先進的 72B 模型提升了 4.4% 和 0.9% 平均準確率。在 MLVU 測試集下,Oryx-34B 相比 GPT-4o 高出 6.2%。
視頻大海撈針
為了測試模型的長視頻檢索能力,我們進行了視頻大海撈針實驗。基線模型顯示出嚴重的信息丟失,相比之下,我們的方法在 1.6k 幀輸入的情況下仍然能夠準確回答問題。
圖像理解
Oryx 模型在多種有代表性的圖像評測基準下保持了開源模型中第一梯隊的水平。
三維空間理解
Oryx 在性能上超越此前為 3D 理解設計的專有模型,也超過最近更新的基于大語言模型的 3D 模型。
分析實驗
分辨率和縮放策略的影響。原始分辨率輸入明顯好于固定尺寸(保持長寬比不變)圖像輸入,尤其在特定任務下的數據集。在不同視覺輸入分辨率下,MMBench 和 OCRBench 性能均有提升,但原始分辨率是相較而言更簡單且有效的策略。
Oryx 結構的消融實驗。在視覺編碼器維度,OryxViT 相比 SigLIP 具有更優(yōu)異的圖像 - 語言對齊性能。通過對原始分辨率和動態(tài)切分方法的公平比較,此前的視覺編碼器無法處理原始分辨率輸入,而基于 OryxViT,原始分辨率方法明顯優(yōu)于動態(tài)切分方法。在我們的訓練和測試過程中,我們始終保持原始分辨率輸入。
對于連接模塊,動態(tài)壓縮模塊在視頻測試集中表現出更優(yōu)越的性能,且平均池化具有更好的結果,這可能是由于無參數降采樣能夠更好地保留視覺特征分布,并減輕訓練的優(yōu)化壓力。
4. 案例分析
視頻描述和總結任務
基于視頻內容的推理和學習
5. 總結
我們提出了 Oryx 系列,一種能夠按需處理不同任務、時間長度、視覺分辨率輸入的新架構。Oryx 在時空理解上有突出表現,利用 OryxViT 創(chuàng)新地處理原始分辨率,采用動態(tài)壓縮模塊進行高效的數據壓縮,并應用了更好的訓練策略。Oryx 在各種主流圖像、視頻和 3D 測試基準中均表現出色。我們希望本工作能夠為多模態(tài)學習提供一個新視角。