沒有等來OpenAI開源GPT-4o,等來了開源版VITA
大語言模型 (LLM) 經(jīng)歷了重大的演變,最近,我們也目睹了多模態(tài)大語言模型 (MLLM) 的蓬勃發(fā)展,它們表現(xiàn)出令人驚訝的多模態(tài)能力。
特別是,GPT-4o 的出現(xiàn)顯著推動了 MLLM 領(lǐng)域的發(fā)展。然而,與這些模型相對應(yīng)的開源模型卻明顯不足。開源社區(qū)迫切需要進一步促進該領(lǐng)域的發(fā)展,這一點怎么強調(diào)也不為過。
本文 ,來自騰訊優(yōu)圖實驗室等機構(gòu)的研究者提出了 VITA,這是第一個開源的多模態(tài)大語言模型 (MLLM),它能夠同時處理和分析視頻、圖像、文本和音頻模態(tài),同時具有先進的多模態(tài)交互體驗。
研究者以 Mixtral 8×7B 為語言基礎(chǔ),然后擴大其漢語詞匯量,并進行雙語指令微調(diào)。除此以外,研究者進一步通過多模態(tài)對齊和指令微調(diào)的兩階段多任務(wù)學(xué)習(xí)賦予語言模型視覺和音頻能力。
VITA 展示了強大的多語言、視覺和音頻理解能力,其在單模態(tài)和多模態(tài)基準(zhǔn)測試中的出色表現(xiàn)證明了這一點。
除了基礎(chǔ)能力,該研究在提升自然多模態(tài)人機交互體驗方面也取得了長足進步。據(jù)了解,這是第一個在 MLLM 中利用非喚醒交互和音頻中斷的研究。研究者還設(shè)計了額外的狀態(tài) token 以及相應(yīng)的訓(xùn)練數(shù)據(jù)和策略來感知各種交互場景。
VITA 的部署采用復(fù)式方案,其中一個模型負(fù)責(zé)生成對用戶查詢的響應(yīng),另一個模型持續(xù)跟蹤環(huán)境輸入。這使得 VITA 具有令人印象深刻的人機交互功能。
VITA 是開源社區(qū)探索多模態(tài)理解和交互無縫集成的第一步。雖然在 VITA 上還有很多工作要做才能接近閉源同行,但該研究希望 VITA 作為先驅(qū)者的角色可以成為后續(xù)研究的基石。
- 論文地址:https://arxiv.org/pdf/2408.05211
- 論文主頁:https://vita-home.github.io/
- 論文標(biāo)題:VITA: Towards Open-Source Interactive Omni Multimodal LLM
在上述視頻中,用戶可以和 VITA 進行無障礙的溝通,看到用戶穿的白色 T 恤后,會給出搭配什么顏色的褲子;在被問到數(shù)學(xué)題時,能夠?qū)崟r查看題目類型,進行推理,然后給出準(zhǔn)確的答案;當(dāng)你和別人講話時,VITA 也不會插嘴,因為知道用戶不是和它交流;出去旅游,VITA 也會給出一些建議;在 VITA 輸出的過程中,你也可以實時打斷對話,并展開另一個話題。
在這個視頻中,用戶拿著一個餅干,詢問 VITA 自己在吃什么,VITA 給出在吃餅干,并給出餅干搭配牛奶或者茶口感會更好的建議。
健身時,充當(dāng)你的聊天搭子:
注:上述視頻都是實時 1 倍速播放,沒有經(jīng)過加速處理。
根據(jù)用戶提供的流程圖,VITA 就能編寫代碼:
提供一張圖片,VITA 也能根據(jù)圖片內(nèi)容回答問題:
還能觀看視頻回答問題,當(dāng)用戶拋出問題「詳細(xì)描述狗的動作」,VITA 也能準(zhǔn)確給出答案:
方法介紹
如圖 3 所示,VITA 的整體訓(xùn)練流程包括三個階段:LLM 指令微調(diào)、多模態(tài)對齊和多模態(tài)指令微調(diào)。
LLM 指令微調(diào)
Mixtral 8x7B 的性能屬于頂級開源 LLM 中一員,因此該研究將其作為基礎(chǔ)。然而研究者觀察到官方的 Mixtral 模型在理解中文方面的能力有限。為了注入雙語(中文和英文)理解能力,該研究將中文詞匯量擴展到基礎(chǔ)模型,將詞匯量從 32,000 個增加到 51,747 個。在擴展詞匯量后,研究者使用 500 萬個合成的雙語語料庫進行純文本指令微調(diào)。
多模態(tài)對齊
為了彌合文本和其他模態(tài)之間的表征差距,從而為多模態(tài)理解奠定基礎(chǔ)。僅在視覺對齊階段訓(xùn)練視覺連接器。表 1 總結(jié)了所使用的訓(xùn)練數(shù)據(jù),除了純文本部分。
視覺模態(tài)
首先是視覺編碼器。研究者使用 InternViT-300M-448px 作為視覺編碼器,它以分辨率 448×448 的圖像作為輸入,并在使用一個作為簡單兩層 MLP 的視覺連接器后生成了 256 個 token。對于高分辨率圖像輸入,研究者利用動態(tài) patching 策略來捕捉局部細(xì)節(jié)。
視頻被視作圖像的特殊用例。如果視頻長度短于 4 秒,則統(tǒng)一每秒采樣 4 幀。如果視頻長度在 4 秒到 16 秒之間,則每秒采樣一幀。對于時長超過 16 秒的視頻,統(tǒng)一采樣 16 幀。
其次是視覺對齊。研究者僅在視覺對齊階段訓(xùn)練視覺連接器,并且在該階段沒有使用音頻問題。
最后是數(shù)據(jù)級聯(lián)。對于純文本數(shù)據(jù)和圖像數(shù)據(jù),該研究旨在將上下文長度級聯(lián)到 6K token,如圖 4 所示。值得注意的是,視頻數(shù)據(jù)不進行級聯(lián)。
級聯(lián)不同的數(shù)據(jù)有兩個好處:
- 它支持更長的上下文長度,允許從單個圖像問題交互擴展到多個圖像問題交互,從而產(chǎn)生更靈活的輸入形式,并擴展上下文長度。
- 它提高了計算效率,因為視頻幀通常包含大量視覺 token。通過級聯(lián)圖像 - 問題對,該研究可以在訓(xùn)練批中保持平衡的 token 數(shù)量,從而提高計算效率。
此外,該研究發(fā)現(xiàn)使用級聯(lián)數(shù)據(jù)訓(xùn)練的模型與使用原始數(shù)據(jù)訓(xùn)練的模型性能相當(dāng)。
音頻模態(tài)
一方面是音頻編碼器。輸入音頻在最開始通過一個 Mel 濾波器組塊進行處理,該塊將音頻信號分解為 mel 頻率范圍內(nèi)的各個頻帶,模仿人類對聲音的非線性感知。隨后,研究者先后利用了一個 4×CNN 的下采樣層和一個 24 層的 transformer,總共 3.41 億參數(shù),用來處理輸入特征。同時他們使用一個簡單的兩層 MLP 作為音頻 - 文本模態(tài)連接器。最后,每 2 秒的音頻輸入被編碼為 25 個 tokens。
另一方面是音頻對齊。對于對齊任務(wù),研究者利用了自動語言識別(ASR)。數(shù)據(jù)集包括 Wenetspeech(擁有超過 1 萬小時的多領(lǐng)域語音識別數(shù)據(jù),主要側(cè)重于中文任務(wù))和 Gigaspeech(擁有 1 萬小時的高質(zhì)量音頻數(shù)據(jù),大部分?jǐn)?shù)據(jù)面向英文語音識別任務(wù))。對于音頻字幕任務(wù),研究者使用了 Wavcaps 的 AudioSet SL 子集,包含了 400k 個具有相應(yīng)音頻字幕的音頻片段。在對齊過程中,音頻編碼器和連接器都經(jīng)過了訓(xùn)練。
多模態(tài)指令微調(diào)
該研究對模型進行了指令調(diào)整,以增強其指令遵循能力,無論是文本還是音頻。
數(shù)據(jù)構(gòu)建。指令調(diào)優(yōu)階段的數(shù)據(jù)源與表 1 中對齊階段的數(shù)據(jù)源相同,但該研究做了以下改進:
問題被隨機(大約一半)替換為其音頻版本(使用 TTS 技術(shù),例如 GPT-SoVITS6),旨在增強模型對音頻查詢的理解及其指令遵循能力。
設(shè)置不同的系統(tǒng) prompt,避免不同類型數(shù)據(jù)之間的沖突,如表 2 所示。例如,有些問題可以根據(jù)視覺信息來回答或者基于模型自己的知識,導(dǎo)致沖突。此外,圖像數(shù)據(jù)已被 patch,類似于多幀視頻數(shù)據(jù),這可能會混淆模型。系統(tǒng) prompt 顯式區(qū)分不同數(shù)據(jù)類型,有助于更直觀地理解。
為了實現(xiàn)兩種交互功能,即非喚醒交互和音頻中斷交互,該研究提出了復(fù)式部署框架,即同時部署了兩個 VITA 模型,如圖 1 所示。
在典型情況下,生成模型(Generation model)會回答用戶查詢。同時,監(jiān)控模型(Monitoring model)在生成過程中檢測環(huán)境聲音。它忽略非查詢用戶聲音,但在識別到查詢音頻時停止生成模型的進度。監(jiān)控模型隨后會整合歷史上下文并響應(yīng)最新的用戶查詢,生成模型和監(jiān)控模型的身份發(fā)生了轉(zhuǎn)換。
實驗評估
語言性能。為了驗證語言模型訓(xùn)練過程的有效性,研究者使用了四個數(shù)據(jù)集,分別是 C-EVAL、AGIEVAL、MMLU 和 GSM8K。這些數(shù)據(jù)集涵蓋了各種場景,包括一般選擇題、多學(xué)科問答題以及數(shù)學(xué)和邏輯推理任務(wù),同時覆蓋了中英文上下文。
下表 3 的結(jié)果表明,本文的訓(xùn)練顯著增強了語言模型在中文評估集(C-EVAL 和 AGIEVAL)上的能力,同時保持了在英文相關(guān)基準(zhǔn)(MMLU)上的原始性能水平,并在數(shù)學(xué)推理任務(wù)(GSM8K)上實現(xiàn)顯著提升。
音頻性能。為了驗證模型學(xué)得的語音表示的穩(wěn)健性,研究者在 Wenetspeech 和 Librispeech 兩個數(shù)據(jù)集上進行了測試。
其中 Wenetspeech 有兩個評估指標(biāo),分別是 test_net 和 test_meeting,前者數(shù)據(jù)源與訓(xùn)練數(shù)據(jù)更加一致,因而更容易;后者提出了更大的挑戰(zhàn)。作為模型的 held-out 數(shù)據(jù)集,Librispeech 評估了模型在未見過數(shù)據(jù)集上的泛化能力,它有四個評估集,以「dev」開頭的是驗證集,以「test」開頭的是測試集,「Clean」代表挑戰(zhàn)性較低的集,「other」代表挑戰(zhàn)性更高的集。
從下表 4 的結(jié)果可以看到,VITA 在 ASR 基準(zhǔn)測試上取得了非常不錯的結(jié)果。
多模態(tài)性能。為了評估多模態(tài)能力,該研究在四個基準(zhǔn)上評估了 VITA,包括 MME 、OCRBench、HallusionBench 和 Video-MME。結(jié)果如圖 5 所示。
在圖像理解方面,VITA 優(yōu)于圖像專用開源模型 LLaVA-Next,并且接近閉源模型 Gemini 1.5 Pro。
在視頻理解方面,VITA 超過了視頻開源模型 Video-CCAM。盡管 VITA 和視頻專用的 LLaVA-Next-Video 之間存在差距,但考慮到 VITA 支持更廣泛的模態(tài)并優(yōu)先考慮可交互性,因而這是可以接受的。
最后,值得注意的是,目前開源模型與專有模型在視頻理解能力方面仍存在較大差距。