偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

沒有等來OpenAI開源GPT-4o,等來了開源版VITA

人工智能 新聞
本文 ,來自騰訊優(yōu)圖實驗室等機構(gòu)的研究者提出了 VITA,這是第一個開源的多模態(tài)大語言模型 (MLLM),它能夠同時處理和分析視頻、圖像、文本和音頻模態(tài),同時具有先進的多模態(tài)交互體驗。

大語言模型 (LLM) 經(jīng)歷了重大的演變,最近,我們也目睹了多模態(tài)大語言模型 (MLLM) 的蓬勃發(fā)展,它們表現(xiàn)出令人驚訝的多模態(tài)能力。

特別是,GPT-4o 的出現(xiàn)顯著推動了 MLLM 領(lǐng)域的發(fā)展。然而,與這些模型相對應(yīng)的開源模型卻明顯不足。開源社區(qū)迫切需要進一步促進該領(lǐng)域的發(fā)展,這一點怎么強調(diào)也不為過。

本文 ,來自騰訊優(yōu)圖實驗室等機構(gòu)的研究者提出了 VITA,這是第一個開源的多模態(tài)大語言模型 (MLLM),它能夠同時處理和分析視頻、圖像、文本和音頻模態(tài),同時具有先進的多模態(tài)交互體驗。

研究者以 Mixtral 8×7B 為語言基礎(chǔ),然后擴大其漢語詞匯量,并進行雙語指令微調(diào)。除此以外,研究者進一步通過多模態(tài)對齊和指令微調(diào)的兩階段多任務(wù)學(xué)習(xí)賦予語言模型視覺和音頻能力。

VITA 展示了強大的多語言、視覺和音頻理解能力,其在單模態(tài)和多模態(tài)基準(zhǔn)測試中的出色表現(xiàn)證明了這一點。

除了基礎(chǔ)能力,該研究在提升自然多模態(tài)人機交互體驗方面也取得了長足進步。據(jù)了解,這是第一個在 MLLM 中利用非喚醒交互和音頻中斷的研究。研究者還設(shè)計了額外的狀態(tài) token 以及相應(yīng)的訓(xùn)練數(shù)據(jù)和策略來感知各種交互場景。

VITA 的部署采用復(fù)式方案,其中一個模型負(fù)責(zé)生成對用戶查詢的響應(yīng),另一個模型持續(xù)跟蹤環(huán)境輸入。這使得 VITA 具有令人印象深刻的人機交互功能。

VITA 是開源社區(qū)探索多模態(tài)理解和交互無縫集成的第一步。雖然在 VITA 上還有很多工作要做才能接近閉源同行,但該研究希望 VITA 作為先驅(qū)者的角色可以成為后續(xù)研究的基石。

圖片

  • 論文地址:https://arxiv.org/pdf/2408.05211
  • 論文主頁:https://vita-home.github.io/
  • 論文標(biāo)題:VITA: Towards Open-Source Interactive Omni Multimodal LLM

在上述視頻中,用戶可以和 VITA 進行無障礙的溝通,看到用戶穿的白色 T 恤后,會給出搭配什么顏色的褲子;在被問到數(shù)學(xué)題時,能夠?qū)崟r查看題目類型,進行推理,然后給出準(zhǔn)確的答案;當(dāng)你和別人講話時,VITA 也不會插嘴,因為知道用戶不是和它交流;出去旅游,VITA 也會給出一些建議;在 VITA 輸出的過程中,你也可以實時打斷對話,并展開另一個話題。

在這個視頻中,用戶拿著一個餅干,詢問 VITA 自己在吃什么,VITA 給出在吃餅干,并給出餅干搭配牛奶或者茶口感會更好的建議。

健身時,充當(dāng)你的聊天搭子:

注:上述視頻都是實時 1 倍速播放,沒有經(jīng)過加速處理。

根據(jù)用戶提供的流程圖,VITA 就能編寫代碼:

圖片

提供一張圖片,VITA 也能根據(jù)圖片內(nèi)容回答問題:

圖片

還能觀看視頻回答問題,當(dāng)用戶拋出問題「詳細(xì)描述狗的動作」,VITA 也能準(zhǔn)確給出答案:

圖片

方法介紹

如圖 3 所示,VITA 的整體訓(xùn)練流程包括三個階段:LLM 指令微調(diào)、多模態(tài)對齊和多模態(tài)指令微調(diào)。

圖片

LLM 指令微調(diào)

Mixtral 8x7B 的性能屬于頂級開源 LLM 中一員,因此該研究將其作為基礎(chǔ)。然而研究者觀察到官方的 Mixtral 模型在理解中文方面的能力有限。為了注入雙語(中文和英文)理解能力,該研究將中文詞匯量擴展到基礎(chǔ)模型,將詞匯量從 32,000 個增加到 51,747 個。在擴展詞匯量后,研究者使用 500 萬個合成的雙語語料庫進行純文本指令微調(diào)。

多模態(tài)對齊

為了彌合文本和其他模態(tài)之間的表征差距,從而為多模態(tài)理解奠定基礎(chǔ)。僅在視覺對齊階段訓(xùn)練視覺連接器。表 1 總結(jié)了所使用的訓(xùn)練數(shù)據(jù),除了純文本部分。

圖片

視覺模態(tài)

首先是視覺編碼器。研究者使用 InternViT-300M-448px 作為視覺編碼器,它以分辨率 448×448 的圖像作為輸入,并在使用一個作為簡單兩層 MLP 的視覺連接器后生成了 256 個 token。對于高分辨率圖像輸入,研究者利用動態(tài) patching 策略來捕捉局部細(xì)節(jié)。

視頻被視作圖像的特殊用例。如果視頻長度短于 4 秒,則統(tǒng)一每秒采樣 4 幀。如果視頻長度在 4 秒到 16 秒之間,則每秒采樣一幀。對于時長超過 16 秒的視頻,統(tǒng)一采樣 16 幀。

其次是視覺對齊。研究者僅在視覺對齊階段訓(xùn)練視覺連接器,并且在該階段沒有使用音頻問題。

最后是數(shù)據(jù)級聯(lián)。對于純文本數(shù)據(jù)和圖像數(shù)據(jù),該研究旨在將上下文長度級聯(lián)到 6K token,如圖 4 所示。值得注意的是,視頻數(shù)據(jù)不進行級聯(lián)。

圖片

級聯(lián)不同的數(shù)據(jù)有兩個好處:

  • 它支持更長的上下文長度,允許從單個圖像問題交互擴展到多個圖像問題交互,從而產(chǎn)生更靈活的輸入形式,并擴展上下文長度。
  • 它提高了計算效率,因為視頻幀通常包含大量視覺 token。通過級聯(lián)圖像 - 問題對,該研究可以在訓(xùn)練批中保持平衡的 token 數(shù)量,從而提高計算效率。

此外,該研究發(fā)現(xiàn)使用級聯(lián)數(shù)據(jù)訓(xùn)練的模型與使用原始數(shù)據(jù)訓(xùn)練的模型性能相當(dāng)。

音頻模態(tài)

一方面是音頻編碼器。輸入音頻在最開始通過一個 Mel 濾波器組塊進行處理,該塊將音頻信號分解為 mel 頻率范圍內(nèi)的各個頻帶,模仿人類對聲音的非線性感知。隨后,研究者先后利用了一個 4×CNN 的下采樣層和一個 24 層的 transformer,總共 3.41 億參數(shù),用來處理輸入特征。同時他們使用一個簡單的兩層 MLP 作為音頻 - 文本模態(tài)連接器。最后,每 2 秒的音頻輸入被編碼為 25 個 tokens。

另一方面是音頻對齊。對于對齊任務(wù),研究者利用了自動語言識別(ASR)。數(shù)據(jù)集包括 Wenetspeech(擁有超過 1 萬小時的多領(lǐng)域語音識別數(shù)據(jù),主要側(cè)重于中文任務(wù))和 Gigaspeech(擁有 1 萬小時的高質(zhì)量音頻數(shù)據(jù),大部分?jǐn)?shù)據(jù)面向英文語音識別任務(wù))。對于音頻字幕任務(wù),研究者使用了 Wavcaps 的 AudioSet SL 子集,包含了 400k 個具有相應(yīng)音頻字幕的音頻片段。在對齊過程中,音頻編碼器和連接器都經(jīng)過了訓(xùn)練。

多模態(tài)指令微調(diào)

該研究對模型進行了指令調(diào)整,以增強其指令遵循能力,無論是文本還是音頻。

數(shù)據(jù)構(gòu)建。指令調(diào)優(yōu)階段的數(shù)據(jù)源與表 1 中對齊階段的數(shù)據(jù)源相同,但該研究做了以下改進:

問題被隨機(大約一半)替換為其音頻版本(使用 TTS 技術(shù),例如 GPT-SoVITS6),旨在增強模型對音頻查詢的理解及其指令遵循能力。

設(shè)置不同的系統(tǒng) prompt,避免不同類型數(shù)據(jù)之間的沖突,如表 2 所示。例如,有些問題可以根據(jù)視覺信息來回答或者基于模型自己的知識,導(dǎo)致沖突。此外,圖像數(shù)據(jù)已被 patch,類似于多幀視頻數(shù)據(jù),這可能會混淆模型。系統(tǒng) prompt 顯式區(qū)分不同數(shù)據(jù)類型,有助于更直觀地理解。

圖片

為了實現(xiàn)兩種交互功能,即非喚醒交互和音頻中斷交互,該研究提出了復(fù)式部署框架,即同時部署了兩個 VITA 模型,如圖 1 所示。

圖片

在典型情況下,生成模型(Generation model)會回答用戶查詢。同時,監(jiān)控模型(Monitoring model)在生成過程中檢測環(huán)境聲音。它忽略非查詢用戶聲音,但在識別到查詢音頻時停止生成模型的進度。監(jiān)控模型隨后會整合歷史上下文并響應(yīng)最新的用戶查詢,生成模型和監(jiān)控模型的身份發(fā)生了轉(zhuǎn)換。

圖片

實驗評估

語言性能。為了驗證語言模型訓(xùn)練過程的有效性,研究者使用了四個數(shù)據(jù)集,分別是 C-EVAL、AGIEVAL、MMLU 和 GSM8K。這些數(shù)據(jù)集涵蓋了各種場景,包括一般選擇題、多學(xué)科問答題以及數(shù)學(xué)和邏輯推理任務(wù),同時覆蓋了中英文上下文。

下表 3 的結(jié)果表明,本文的訓(xùn)練顯著增強了語言模型在中文評估集(C-EVAL 和 AGIEVAL)上的能力,同時保持了在英文相關(guān)基準(zhǔn)(MMLU)上的原始性能水平,并在數(shù)學(xué)推理任務(wù)(GSM8K)上實現(xiàn)顯著提升。

圖片

音頻性能。為了驗證模型學(xué)得的語音表示的穩(wěn)健性,研究者在 Wenetspeech 和 Librispeech 兩個數(shù)據(jù)集上進行了測試。

其中 Wenetspeech 有兩個評估指標(biāo),分別是 test_net 和 test_meeting,前者數(shù)據(jù)源與訓(xùn)練數(shù)據(jù)更加一致,因而更容易;后者提出了更大的挑戰(zhàn)。作為模型的 held-out 數(shù)據(jù)集,Librispeech 評估了模型在未見過數(shù)據(jù)集上的泛化能力,它有四個評估集,以「dev」開頭的是驗證集,以「test」開頭的是測試集,「Clean」代表挑戰(zhàn)性較低的集,「other」代表挑戰(zhàn)性更高的集。

從下表 4 的結(jié)果可以看到,VITA 在 ASR 基準(zhǔn)測試上取得了非常不錯的結(jié)果。

圖片

多模態(tài)性能。為了評估多模態(tài)能力,該研究在四個基準(zhǔn)上評估了 VITA,包括 MME 、OCRBench、HallusionBench 和 Video-MME。結(jié)果如圖 5 所示。

在圖像理解方面,VITA 優(yōu)于圖像專用開源模型 LLaVA-Next,并且接近閉源模型 Gemini 1.5 Pro。

在視頻理解方面,VITA 超過了視頻開源模型 Video-CCAM。盡管 VITA 和視頻專用的 LLaVA-Next-Video 之間存在差距,但考慮到 VITA 支持更廣泛的模態(tài)并優(yōu)先考慮可交互性,因而這是可以接受的。

最后,值得注意的是,目前開源模型與專有模型在視頻理解能力方面仍存在較大差距。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-03-18 08:02:26

2024-09-24 11:13:14

2025-04-16 09:15:00

AI模型數(shù)據(jù)

2025-04-08 02:26:00

2024-07-04 15:26:56

2025-05-26 09:05:00

2024-05-14 11:29:15

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2024-05-15 09:13:37

GPT-4oAI

2024-10-17 13:30:00

2024-09-23 15:10:00

2024-08-08 14:27:29

2024-05-15 17:34:15

2025-03-31 08:50:00

AI生成模型

2024-07-31 13:20:14

2024-07-08 08:25:00

2024-05-21 12:23:17

2024-06-05 08:29:35

2023-03-28 08:23:38

2024-05-16 12:38:05

GPT-4o圖像方式
點贊
收藏

51CTO技術(shù)棧公眾號