偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<button id="nt5aj"></button>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Stream-Omni：同時(shí)支持各種模態(tài)組合交互的文本-視覺(jué)-語(yǔ)音多模態(tài)大模型

2025-07-07 13:49:38

人工智能新聞

中國(guó)科學(xué)院計(jì)算技術(shù)研究所自然語(yǔ)言處理團(tuán)隊(duì)提出了文本-視覺(jué)-語(yǔ)音多模態(tài)大模型——Stream-Omni，其能同時(shí)支持各種模態(tài)組合下的交互。

GPT-4o式的多模態(tài)大模型（LMMs）展現(xiàn)出在文本、視覺(jué)和語(yǔ)音模態(tài)上的全能能力，其在線(xiàn)語(yǔ)音服務(wù)還能在語(yǔ)音交互過(guò)程中同步提供中間文本結(jié)果（即用戶(hù)輸入和模型響應(yīng)的轉(zhuǎn)錄內(nèi)容），為用戶(hù)提供“邊看邊聽(tīng)”的靈活交互體驗(yàn)。因此，如何構(gòu)建支持文本、視覺(jué)和語(yǔ)音三種模態(tài)的多模態(tài)大模型成為近期研究熱點(diǎn)?，F(xiàn)有的多模態(tài)大模型通常利用多個(gè)編碼器提取各個(gè)模態(tài)的表示，然后將各模態(tài)表示沿序列維度拼接并輸入至大語(yǔ)言模型基座中以生成回復(fù)。這些基于拼接的方法簡(jiǎn)化了模態(tài)集成過(guò)程，但它們?cè)诤艽蟪潭壬弦蕾?lài)大規(guī)模數(shù)據(jù)，以數(shù)據(jù)驅(qū)動(dòng)的方式學(xué)習(xí)模態(tài)對(duì)齊。此外，這種基于拼接的維度對(duì)齊方式缺乏足夠的靈活性，無(wú)法像 GPT-4o 那樣在語(yǔ)音交互過(guò)程中同時(shí)生成中間文本結(jié)果。

為應(yīng)對(duì)這一挑戰(zhàn)，中國(guó)科學(xué)院計(jì)算技術(shù)研究所自然語(yǔ)言處理團(tuán)隊(duì)提出了文本-視覺(jué)-語(yǔ)音多模態(tài)大模型——Stream-Omni，其能同時(shí)支持各種模態(tài)組合下的交互。通過(guò)對(duì)各模態(tài)間的關(guān)系進(jìn)行更有針對(duì)性的建模，Stream-Omni實(shí)現(xiàn)了更加高效和靈活的文本-視覺(jué)-語(yǔ)音模態(tài)對(duì)齊。僅依賴(lài)包含2.3萬(wàn)小時(shí)語(yǔ)音的多模態(tài)數(shù)據(jù)，Stream-Omni即可具備文本交互、語(yǔ)音交互、基于視覺(jué)的語(yǔ)音交互等各種模態(tài)上的交互能力。與此同時(shí)，依賴(lài)于創(chuàng)新的語(yǔ)音建模方式，Stream-Omni能在語(yǔ)音交互過(guò)程中像GPT-4o一樣同步輸出中間文本轉(zhuǎn)錄結(jié)果，為用戶(hù)提供全方位的多模態(tài)交互體驗(yàn)。

論文題目：Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model
論文鏈接：https://arxiv.org/abs/2506.13642
開(kāi)源代碼：https://github.com/ictnlp/Stream-Omni
模型下載：https://huggingface.co/ICTNLP/stream-omni-8b

Stream-Omni的模態(tài)對(duì)齊

現(xiàn)有多模態(tài)大模型中的模態(tài)對(duì)齊（如左圖所示）：在序列維度上將三種模態(tài)的表示進(jìn)行拼接，輸入至大語(yǔ)言模型基座

為了減輕對(duì)大規(guī)模三模態(tài)數(shù)據(jù)的依賴(lài)，Stream-Omni更有針對(duì)性地建模各模態(tài)之間的關(guān)系，即語(yǔ)音與文本應(yīng)在語(yǔ)義上高度一致，而視覺(jué)則在語(yǔ)義上對(duì)文本形成互補(bǔ)關(guān)系。因此，Stream-Omni對(duì)不同模態(tài)采用不同對(duì)齊方式（如右圖所示）：

視覺(jué)-文本對(duì)齊：序列維度的視覺(jué)文本拼接
語(yǔ)音-文本對(duì)齊：層級(jí)維度的語(yǔ)音文本映射

實(shí)現(xiàn)上，Stream-Omni 以大語(yǔ)言模型（LLM）為核心，并在其底部和頂部引入語(yǔ)音層，通過(guò)連接時(shí)序分類(lèi)（Connectionist Temporal Classification，CTC）建模語(yǔ)音到文本的映射，此建模方式的優(yōu)勢(shì)在于：

支持通過(guò)語(yǔ)音模態(tài)進(jìn)行外部交互，同時(shí)利用文本模態(tài)在內(nèi)部控制生成的內(nèi)容；
基于CTC的語(yǔ)音-文本映射為語(yǔ)音文本在表示和結(jié)構(gòu)的對(duì)齊上提供更加直接的監(jiān)督，因此Stream-Omni 能夠在僅使用少量語(yǔ)音數(shù)據(jù)的情況下，將 LLM 主干的文本能力遷移至語(yǔ)音模態(tài)。
層級(jí)維度映射使得Stream-Omni 在語(yǔ)音交互過(guò)程中還能同步輸出中間文本結(jié)果（即指令和回復(fù)的轉(zhuǎn)錄文本），為用戶(hù)提供更全面的多模態(tài)體驗(yàn)。

Stream-Omni

Stream-Omni以大語(yǔ)言模型作為主干，逐步將視覺(jué)和語(yǔ)音與文本對(duì)齊，高效地構(gòu)建了一個(gè)支持文本、視覺(jué)和語(yǔ)音的多模態(tài)大模型。在視覺(jué)-文本對(duì)齊方面，Stream-Omni采用視覺(jué)編碼器和投影模塊提取視覺(jué)表示，并將其與文本表示進(jìn)行拼接。在語(yǔ)音-文本對(duì)齊方面，Stream-Omni在 LLM 主干的底部和頂部分別引入若干語(yǔ)音層，用于將語(yǔ)音映射到文本以及基于文本生成語(yǔ)音。

視覺(jué)模態(tài)

基于視覺(jué)模態(tài)與文本模態(tài)之間具有語(yǔ)義互補(bǔ)性，Stream-Omni 采用LLaVA架構(gòu)中的序列維度拼接的方式進(jìn)行視覺(jué)-文本對(duì)齊。

語(yǔ)音模態(tài)

（1）語(yǔ)音離散化：Stream-Omni采用CosyVoice Tokenizer對(duì)語(yǔ)音輸入進(jìn)行離散化，編碼為若干離散的語(yǔ)音單元（<Audio_72>< Audio_965>…）。

（2）語(yǔ)音到文本映射：為了充分利用LLM的能力，Stream-Omni在LLM的底部引入語(yǔ)音層，用于學(xué)習(xí)語(yǔ)音與文本之間的映射關(guān)系，從而將 LLM 中的文本能力遷移到語(yǔ)音模態(tài)中。Stream-Omni利用在ASR任務(wù)上的CTC損失直接監(jiān)督底部語(yǔ)音層語(yǔ)音表示，將其與文本模態(tài)對(duì)齊。

（3）文本生成：LLM基于輸入的視覺(jué)表示和語(yǔ)音表示，生成文本回復(fù)。

（4）文本到語(yǔ)音生成：Stream-Omni通過(guò)頂部語(yǔ)音層來(lái)完成文本到語(yǔ)音生成。為了在生成文本的同時(shí)生成語(yǔ)音單元，Stream-Omni在頂部語(yǔ)音層中引入了alignment-based fusion模塊。Alignment-based fusion沿用了StreamSpeech等實(shí)時(shí)生成研究中的同步生成策略，利用CTC對(duì)齊來(lái)指導(dǎo)同步生成過(guò)程。

任意模態(tài)組合下的多模態(tài)交互

Stream-Omni能夠通過(guò)靈活組合視覺(jué)編碼器、底部語(yǔ)音層、LLM、頂部語(yǔ)音層來(lái)實(shí)現(xiàn)任意模態(tài)組合下的交互。同時(shí)，由于層級(jí)維度語(yǔ)音文本映射，Stream-Omni能夠在語(yǔ)音到語(yǔ)音生成過(guò)程中提供中間的文本結(jié)果。

實(shí)驗(yàn)結(jié)果

視覺(jué)理解能力

Stream-Omni和相同規(guī)模和數(shù)據(jù)量級(jí)的視覺(jué)大模型取得相當(dāng)?shù)谋憩F(xiàn)。

語(yǔ)音交互能力

在事實(shí)性的語(yǔ)音交互上，Stream-Omni相比于現(xiàn)有方法具有優(yōu)勢(shì)，源于層級(jí)維度的語(yǔ)音文本映射將LLM的文本能力遷移到語(yǔ)音模態(tài)上。

基于視覺(jué)的語(yǔ)音交互能力

在本實(shí)例中，在指令分別通過(guò)文本和語(yǔ)音輸入的情況下，VITA-1.5 給出了兩個(gè)相互矛盾的回答：“不允許前往二樓”和“直接通往二樓”。這一在面對(duì)不同模態(tài)指令時(shí)產(chǎn)生的矛盾回應(yīng)，源于沿序列維度拼接視覺(jué)、語(yǔ)音和文本表示來(lái)實(shí)現(xiàn)多模態(tài)對(duì)齊的方法，并未對(duì)語(yǔ)音與文本模態(tài)之間的語(yǔ)義進(jìn)行嚴(yán)格對(duì)齊建模。相比之下，Stream-Omni 引入語(yǔ)音到文本的映射機(jī)制，實(shí)現(xiàn)了語(yǔ)音與文本表示之間更精確的語(yǔ)義對(duì)齊。因此，Stream-Omni 在不同模態(tài)下表現(xiàn)更加一致，無(wú)論指令是通過(guò)文本還是語(yǔ)音輸入，都能生成相似的響應(yīng)。另外，Stream-Omni還能生成高質(zhì)量的語(yǔ)音回復(fù)，更多實(shí)例請(qǐng)?jiān)趆ttps://github.com/ictnlp/Stream-Omni體驗(yàn)。

總結(jié)

Stream-Omni是一個(gè)GPT-4o式的文本-視覺(jué)-語(yǔ)音多模態(tài)大模型，能夠支持多種模態(tài)組合下的多模態(tài)交互。
Stream-Omni能夠在語(yǔ)音交互過(guò)程中輸出中間文本結(jié)果，為用戶(hù)提供更全面的多模態(tài)交互體驗(yàn)。
Stream-Omni關(guān)注如何構(gòu)建模態(tài)對(duì)齊，語(yǔ)音表現(xiàn)力等方面的增強(qiáng)不是本研究的重點(diǎn)，因此其在擬人化、音色多樣性等方面存在局限性。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

模型 AI 視覺(jué)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<nobr id="cubkp"><strong id="cubkp"><wbr id="cubkp"></wbr></strong></nobr>

<samp id="cubkp"></samp>

<var id="cubkp"></var>

<style id="cubkp"><source id="cubkp"><pre id="cubkp"></pre></source></style>