偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

HumanSense:探索多模態(tài)推理邊界,打造「察言觀色會(huì)共情」的全模態(tài)交互伙伴

人工智能 新聞
螞蟻集團(tuán)與西安交通大學(xué)聯(lián)合提出并開源了 HumanSense,包含一個(gè)專為「理解與交互」設(shè)計(jì)的全模態(tài)評(píng)估基準(zhǔn) HumanSense Benchmark,以及一個(gè)支持視聽(tīng)融合思考的全模態(tài)推理模型?HumanSense OmniReasoning。

本文作者來(lái)自螞蟻集團(tuán)的多模態(tài)認(rèn)知團(tuán)隊(duì)和西安交通大學(xué)的人機(jī)混合增強(qiáng)智能全國(guó)重點(diǎn)實(shí)驗(yàn)室。團(tuán)隊(duì)持續(xù)圍繞多模態(tài)大模型、內(nèi)容生成和全模態(tài)交互等前沿方向進(jìn)行研究,致力于構(gòu)建領(lǐng)先的大模型基礎(chǔ)能力和創(chuàng)新的交互應(yīng)用體驗(yàn)。

在科幻作品描繪的未來(lái),人工智能不僅僅是完成任務(wù)的工具,更是為人類提供情感陪伴與生活支持的伙伴。在實(shí)現(xiàn)這一愿景的探索中,多模態(tài)大模型已展現(xiàn)出一定潛力,可以接受視覺(jué)、語(yǔ)音等多模態(tài)的信息輸入,結(jié)合上下文做出反饋。

然而,真正融洽的溝通,需要 AI 可以像人類一樣從外貌、聲音乃至表情動(dòng)作中感知對(duì)方的個(gè)人特點(diǎn)和情緒狀態(tài),理解深層訴求,進(jìn)而做出恰當(dāng)回應(yīng)。

現(xiàn)有工作對(duì)這類以人為中心場(chǎng)景的深入研究還較少見(jiàn),既缺乏細(xì)粒度的評(píng)估,也限制了相關(guān)能力的優(yōu)化。這導(dǎo)致在許多交互應(yīng)用中「AI 感」依然常見(jiàn),AI 助手們聽(tīng)得懂語(yǔ)音卻讀不懂情緒,能回答問(wèn)題卻不理解用戶的訴求,縱有一身本領(lǐng)卻無(wú)法完整表達(dá)。

為了填補(bǔ)這一空白,螞蟻集團(tuán)與西安交通大學(xué)聯(lián)合提出并開源了 HumanSense,包含一個(gè)專為「理解與交互」設(shè)計(jì)的全模態(tài)評(píng)估基準(zhǔn) HumanSense Benchmark,以及一個(gè)支持視聽(tīng)融合思考的全模態(tài)推理模型 HumanSense OmniReasoning,論文主要包括:

  • 細(xì)粒度評(píng)測(cè):對(duì)人類交互過(guò)程進(jìn)行深度拆解,從基礎(chǔ)感知、復(fù)雜感知、上下文理解、反饋策略四層能力階梯構(gòu)建了 15 項(xiàng)難度遞增的評(píng)估任務(wù),共計(jì) 3882 個(gè)源于真實(shí)數(shù)據(jù)的問(wèn)答對(duì)。其中交互數(shù)據(jù)覆蓋了面對(duì)面交流、文字聊天以及電話訪談等多模態(tài)場(chǎng)景,系統(tǒng)地衡量了大模型從「看見(jiàn)聽(tīng)見(jiàn)」到「理解思考」,再到「恰當(dāng)回應(yīng)」的綜合能力。
  • 全模態(tài)消融:在能力評(píng)估上,綜合對(duì)比了前沿的視覺(jué)、語(yǔ)音及全模態(tài)大模型,發(fā)現(xiàn)即使 GPT-4o 等頂尖模型在 HumanSense 上仍與人類表現(xiàn)有近 30% 的差距,能綜合感知視聽(tīng)信息的全模態(tài)模型在高階任務(wù)上有明顯優(yōu)勢(shì)。全模態(tài)消融實(shí)驗(yàn)進(jìn)一步明確了音、視、文信息在各項(xiàng)任務(wù)中的貢獻(xiàn)度。在社會(huì)關(guān)系、交流和諧度等任務(wù)上,增加音頻輸入帶來(lái)了遠(yuǎn)超純視覺(jué)輸出的表現(xiàn)。證明了語(yǔ)音是交互中不可或缺的信息維度。
  • 全面思考:在優(yōu)化策略上,作者提出了融合全模態(tài)感知的思考能力是提升交互表現(xiàn)的關(guān)鍵,并設(shè)計(jì)了多階段模態(tài)、模態(tài)遞進(jìn)的強(qiáng)化訓(xùn)練方式,可以讓模型不僅局限于圖文推理,在語(yǔ)音、視頻輸入上均有效激發(fā)深度思考能力。全模態(tài)推理模型處理高階問(wèn)題時(shí)展現(xiàn)出結(jié)構(gòu)化的思維方式,證實(shí)了推理拓展并非數(shù)理任務(wù)的專屬,也是交互體驗(yàn)的助推劑。

目前,該項(xiàng)目以及相關(guān)配套工作已在 GitHub 和 HuggingFace 開源,希望能吸引社區(qū)更多關(guān)注多模態(tài)大模型在以人為中心的交互場(chǎng)景的潛力,推動(dòng) AI 交互體驗(yàn)的革新。

  • 論文標(biāo)題:HumanSense: From Multimodal Perception to Empathetic Context-Aware Responses through Reasoning MLLMs
  • 項(xiàng)目地址:https://github.com/antgroup/HumanSense
  • 論文地址:https://arxiv.org/abs/2508.10576
  • 配套工作:https://digital-avatar.github.io/

圖 1:全模態(tài)推理模型可以在音視文輸入上均有效激發(fā)推理能力,感知對(duì)方的特點(diǎn)和情緒,結(jié)合上下文深度思考,從而做出恰當(dāng)反饋

核心亮點(diǎn)

「從感知到反饋」:構(gòu)建 4 層認(rèn)知階梯,模擬人類交互中的思維演進(jìn)

多模態(tài)大模型能力的進(jìn)化是隨著評(píng)估范圍的擴(kuò)增循環(huán)演進(jìn)的,從早期的圖文理解、視頻理解等基準(zhǔn)全面提升了模型的感知能力,到后來(lái)復(fù)雜推理、幻覺(jué)控制等基準(zhǔn)的加入讓模型思考深度提升,能力邊界擴(kuò)大。

然而,在全模態(tài)交互這個(gè)能充分發(fā)揮多模態(tài)大模型特性的重要場(chǎng)景,相關(guān)的研究還比較少見(jiàn)。已有的工作多聚焦在以文本為主的交互體驗(yàn)提升,和以復(fù)雜圖文理解為目的推理增強(qiáng),缺乏結(jié)合全模態(tài)感知、推理增強(qiáng)、以及交互優(yōu)化的綜合思考。

因此,作者提出了 HumanSense,模擬了人類交互中的思維演進(jìn)過(guò)程,設(shè)計(jì)了對(duì)應(yīng)的任務(wù)體系,包含:

  • L1 & L2(感知層):和諧的交互來(lái)自對(duì)視覺(jué)、語(yǔ)音等信息的細(xì)粒度的感知。L1 層的任務(wù)重點(diǎn)關(guān)注這些單模態(tài)、表層信息的感知,例如人物外貌、表情識(shí)別、手勢(shì)理解等。在 L2 層級(jí),任務(wù)則升級(jí)為多模態(tài)、長(zhǎng)時(shí)程的復(fù)雜感知,例如需要結(jié)合聲音、動(dòng)作以及長(zhǎng)上下文信息綜合判斷的異常行為識(shí)別,以及需要結(jié)合音視頻綜合判斷的說(shuō)話人識(shí)別等。
  • L3(理解層):基于模型感知到的多模態(tài)信息,L3 層評(píng)估模型能否理解交互內(nèi)容背后的深層信息。包括需要從語(yǔ)氣、神情、談話內(nèi)容綜合判斷的社會(huì)關(guān)系識(shí)別,需要結(jié)合微表情、語(yǔ)音停頓、肢體動(dòng)作推測(cè)的謊言檢測(cè)等。該層級(jí)要求模型能融合不同模態(tài)感知進(jìn)行思考,理解需要進(jìn)一步推斷的深層關(guān)系。
  • L4(反饋層):最為整個(gè)交互鏈條的最后一環(huán),L4 層評(píng)估了模型是否可以在復(fù)雜的交互場(chǎng)景中生成恰當(dāng)、共情的回復(fù)。數(shù)據(jù)源自面對(duì)面訪談、在線文字聊天、語(yǔ)音訪談等不同模態(tài)的真實(shí)記錄。例如,在心理咨詢?nèi)蝿?wù)中,模型需要扮演心理醫(yī)生,根據(jù)多輪心理咨詢上下文,充分了解對(duì)方的情緒和處境,選擇專業(yè)性且溫暖的回復(fù)語(yǔ)言。在情感策略任務(wù)中,模型需要結(jié)合語(yǔ)音和視頻充分感知交互對(duì)象的情緒狀態(tài),進(jìn)而根據(jù)交談內(nèi)容選擇合適的情感反饋。

圖 2:HumanSense 的任務(wù)示例,通過(guò)層次遞進(jìn)的任務(wù)設(shè)計(jì)和模態(tài)細(xì)分的評(píng)估任務(wù)考查了從感知到交互的多個(gè)能力維度

「三位一體」:音頻是情感理解的密鑰,「視覺(jué) + 聽(tīng)覺(jué) + 文本」相輔相成

作者對(duì)包括 GPT-4o、InternVL3、Qwen2.5-Omni 在內(nèi)的先進(jìn)的視覺(jué)、語(yǔ)音及全模態(tài)大模型進(jìn)行了評(píng)測(cè)。人類受試者在 HumanSense 子集上取得了 87.5% 的平均準(zhǔn)確率,而表現(xiàn)最好的 Qwen2.5-Omni-7B 為 57.8%,詳見(jiàn)表 1 和圖 3。

領(lǐng)先的視覺(jué)模型(InternVL3 等)在 L2 和部分 L3 任務(wù)中表現(xiàn)不錯(cuò),說(shuō)明較強(qiáng)的長(zhǎng)視頻記憶和理解能力對(duì)感知維度幫助較大。在 L3-L4 的高階任務(wù)中,所有視覺(jué)模型都在 40-60 之間,說(shuō)明復(fù)雜任務(wù)中純視覺(jué)信息已難以提供足夠的判斷依據(jù)。

全模態(tài)模型得益于增加了音頻的輸入,在 L3、L4 兩類高階任務(wù)中的表現(xiàn)明顯優(yōu)于純視覺(jué)模型。特別是在謊言檢測(cè)(LD)等任務(wù)甚至超越了人類水平,更敏銳的發(fā)現(xiàn)了真相。對(duì)于語(yǔ)音理解和交互場(chǎng)景,電詐識(shí)別(FR2)、心理咨詢(PC)任務(wù)上全模態(tài)模型(Qwen2.5-Omni)指標(biāo)優(yōu)于語(yǔ)音大模型(Qwen2-audio),體現(xiàn)了模態(tài)之間的相互促進(jìn)作用。

表 1:支持視覺(jué)、音頻和文本輸入的全模態(tài)模型在高階理解和交互任務(wù)上有明顯優(yōu)勢(shì)。

全模態(tài)消融實(shí)驗(yàn)進(jìn)一步明確了音視文三種模態(tài)在各類任務(wù)中的作用。如圖 4,在社會(huì)關(guān)系(RR)、對(duì)話和諧度(RR)、親密度(FR)等視頻級(jí)交互任務(wù)上,為模型增加音頻輸入(V+A)能帶來(lái)遠(yuǎn)超純視覺(jué)(V)的表現(xiàn)。這證明了人際交互中語(yǔ)音所包含的對(duì)話內(nèi)容、語(yǔ)氣語(yǔ)調(diào)是不可或缺的重要信息。在欺詐檢測(cè)(FR) 和心理問(wèn)答(PC)兩個(gè)音頻交互任務(wù)上,增加文本輸入(A+T)也因提供了更豐富的上下文信息而提升模型的表現(xiàn)。

圖 3:主流全模態(tài)模型和視覺(jué)語(yǔ)言模型與人類評(píng)估的對(duì)比

圖 4:全模態(tài)模型和語(yǔ)音大模型在全模態(tài)消融上的表現(xiàn)

推理是通往「理解和共情」的橋梁:從全模態(tài)感知到深度思考

基于模型評(píng)估和全模態(tài)消融,作者進(jìn)一步提出了融合全模態(tài)感知的思考能力是提升交互表現(xiàn)的有效方法,并驗(yàn)證通過(guò)兩種方式進(jìn)行驗(yàn)證。

  • 全模態(tài)強(qiáng)化訓(xùn)練:作者提出一種多階段、模態(tài)漸進(jìn)的強(qiáng)化學(xué)習(xí)方式,使用 GRPO 算法對(duì) Qwen2.5-Omni 模型進(jìn)行推理后訓(xùn)練,教會(huì) AI 結(jié)合不同模態(tài)的感知線索「一步步想清楚」。
  • 視覺(jué)先行,學(xué)會(huì)「看人」:輸入純視頻幀與問(wèn)答對(duì),建立基于視覺(jué)感知的推理能力,學(xué)會(huì)對(duì)面部特征、肢體語(yǔ)言等判斷能力關(guān)鍵個(gè)人特點(diǎn)。
  • 語(yǔ)音增強(qiáng),學(xué)會(huì)「聽(tīng)語(yǔ)氣」:輸入音頻片段與問(wèn)答對(duì),建立基于聽(tīng)覺(jué)感知的推理能力,學(xué)會(huì)捕捉語(yǔ)音中的情感信號(hào)。
  • 邊聽(tīng)邊看,綜合判斷:輸入完整的音視頻上下文,讓模型學(xué)會(huì)融合多模態(tài)感知進(jìn)行思考和回答。
  • 免訓(xùn)練提示詞:作者發(fā)現(xiàn)在高階理解和交互任務(wù)上,通過(guò)全模態(tài)強(qiáng)化訓(xùn)練激發(fā)的成功推理內(nèi)容展現(xiàn)出了相似的思維模式,遵循「感知關(guān)鍵特征和情緒 - 理解上下文 - 思考與回應(yīng)」的鏈條。我們利用這種思維模式構(gòu)建了簡(jiǎn)單的提示詞,發(fā)現(xiàn)也可以有效提升評(píng)估指標(biāo),證明了推理拓展在交互場(chǎng)景的有效性。

圖 5:全模態(tài)推理模型在解決深層理解和交互任務(wù)時(shí)可以感知對(duì)方的個(gè)人特征、情緒狀態(tài),結(jié)合上下文進(jìn)行深度思考,進(jìn)而做出恰當(dāng)反饋

表 2:完整三階段強(qiáng)化訓(xùn)練后大多數(shù)任務(wù)都獲得了最佳表現(xiàn)

兩種方法的指標(biāo)如表 2 所示。對(duì)于全模態(tài)強(qiáng)化訓(xùn)練,第一階段的視覺(jué)推理訓(xùn)練對(duì)以視覺(jué)感知為主的 L1 類任務(wù)已產(chǎn)生明顯效果。心理咨詢(PC)、電詐識(shí)別(FR2)等語(yǔ)音任務(wù)經(jīng)過(guò)第二階段語(yǔ)音推理訓(xùn)練也獲得了明顯提升。完整三階段強(qiáng)化訓(xùn)練后大多數(shù)任務(wù)都獲得了最佳表現(xiàn)。PE 代表在 base 模型上僅使用提示詞模版推理的評(píng)估結(jié)果,在熟悉度(FR1)、欺詐識(shí)別(FR2)、關(guān)系識(shí)別(RR1)等任務(wù)上也帶來(lái)了有效提升。

從「工具」到「伙伴」

HumanSense 旨在挖掘多模態(tài)大模型的潛力,探索交互應(yīng)用的邊界。全模態(tài)推理模型有潛力真正扮演人工智能的「大腦」的角色,與豐富的下游能力相結(jié)合,打造會(huì)「察言觀色能共情」的全模態(tài)交互伙伴。

具體來(lái)說(shuō),全模態(tài)推理模型在交互應(yīng)用中可以不只局限于直接輸出文本回復(fù),而是統(tǒng)一規(guī)劃并輸出包含主題、情感策略、表情與肢體動(dòng)作等相互關(guān)聯(lián)的結(jié)構(gòu)化內(nèi)容。例如如下結(jié)構(gòu):

其中「主題」和「情感策略」會(huì)在推理過(guò)程中增強(qiáng)「文本回復(fù)」等細(xì)節(jié)表達(dá)的準(zhǔn)確性,語(yǔ)音、表情、動(dòng)作等策略可以作為控制信號(hào)輸入下游能力模塊,提供可聽(tīng)可見(jiàn)的真實(shí)交互體驗(yàn)。螞蟻集團(tuán)的研究團(tuán)隊(duì)近期陸續(xù)發(fā)布了一系列配套的生成工作,可以實(shí)現(xiàn)對(duì)下游數(shù)字形象、語(yǔ)音的生成內(nèi)容的精細(xì)控制,為有情感有表現(xiàn)的全模態(tài)交互打下基礎(chǔ)。

例如,近期已開源的 Ditto-talkinghead 項(xiàng)目(圖 6)通過(guò)在擴(kuò)散模型的生成過(guò)程中解耦了面部運(yùn)動(dòng)和圖像渲染,實(shí)現(xiàn)了基于單張圖像的可控說(shuō)話人生成。該項(xiàng)目是首個(gè)支持實(shí)時(shí)視頻生成的開源實(shí)現(xiàn),為低延遲實(shí)時(shí)交互應(yīng)用的提供了底層能力支持,也吸引了很多社區(qū)討論。VersaAnimator 項(xiàng)目(圖 7)實(shí)現(xiàn)了在語(yǔ)音驅(qū)動(dòng)說(shuō)話人生成同時(shí),通過(guò)文本描述來(lái)控制視頻中人物的肢體動(dòng)作,讓數(shù)字形象不僅能展現(xiàn)表情變化,還可能通過(guò)肢體動(dòng)作進(jìn)一步表達(dá)語(yǔ)義和傳遞情感。這些配套項(xiàng)目有潛力推動(dòng)大模型交互應(yīng)用從單一的任務(wù)工具逐步進(jìn)化為有溫度的生活同伴,為用戶提供有價(jià)值的情感支撐和生活支持。

圖 6:Ditto-talkinghead-表情可控的說(shuō)話頭像實(shí)時(shí)生成

  • 項(xiàng)目地址:https://digital-avatar.github.io/ai/Ditto/

圖 7:VersaAnimator-支持文本動(dòng)作編輯的多尺度說(shuō)話人視頻生成

  • 項(xiàng)目地址:https://digital-avatar.github.io/ai/VersaAnimator/
責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-05-21 07:54:30

視頻多模態(tài)語(yǔ)義檢索算法

2025-07-09 08:55:39

2025-06-10 03:30:00

2010-06-01 15:36:37

2025-01-08 08:21:16

2025-06-27 08:40:00

模型推理AI

2025-05-21 08:47:00

2021-11-03 10:04:24

汽車智能技術(shù)

2025-07-07 13:49:38

模型AI視覺(jué)

2022-05-27 18:04:49

技術(shù)淘寶

2024-11-07 13:19:03

2024-05-10 06:59:06

2010-07-29 16:16:52

計(jì)算機(jī)

2024-08-08 13:04:28

2018-08-16 13:46:15

人工智能AI情緒識(shí)別

2025-03-13 09:47:29

2024-12-26 01:20:53

多模態(tài)大模型圖片

2023-05-28 23:26:16

多模態(tài)機(jī)器學(xué)習(xí)大腦
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)