偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

低質(zhì)多模態(tài)數(shù)據(jù)融合,多家機(jī)構(gòu)聯(lián)合出了篇綜述論文

發(fā)布于 2024-5-8 10:07
瀏覽
0收藏

多模態(tài)融合是多模態(tài)智能中的基礎(chǔ)任務(wù)之一。


多模態(tài)融合的動機(jī)在于聯(lián)合利用來自不同模態(tài)的有效信息提升下游任務(wù)的準(zhǔn)確性和穩(wěn)定性。傳統(tǒng)的多模態(tài)融合方法往往依賴高質(zhì)量數(shù)據(jù),難以適應(yīng)現(xiàn)實應(yīng)用中的復(fù)雜低質(zhì)的多模態(tài)數(shù)據(jù)。


由天津大學(xué)、中國人民大學(xué)、新加坡科技研究局、四川大學(xué)、西安電子科技大學(xué)以及哈爾濱工業(yè)大學(xué)(深圳)共同發(fā)布的低質(zhì)多模態(tài)數(shù)據(jù)融合綜述《Multimodal Fusion on Low-quality Data:A Comprehensive Survey》從統(tǒng)一視角介紹了多模態(tài)數(shù)據(jù)的融合挑戰(zhàn),并針對低質(zhì)多模態(tài)數(shù)據(jù)的現(xiàn)有融合方式及該領(lǐng)域潛在的發(fā)展方向進(jìn)行了梳理。


低質(zhì)多模態(tài)數(shù)據(jù)融合,多家機(jī)構(gòu)聯(lián)合出了篇綜述論文-AI.x社區(qū)


arXiv鏈接:

??http://arxiv.org/abs/2404.18947??

awesome-list鏈接:

??https://github.com/QingyangZhang/awesome-low-quality-multimodal-learning??


傳統(tǒng)多模態(tài)融合模型


人類通過融合多個模態(tài)的信息對世界進(jìn)行感知。


即使某些模態(tài)的信號不可靠時,人類也具備處理這些低質(zhì)量多模態(tài)數(shù)據(jù)信號并感知環(huán)境的能力。


盡管多模態(tài)學(xué)習(xí)已取得了長足的發(fā)展,多模態(tài)機(jī)器學(xué)習(xí)模型仍缺乏有效融合真實世界中低質(zhì)量多模態(tài)數(shù)據(jù)的能力。實踐經(jīng)驗中,傳統(tǒng)多模態(tài)融合模型的性能在以下場景下會存在顯著下降:


(1)噪聲多模態(tài)數(shù)據(jù):部分模態(tài)的某些特征受噪聲擾動而丟失了原有的信息。真實世界中,未知的環(huán)境因素、傳感器故障、信號在傳輸過程中的丟失都可能引入噪聲的干擾,進(jìn)而損害多模態(tài)融合模型的可靠性。


(2)缺失多模態(tài)數(shù)據(jù):由于各種現(xiàn)實因素,實際收集到的多模態(tài)數(shù)據(jù)樣本的某些模態(tài)可能存在缺失。例如在醫(yī)學(xué)領(lǐng)域,病人的各項生理檢查結(jié)果所構(gòu)成的多模態(tài)數(shù)據(jù)可能存在嚴(yán)重的缺失現(xiàn)象,某些病人可能從未做過某一項檢查。


(3)不平衡多模態(tài)數(shù)據(jù):由于模態(tài)之間的異質(zhì)編碼屬性和信息質(zhì)量差異存在不一致的現(xiàn)象,進(jìn)而導(dǎo)致模態(tài)間學(xué)習(xí)不平衡問題的出現(xiàn)。多模態(tài)融合過程中,模型可能過度依賴某些模態(tài),而忽視其他模態(tài)所包含的潛在有效信息。


(4)動態(tài)低質(zhì)的多模態(tài)數(shù)據(jù):由于應(yīng)用環(huán)境的復(fù)雜多變,不同樣本、不同時空,模態(tài)質(zhì)量具有動態(tài)變化特性。低質(zhì)模態(tài)數(shù)據(jù)的出現(xiàn)往往難以提前預(yù)知,這為多模態(tài)融合帶來了挑戰(zhàn)。


為了充分刻畫低質(zhì)量多模態(tài)數(shù)據(jù)的性質(zhì)及處理方法,該文章對目前的低質(zhì)量多模態(tài)融合領(lǐng)域的機(jī)器學(xué)習(xí)方法進(jìn)行了總結(jié),系統(tǒng)回顧了該領(lǐng)域的發(fā)展過程,并進(jìn)一步展望了需進(jìn)一步研究的問題。 


低質(zhì)多模態(tài)數(shù)據(jù)融合,多家機(jī)構(gòu)聯(lián)合出了篇綜述論文-AI.x社區(qū)


圖1. 低質(zhì)量多模態(tài)數(shù)據(jù)分類示意圖,黃色和藍(lán)色代表兩個模態(tài),顏色越深代表質(zhì)量越高


多模態(tài)融合中的去噪方法


問題定義:


噪聲是導(dǎo)致多模態(tài)數(shù)據(jù)質(zhì)量下降的最常見原因之一。


本文主要關(guān)注兩類噪聲:


(1)模態(tài)相關(guān)的多模態(tài)噪聲。這類噪聲可能是由于傳感器誤差(如醫(yī)療診斷中的儀器誤差)、環(huán)境因素(如自動駕駛中的雨霧天氣)等因素導(dǎo)致,噪聲局限于某個特定的模態(tài)內(nèi)部的某些特征層面上。


(2)語義級別的跨模態(tài)噪聲。這類噪聲是由模態(tài)之間高層語義的不對齊現(xiàn)象導(dǎo)致,相比于特征層的多模態(tài)噪聲更難以處理。幸運(yùn)的是,由于多模態(tài)數(shù)據(jù)模態(tài)之間的互補(bǔ)性和信息的冗余性,在多模態(tài)融合過程中,聯(lián)合多個模態(tài)的信息進(jìn)行去噪已被證明是行之有效的策略。


方法分類:


特征級別的多模態(tài)去噪方法高度依賴于實際任務(wù)中所涉及到的具體模態(tài)。


本文主要以多模態(tài)圖像融合任務(wù)為例進(jìn)行說明。在多模態(tài)圖像融合中,主流的去噪方法包括加權(quán)融合及聯(lián)合變分兩大類。


加權(quán)融合方法考慮到特征噪聲具有隨機(jī)性而真實數(shù)據(jù)服從特定分布,進(jìn)而通過加權(quán)求和的方式消除噪聲的影響;


聯(lián)合變分方法則是對傳統(tǒng)單模態(tài)圖像變分去噪的拓展,能夠?qū)⑷ピ脒^程轉(zhuǎn)化為優(yōu)化問題的求解過程,并利用來自多個模態(tài)的互補(bǔ)性信息來提升去噪效果。語義級別的跨模態(tài)噪聲由弱對齊或不對齊的多模態(tài)樣本對導(dǎo)致。


例如,在聯(lián)合RGB和熱感圖像的多模態(tài)目標(biāo)檢測任務(wù)中,由于傳感器的差異,盡管同一個目標(biāo)在兩個模態(tài)中都有出現(xiàn),但是其精準(zhǔn)的位置和姿態(tài)在不同的模態(tài)中可能略有不同(弱對齊),為精準(zhǔn)估計位置信息帶來了挑戰(zhàn)。


在社交媒體的內(nèi)容理解任務(wù)中,一個樣本(例如一條微博)的圖像和文本模態(tài)所包含的語義信息可能相差甚遠(yuǎn),甚至毫不相干(完全不對齊),這進(jìn)一步為多模態(tài)融合帶來更大的挑戰(zhàn)。處理跨模態(tài)語義噪聲的方式包括規(guī)則過濾、模型過濾、噪聲魯棒的模型正則化等方法。


未來展望:


盡管對數(shù)據(jù)噪聲的處理早已在經(jīng)典機(jī)器學(xué)習(xí)任務(wù)中得到了廣泛的研究,但在多模態(tài)場景下,如何聯(lián)合利用模態(tài)之間的互補(bǔ)性和一致性以弱化噪聲的影響依然是一個亟待解決的研究問題。


此外,與傳統(tǒng)的特征級別的去噪不同,如何在多模態(tài)大模型的預(yù)訓(xùn)練和推斷過程中解決語義級別的噪聲是有趣且極富挑戰(zhàn)性的問題。



低質(zhì)多模態(tài)數(shù)據(jù)融合,多家機(jī)構(gòu)聯(lián)合出了篇綜述論文-AI.x社區(qū)

表1. 針對噪聲的多模態(tài)融合方法分類


缺失多模態(tài)數(shù)據(jù)融合方法


問題定義:


真實場景下所收集的多模態(tài)數(shù)據(jù)往往是不完整的,由于存儲設(shè)備損壞、數(shù)據(jù)傳輸過程的不可靠等各種因素,多模態(tài)數(shù)據(jù)時常不可避免的丟失掉部分模態(tài)的信息。


例如:在推薦系統(tǒng)中,用戶的瀏覽記錄和信用等級等構(gòu)成了多模態(tài)的數(shù)據(jù),然而,由于權(quán)限和隱私問題,往往無法完全收集到用戶所有模態(tài)的信息來構(gòu)建多模態(tài)學(xué)習(xí)系統(tǒng)。


在醫(yī)療診斷中,由于某些醫(yī)院的設(shè)備有限、特定的檢查成本較高,不同的病人的多模態(tài)診斷數(shù)據(jù)往往也是高度不完整的。


方法分類:


按照「是否需要顯式的對缺失多模態(tài)數(shù)據(jù)進(jìn)行補(bǔ)全」的分類原則,缺失多模態(tài)數(shù)據(jù)融合方法可分為:


(1)基于補(bǔ)全的多模態(tài)融合方法


基于補(bǔ)全的多模態(tài)融合方法包括模型無關(guān)的補(bǔ)全方法:例如直接通過對缺失模態(tài)填充0值或殘余模態(tài)的均值的補(bǔ)全方法;


基于圖或核的補(bǔ)全方法:這類方法不直接學(xué)習(xí)如何補(bǔ)全原始多模態(tài)數(shù)據(jù),而是為每個模態(tài)構(gòu)造圖或核,進(jìn)而學(xué)習(xí)樣本對之間的相似度或關(guān)聯(lián)度信息,進(jìn)而對缺失數(shù)據(jù)進(jìn)行補(bǔ)全;


直接在原始特征級別進(jìn)行補(bǔ)全:部分方法利用生成模型,如生成對抗網(wǎng)絡(luò)GAN及其變體直接補(bǔ)全缺失的特征。


(2)無需補(bǔ)全的多模態(tài)融合方法。


與基于補(bǔ)全的方法不同,無需補(bǔ)全的方法重點(diǎn)關(guān)注如何利用未缺失的模態(tài)所包含的有用信息融合出盡可能好的表征,這類方法往往對期望學(xué)習(xí)到的統(tǒng)一表征添加約束,使得此表征能夠體現(xiàn)可觀察到的模態(tài)數(shù)據(jù)的完整信息,以繞開補(bǔ)全過程進(jìn)行多模態(tài)融合。


低質(zhì)多模態(tài)數(shù)據(jù)融合,多家機(jī)構(gòu)聯(lián)合出了篇綜述論文-AI.x社區(qū)

圖2. 基于補(bǔ)全的缺失多模態(tài)數(shù)據(jù)融合方法分類


未來展望:


盡管目前國內(nèi)外已提出了許多方法來解決聚類、分類等經(jīng)典機(jī)器學(xué)習(xí)任務(wù)中的不完整多模態(tài)數(shù)據(jù)融合問題,但依然存在一些更深層次的挑戰(zhàn)。


例如:關(guān)于缺失模態(tài)補(bǔ)全方案中的補(bǔ)全數(shù)據(jù)的質(zhì)量評估通常被忽視。


此外,利用先驗缺失數(shù)據(jù)位置信息屏蔽缺失模態(tài)的策略本身難以彌補(bǔ)模態(tài)缺失帶來的信息鴻溝和信息不平衡問題。


低質(zhì)多模態(tài)數(shù)據(jù)融合,多家機(jī)構(gòu)聯(lián)合出了篇綜述論文-AI.x社區(qū)

表2. 針對缺失多模態(tài)數(shù)據(jù)的融合方法分類


平衡的多模態(tài)融合方法


問題定義:


在多模態(tài)學(xué)習(xí)中,通常用聯(lián)合訓(xùn)練的方式整合不同模態(tài)數(shù)據(jù)以提高模型的整體性能和泛化表現(xiàn)。然而,這類廣泛采用的、使用統(tǒng)一學(xué)習(xí)目標(biāo)的聯(lián)合訓(xùn)練范式忽略了不同模態(tài)數(shù)據(jù)的異質(zhì)性


一方面,不同模態(tài)在數(shù)據(jù)來源及形式方面的異質(zhì)性,使得它們在收斂速度等方面具有不同的特點(diǎn),從而使所有模態(tài)難以同時得到很好的處理和學(xué)習(xí),給多模態(tài)聯(lián)合學(xué)習(xí)帶來了困難;


另一方面,這種差異也反映在單模態(tài)數(shù)據(jù)的質(zhì)量上。盡管所有模態(tài)都描述了相同的概念,但它們與目標(biāo)事件或目標(biāo)對象相關(guān)的信息量卻各不相同。基于最大似然學(xué)習(xí)目標(biāo)的深度神經(jīng)網(wǎng)絡(luò)具有貪婪學(xué)習(xí)的特點(diǎn),導(dǎo)致多模態(tài)模型往往依賴于具有高判別信息的、較易學(xué)習(xí)的高質(zhì)量模態(tài),而對其他模態(tài)信息建模不足。


為了應(yīng)對這些挑戰(zhàn)并提高多模態(tài)模型的學(xué)習(xí)質(zhì)量,平衡多模態(tài)學(xué)習(xí)的相關(guān)研究最近得到了廣泛關(guān)注。


方法分類:


按照平衡角度的不同,可將相關(guān)方法分為基于特性差異的方法基于質(zhì)量差異的方法。


(1)廣泛使用的多模態(tài)聯(lián)合訓(xùn)練框架往往忽視了單模態(tài)數(shù)據(jù)固有的學(xué)習(xí)屬性差異,這可能會對模型的性能產(chǎn)生負(fù)面影響?;谔匦圆町惖姆椒ㄊ菑拿糠N模態(tài)在學(xué)習(xí)特性上的差異入手,在學(xué)習(xí)目標(biāo)、優(yōu)化、架構(gòu)方面嘗試解決這一問題。


(2)最近的研究進(jìn)一步發(fā)現(xiàn),多模態(tài)模型往往嚴(yán)重依賴于某些高質(zhì)量信息模態(tài),而忽略了其他模態(tài),導(dǎo)致對所有模態(tài)學(xué)習(xí)不足?;谫|(zhì)量差異的方法從這一角度入手,從學(xué)習(xí)目標(biāo)、優(yōu)化方法、模型架構(gòu)和數(shù)據(jù)增強(qiáng)的角度嘗試解決這一問題并促進(jìn)多模態(tài)模型對不同模態(tài)的均衡利用。


低質(zhì)多模態(tài)數(shù)據(jù)融合,多家機(jī)構(gòu)聯(lián)合出了篇綜述論文-AI.x社區(qū)

表3. 平衡多模態(tài)數(shù)據(jù)融合方法分類


未來展望:


平衡多模態(tài)學(xué)習(xí)方法主要針對多模態(tài)數(shù)據(jù)的異質(zhì)性所導(dǎo)致的不同模態(tài)間學(xué)習(xí)特性或數(shù)據(jù)質(zhì)量上的差異。這些方法從學(xué)習(xí)目標(biāo)、優(yōu)化方法、模型架構(gòu)和數(shù)據(jù)增強(qiáng)等不同角度提出了解決方案。


平衡多模態(tài)學(xué)習(xí)當(dāng)前是一個蓬勃發(fā)展的領(lǐng)域,有很多理論和應(yīng)用方向還沒有得到充分探索。例如,目前的方法主要局限于典型的多模態(tài)任務(wù),其大多是判別性任務(wù)和少數(shù)生成性任務(wù)。


除此以外,多模態(tài)大模型也需要聯(lián)合具有不同質(zhì)量的模態(tài)數(shù)據(jù),也存在這種客觀上的不平衡問題,據(jù)此期望在多模態(tài)大模型場景中擴(kuò)展現(xiàn)有研究或設(shè)計新的解決方案。


動態(tài)多模態(tài)融合方法


問題定義: 


動態(tài)多模態(tài)數(shù)據(jù)指的是模態(tài)的質(zhì)量隨輸入樣本、場景的不同而動態(tài)改變。例如自動駕駛場景中,系統(tǒng)通過RGB和紅外傳感器獲取路面和目標(biāo)信息,在光照較好的情況下,RGB攝像頭由于能夠捕捉目標(biāo)的豐富紋理和色彩信息,可以更好地支持智能系統(tǒng)的決策;


然而在光照不足的夜間,紅外傳感器提供的感知信息則更為可靠。如何使得模型能夠自動感知到不同模態(tài)質(zhì)量的變化,從而進(jìn)行精準(zhǔn)和穩(wěn)定的融合,是動態(tài)多模態(tài)融合方法的核心任務(wù)。


低質(zhì)多模態(tài)數(shù)據(jù)融合,多家機(jī)構(gòu)聯(lián)合出了篇綜述論文-AI.x社區(qū)

表4. 動態(tài)多模態(tài)融合方法分類


方法分類:


動態(tài)多模態(tài)融合方法可以大致分為三類: 


(1)啟發(fā)式動態(tài)融合方法:


啟發(fā)式動態(tài)融合方法依賴算法設(shè)計者對多模態(tài)模型應(yīng)用場景的理解,一般通過針對性地引入動態(tài)融合機(jī)制來實現(xiàn)。


例如,在RGB/熱感信號協(xié)同的多模態(tài)目標(biāo)檢測任務(wù)中,研究者啟發(fā)式地設(shè)計了光照感知模塊以動態(tài)評估輸入圖像的光照情況,并基于光照強(qiáng)度動態(tài)調(diào)節(jié)RGB和熱感模態(tài)的融合權(quán)重進(jìn)行環(huán)境適應(yīng)。當(dāng)亮度較高時,主要依賴RGB模態(tài)進(jìn)行決策,反之則主要依賴熱感模態(tài)進(jìn)行決策。


(2)基于注意力機(jī)制的動態(tài)融合方法:


基于注意力機(jī)制的動態(tài)融合方法主要聚焦于表示層融合。注意力機(jī)制本身就具有動態(tài)特性,因此,可以自然地用于多模態(tài)動態(tài)融合任務(wù)。


Self-attention、Spatial attention、Channel attention以及Transformer等多種機(jī)制被廣泛用于多模態(tài)融合模型的構(gòu)建。這類方法在任務(wù)目標(biāo)的驅(qū)動下自動地學(xué)習(xí)如何進(jìn)行動態(tài)融合?;谧⒁饬C(jī)制的融合,在缺乏顯式或者啟發(fā)式引導(dǎo)情況下也能夠一定程度上適應(yīng)動態(tài)低質(zhì)量的多模態(tài)數(shù)據(jù)。


(3)不確定性感知的動態(tài)融合方法:


不確定性感知的動態(tài)融合方法往往具有更加清晰、可解釋的融合機(jī)制。與基于注意力機(jī)制的復(fù)雜融合模式不同,不確定性感知的動態(tài)融合方法依靠對模態(tài)的不確定性估計(如證據(jù)、能量、熵等)來適應(yīng)低質(zhì)量多模態(tài)數(shù)據(jù)。


具體地,不確定性感知能夠用于刻畫輸入數(shù)據(jù)各個模態(tài)的質(zhì)量變化情況。當(dāng)輸入樣本的某個模態(tài)質(zhì)量變低時,模型基于該模態(tài)決策的不確定性隨之變高,為后續(xù)融合機(jī)制設(shè)計提供明確指導(dǎo)。此外,相比于啟發(fā)式和注意力機(jī)制,不確定性感知的動態(tài)融合方法可以提供良好的理論保證。


未來展望:


盡管在傳統(tǒng)的多模態(tài)融合任務(wù)中,不確定性感知的動態(tài)融合方法的優(yōu)越性已經(jīng)從實驗和理論上得到了證明,但是,在SOTA的多模態(tài)模型(不限于融合模型,如CLIP/BLIP等)中,動態(tài)性的思想還具有較大挖掘和應(yīng)用潛力。


此外,具有理論保證的動態(tài)融合機(jī)制往往局限于決策層面,如何使得其在表征層發(fā)揮作用也值得思考和探索。


本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/xas1GBNZag-mKBzGN5L9UA??

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦