偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

谷歌創(chuàng)新框架:從非結(jié)構(gòu)化數(shù)據(jù),實現(xiàn)多模態(tài)學(xué)習(xí) 精華

發(fā)布于 2024-6-4 12:13
瀏覽
0收藏

看、聽、說的多模態(tài)已成為主流大模型的重要功能之一。但在數(shù)據(jù)爆炸時代,大模型學(xué)習(xí)文本類的結(jié)構(gòu)化數(shù)據(jù)相對還好一些,但要去學(xué)習(xí)視頻、音頻、圖片等非結(jié)構(gòu)化數(shù)據(jù)非常困難。


目前,從結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)實現(xiàn)多模態(tài)學(xué)習(xí),會隨著模態(tài)數(shù)量、輸入大小和數(shù)據(jù)異構(gòu)性的增加,深度神經(jīng)網(wǎng)絡(luò)會變過擬合和泛化效果不佳。


尤其是當(dāng)在規(guī)模有限的數(shù)據(jù)集上訓(xùn)練時,這一狀況就越發(fā)明顯,例如,經(jīng)常表現(xiàn)出非平穩(wěn)行為的時間序列數(shù)據(jù)。因此,谷歌提出了創(chuàng)新框架LANISTR來解決這些難題。


論文地址:https://arxiv.org/pdf/2305.16556

谷歌創(chuàng)新框架:從非結(jié)構(gòu)化數(shù)據(jù),實現(xiàn)多模態(tài)學(xué)習(xí)-AI.x社區(qū)

LANISTR是一個基于注意力機(jī)制的框架,其核心思想是在單模態(tài)和多模態(tài)層面上應(yīng)用基于掩碼的訓(xùn)練。


還特別引入了一種新的基于相似度的多模態(tài)掩碼損失,使其能夠從存在缺失模態(tài)的大型多模態(tài)數(shù)據(jù)中學(xué)習(xí)跨模態(tài)之間的關(guān)系。


多模態(tài)融合編碼器

?

現(xiàn)實數(shù)據(jù)經(jīng)常以復(fù)合形式存在,單一模態(tài)的數(shù)據(jù)往往不足以捕捉事件的全貌。例如,在醫(yī)療診斷中,臨床報告和MRI掃描圖像才能展現(xiàn)患者狀況的全面視圖;而在電子商務(wù)中,商品描述與銷售歷史(時間序列)相結(jié)合才能更好地預(yù)測市場需求。


因此,一個好用的多模態(tài)大模型,必須具備將這些分散信息源綜合的能力。為了實現(xiàn)這一目標(biāo),LANISTR采用了基于Transformer架構(gòu)的交叉注意力機(jī)制。

谷歌創(chuàng)新框架:從非結(jié)構(gòu)化數(shù)據(jù),實現(xiàn)多模態(tài)學(xué)習(xí)-AI.x社區(qū)

多模態(tài)融合編碼器可將來自各模態(tài)的嵌入向量首先被串聯(lián)起來,然后通過一系列的Transformer層進(jìn)行處理。


在這些層中,交叉注意力機(jī)制發(fā)揮了重要作用,允許模型在不同的模態(tài)表示之間自由“詢問”和“回答”,使每個模態(tài)的特征都能關(guān)注其他模態(tài)的特征,并根據(jù)它們的相關(guān)性和重要性進(jìn)行加權(quán)整合。


這一流程與人腦思考有些類似,可根據(jù)上下文和情境在不同感官信號間切換注意力,從而實現(xiàn)信息的高效整合。


4種編碼器介紹

?

LANISTR中的多模態(tài)融合編碼器一共由文本、圖像、表格和時間序列4種編碼器組成,每種模態(tài)都有其獨(dú)特的表達(dá)方式和信息結(jié)構(gòu)。這種機(jī)制不僅增強(qiáng)了對單個模態(tài)特征的理解,還促進(jìn)了模態(tài)間的交互學(xué)習(xí),從而對整個場景有了更加全面的認(rèn)識。

谷歌創(chuàng)新框架:從非結(jié)構(gòu)化數(shù)據(jù),實現(xiàn)多模態(tài)學(xué)習(xí)-AI.x社區(qū)

文本編碼器:基于Transformer架構(gòu)主要處理文本數(shù)據(jù)。通過掩碼語言方法進(jìn)行預(yù)訓(xùn)練,隨機(jī)掩蓋文本中的部分詞匯,讓模型學(xué)習(xí)預(yù)測這些被掩蓋詞的能力。這種機(jī)制促使模型理解詞語間的依賴關(guān)系和語境含義,從而提取出豐富的語言特征。


圖像編碼器:采用Vision Transformer架構(gòu)用于處理視覺數(shù)據(jù)??蓪D像分割成多個小塊,并將這些塊視為序列輸入到Transformer中,通過自注意力機(jī)制學(xué)習(xí)圖像的高層次特征,還會使用掩碼圖像建模方法,通過重建被掩碼的像素或特征來訓(xùn)練,以提取圖像的視覺特征。

谷歌創(chuàng)新框架:從非結(jié)構(gòu)化數(shù)據(jù),實現(xiàn)多模態(tài)學(xué)習(xí)-AI.x社區(qū)

表格編碼器:使用了定制的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),針對分類特征的嵌入層來編碼每一列數(shù)據(jù)的特征??紤]到表格數(shù)據(jù)的稀疏性和多樣性,了集成特征選擇或降維技術(shù),以聚焦于最有信息量的特征。


時間序列編碼器:由于大模型需要捕捉隨時間變化的動態(tài)模式,時間序列編碼器使用了循環(huán)神經(jīng)網(wǎng)絡(luò)方法,長短時記憶網(wǎng)絡(luò)和門控循環(huán)單元。通過對序列進(jìn)行建模提取出時間序列的模式和趨勢,為后續(xù)的多模態(tài)融合準(zhǔn)備數(shù)據(jù)。


研究人員在兩個數(shù)據(jù)集上測試了LANISTR的性能,在MIMIC-IV數(shù)據(jù)集上,當(dāng)僅使用0.1%的有標(biāo)簽數(shù)據(jù)進(jìn)行微調(diào)時,模型的AUROC相比最先進(jìn)的方法提高了6.6%。


在亞馬遜產(chǎn)品評論數(shù)據(jù)集中,僅使用0.01%的有標(biāo)簽數(shù)據(jù),模型的準(zhǔn)確率提升了14%。值得一提的是,這些改進(jìn)是在高達(dá)35.7%和99.8%的樣本存在模態(tài)缺失的情況下完成的,這更加證明了LANISTR的多模態(tài)學(xué)習(xí)能力。


本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/dicYO5bU5fIuPb0kIlyKOA??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦