偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<pre id="r2j2d"><p id="r2j2d"></p></pre><p id="r2j2d"><span id="r2j2d"><small id="r2j2d"></small></span></p>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

谷歌創(chuàng)新框架：從非結(jié)構(gòu)化數(shù)據(jù)，實現(xiàn)多模態(tài)學(xué)習(xí) 精華

發(fā)布于 2024-6-4 12:13

瀏覽

0收藏

看、聽、說的多模態(tài)已成為主流大模型的重要功能之一。但在數(shù)據(jù)爆炸時代，大模型學(xué)習(xí)文本類的結(jié)構(gòu)化數(shù)據(jù)相對還好一些，但要去學(xué)習(xí)視頻、音頻、圖片等非結(jié)構(gòu)化數(shù)據(jù)非常困難。

目前，從結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)實現(xiàn)多模態(tài)學(xué)習(xí)，會隨著模態(tài)數(shù)量、輸入大小和數(shù)據(jù)異構(gòu)性的增加，深度神經(jīng)網(wǎng)絡(luò)會變過擬合和泛化效果不佳。

尤其是當(dāng)在規(guī)模有限的數(shù)據(jù)集上訓(xùn)練時，這一狀況就越發(fā)明顯，例如，經(jīng)常表現(xiàn)出非平穩(wěn)行為的時間序列數(shù)據(jù)。因此，谷歌提出了創(chuàng)新框架LANISTR來解決這些難題。

論文地址：https://arxiv.org/pdf/2305.16556

谷歌創(chuàng)新框架：從非結(jié)構(gòu)化數(shù)據(jù)，實現(xiàn)多模態(tài)學(xué)習(xí)-AI.x社區(qū)

LANISTR是一個基于注意力機(jī)制的框架，其核心思想是在單模態(tài)和多模態(tài)層面上應(yīng)用基于掩碼的訓(xùn)練。

還特別引入了一種新的基于相似度的多模態(tài)掩碼損失，使其能夠從存在缺失模態(tài)的大型多模態(tài)數(shù)據(jù)中學(xué)習(xí)跨模態(tài)之間的關(guān)系。

多模態(tài)融合編碼器

?

現(xiàn)實數(shù)據(jù)經(jīng)常以復(fù)合形式存在，單一模態(tài)的數(shù)據(jù)往往不足以捕捉事件的全貌。例如，在醫(yī)療診斷中，臨床報告和MRI掃描圖像才能展現(xiàn)患者狀況的全面視圖；而在電子商務(wù)中，商品描述與銷售歷史（時間序列）相結(jié)合才能更好地預(yù)測市場需求。

因此，一個好用的多模態(tài)大模型，必須具備將這些分散信息源綜合的能力。為了實現(xiàn)這一目標(biāo)，LANISTR采用了基于Transformer架構(gòu)的交叉注意力機(jī)制。

谷歌創(chuàng)新框架：從非結(jié)構(gòu)化數(shù)據(jù)，實現(xiàn)多模態(tài)學(xué)習(xí)-AI.x社區(qū)

多模態(tài)融合編碼器可將來自各模態(tài)的嵌入向量首先被串聯(lián)起來，然后通過一系列的Transformer層進(jìn)行處理。

在這些層中，交叉注意力機(jī)制發(fā)揮了重要作用，允許模型在不同的模態(tài)表示之間自由“詢問”和“回答”，使每個模態(tài)的特征都能關(guān)注其他模態(tài)的特征，并根據(jù)它們的相關(guān)性和重要性進(jìn)行加權(quán)整合。

這一流程與人腦思考有些類似，可根據(jù)上下文和情境在不同感官信號間切換注意力，從而實現(xiàn)信息的高效整合。

4種編碼器介紹

?

LANISTR中的多模態(tài)融合編碼器一共由文本、圖像、表格和時間序列4種編碼器組成，每種模態(tài)都有其獨(dú)特的表達(dá)方式和信息結(jié)構(gòu)。這種機(jī)制不僅增強(qiáng)了對單個模態(tài)特征的理解，還促進(jìn)了模態(tài)間的交互學(xué)習(xí)，從而對整個場景有了更加全面的認(rèn)識。

谷歌創(chuàng)新框架：從非結(jié)構(gòu)化數(shù)據(jù)，實現(xiàn)多模態(tài)學(xué)習(xí)-AI.x社區(qū)

文本編碼器：基于Transformer架構(gòu)主要處理文本數(shù)據(jù)。通過掩碼語言方法進(jìn)行預(yù)訓(xùn)練，隨機(jī)掩蓋文本中的部分詞匯，讓模型學(xué)習(xí)預(yù)測這些被掩蓋詞的能力。這種機(jī)制促使模型理解詞語間的依賴關(guān)系和語境含義，從而提取出豐富的語言特征。

圖像編碼器：采用Vision Transformer架構(gòu)用于處理視覺數(shù)據(jù)?？蓪D像分割成多個小塊，并將這些塊視為序列輸入到Transformer中，通過自注意力機(jī)制學(xué)習(xí)圖像的高層次特征，還會使用掩碼圖像建模方法，通過重建被掩碼的像素或特征來訓(xùn)練，以提取圖像的視覺特征。

谷歌創(chuàng)新框架：從非結(jié)構(gòu)化數(shù)據(jù)，實現(xiàn)多模態(tài)學(xué)習(xí)-AI.x社區(qū)

表格編碼器：使用了定制的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，針對分類特征的嵌入層來編碼每一列數(shù)據(jù)的特征?？紤]到表格數(shù)據(jù)的稀疏性和多樣性，了集成特征選擇或降維技術(shù)，以聚焦于最有信息量的特征。

時間序列編碼器：由于大模型需要捕捉隨時間變化的動態(tài)模式，時間序列編碼器使用了循環(huán)神經(jīng)網(wǎng)絡(luò)方法，長短時記憶網(wǎng)絡(luò)和門控循環(huán)單元。通過對序列進(jìn)行建模提取出時間序列的模式和趨勢，為后續(xù)的多模態(tài)融合準(zhǔn)備數(shù)據(jù)。

研究人員在兩個數(shù)據(jù)集上測試了LANISTR的性能，在MIMIC-IV數(shù)據(jù)集上，當(dāng)僅使用0.1%的有標(biāo)簽數(shù)據(jù)進(jìn)行微調(diào)時，模型的AUROC相比最先進(jìn)的方法提高了6.6%。

在亞馬遜產(chǎn)品評論數(shù)據(jù)集中，僅使用0.01%的有標(biāo)簽數(shù)據(jù)，模型的準(zhǔn)確率提升了14%。值得一提的是，這些改進(jìn)是在高達(dá)35.7%和99.8%的樣本存在模態(tài)缺失的情況下完成的，這更加證明了LANISTR的多模態(tài)學(xué)習(xí)能力。

本文轉(zhuǎn)自 AIGC開放社區(qū) ，作者：AIGC開放社區(qū)

原文鏈接:??https://mp.weixin.qq.com/s/dicYO5bU5fIuPb0kIlyKOA??

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

場景圖知識增強(qiáng)多模態(tài)結(jié)構(gòu)化表示能力

mb5f8eba9bdb0af ? 4320瀏覽 ? 0回復(fù)
多模態(tài)大模型不夠靈活，谷歌DeepMind創(chuàng)新架構(gòu)Zipper：分開訓(xùn)練再「壓縮」

輕薄滴假象 ? 3767瀏覽 ? 0回復(fù)
谷歌通過數(shù)據(jù)增強(qiáng)、對比調(diào)優(yōu)，減少多模態(tài)模型幻覺

Aceryt ? 4031瀏覽 ? 0回復(fù)
VideoLLaMB：創(chuàng)新開源框架，引領(lǐng)多模態(tài)長視頻理解

穿越時空111 ? 3737瀏覽 ? 0回復(fù)
Agent實戰(zhàn)-JSON結(jié)構(gòu)化智能

ermulong ? 3555瀏覽 ? 0回復(fù)
多階段對比學(xué)習(xí)+多專家CLIP實現(xiàn)細(xì)粒度多模態(tài)表征學(xué)習(xí)

海因斯DK ? 6731瀏覽 ? 0回復(fù)
使用結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)增強(qiáng)大型語言模型(LLM)

Halo咯咯 ? 3906瀏覽 ? 0回復(fù)
RAG增強(qiáng)之路：增強(qiáng)PDF解析并結(jié)構(gòu)化技術(shù)路線方案及思路

大模型自然語言處理 ? 3852瀏覽 ? 0回復(fù)
HtmlRAG：利用 HTML 結(jié)構(gòu)化信息增強(qiáng) RAG 系統(tǒng)的知識檢索能力和準(zhǔn)確性

Halo咯咯 ? 5137瀏覽 ? 0回復(fù)
10.1k高星 GitHub 庫：告別JSON錯誤：Outlines如何提升大模型的結(jié)構(gòu)化輸出

凝固的雨_1 ? 6283瀏覽 ? 0回復(fù)
基于谷歌Gemini多模態(tài)模型實現(xiàn)PDF文檔自動化處理

51CTO內(nèi)容精選 ? 4657瀏覽 ? 0回復(fù)
用強(qiáng)化學(xué)習(xí)重塑多模態(tài)AI：解讀Kimi k1.5的突破與創(chuàng)新

Halo咯咯 ? 4575瀏覽 ? 0回復(fù)
為什么說JSON不一定是LLM結(jié)構(gòu)化輸出的最佳選擇？

Baihai_IDP ? 3393瀏覽 ? 0回復(fù)
萬字解析非結(jié)構(gòu)化文檔中的隱藏價值：多模態(tài)檢索增強(qiáng)生成（RAG）的前景

柏企閱文 ? 2760瀏覽 ? 0回復(fù)
Kimi-VL開源多模態(tài)大模型結(jié)構(gòu)、訓(xùn)練方法、訓(xùn)練數(shù)據(jù)淺析

大模型自然語言處理 ? 3353瀏覽 ? 0回復(fù)
關(guān)于人工智能應(yīng)用場景中前期數(shù)據(jù)處理的業(yè)務(wù)場景和技術(shù)分析——包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)

AI探索時代 ? 2045瀏覽 ? 0回復(fù)
從OCR瓶頸到結(jié)構(gòu)化理解來有效提升RAG的效果

51CTO內(nèi)容精選 ? 1782瀏覽 ? 0回復(fù)
從結(jié)構(gòu)化到多模態(tài) RAG 文檔解析工具選型指南

玄姐聊AGI ? 1719瀏覽 ? 0回復(fù)
RAS 革命：從 RAG 到結(jié)構(gòu)化知識增強(qiáng)，破解 LLM 短板的新范式

51CTO內(nèi)容精選 ? 303瀏覽 ? 1回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

剛剛，OpenAI發(fā)布GPT-image-1模型，更強(qiáng)吉卜力版本來啦 2025-04-24 09:57:36發(fā)布
字節(jié)跳動開源多模態(tài)AI Agent—UI-TARS-1.5 2025-04-23 11:55:00發(fā)布

熱門推薦

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

別再怪AI“聽不懂人話”了，90%的返工和錯誤，都錯在你下達(dá)指令的第一句話 0回復(fù)

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復(fù)

DeepSeek 成長史：從量化投資到 AI 革命的一個 “非主流” 量化大佬的 AI 夢 0回復(fù)

上一篇：麥肯錫：ChatGPT等生成式AI應(yīng)用激增，大中華區(qū)增長最快

下一篇： OpenAI首次公開前沿大模型安全：基礎(chǔ)架構(gòu)、保護(hù)措施等

社區(qū)精華內(nèi)容

目錄

<abbr id="jqnih"></abbr>

<dfn id="jqnih"></dfn>

<blockquote id="jqnih"><mark id="jqnih"></mark></blockquote>