偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

南大&阿里發(fā)布多模態(tài)大模型WINGS，解決基于LLM的多模態(tài)訓(xùn)練災(zāi)難遺忘問題

發(fā)布于 2024-11-6 14:21

瀏覽

0收藏

今天給大家介紹一篇南京大學(xué)、阿里巴巴聯(lián)合發(fā)表的多模態(tài)模型建模方法WINGS，解決基于LLM的多模態(tài)模型在進(jìn)行跨模態(tài)建模時(shí)的災(zāi)難遺忘問題。

南大&阿里發(fā)布多模態(tài)大模型WINGS，解決基于LLM的多模態(tài)訓(xùn)練災(zāi)難遺忘問題-AI.x社區(qū)

論文標(biāo)題：WINGS: Learning Multimodal LLMs without Text-only Forgetting

下載地址：??https://arxiv.org/pdf/2406.03496??

1.研究背景

隨著人工智能技術(shù)的進(jìn)步，多模態(tài)大型語(yǔ)言模型（MLLMs）作為大型語(yǔ)言模型（LLMs）的擴(kuò)展，已經(jīng)在視覺相關(guān)的描述生成、理解、推理等方面展現(xiàn)出驚人的性能。這些模型通過(guò)整合視覺輸入（如圖像）和文本輸入，能夠處理更復(fù)雜的任務(wù)。

盡管MLLMs在多模態(tài)任務(wù)中表現(xiàn)出色，但研究發(fā)現(xiàn)它們?cè)谟?xùn)練過(guò)程中會(huì)遺忘初始LLM所掌握的純文本指令。這種現(xiàn)象被稱為“災(zāi)難性遺忘”，嚴(yán)重影響了模型在僅涉及文本的任務(wù)上的性能。

為了解決災(zāi)難性遺忘問題，現(xiàn)有的方法通常需要額外的文本數(shù)據(jù)進(jìn)行訓(xùn)練，這不僅增加了計(jì)算開銷，還面臨數(shù)據(jù)收集的挑戰(zhàn)。此外，一些方法通過(guò)在LLM和MLLM之間切換來(lái)處理圖像是否包含的情況，這增加了部署內(nèi)存的需求，并且在長(zhǎng)期的視覺和語(yǔ)言交替對(duì)話中不太高效。

南大&阿里發(fā)布多模態(tài)大模型WINGS，解決基于LLM的多模態(tài)訓(xùn)練災(zāi)難遺忘問題-AI.x社區(qū)

為了使MLLMs在實(shí)際應(yīng)用中更加有效，需要它們既能處理純文本任務(wù)，也能處理多模態(tài)任務(wù)。用戶經(jīng)常以純文本查詢開始，如果不滿足，則可能會(huì)補(bǔ)充圖像內(nèi)容。因此，MLLMs需要在保持對(duì)文本信息關(guān)注的同時(shí)，也能處理視覺信息。

論文通過(guò)分析MLLM的注意力權(quán)重，發(fā)現(xiàn)文本遺忘現(xiàn)象與注意力從圖像前文本轉(zhuǎn)移到圖像后文本有關(guān)。這種注意力的轉(zhuǎn)移表明模型過(guò)度關(guān)注視覺元素，而忽視了文本元素。

南大&阿里發(fā)布多模態(tài)大模型WINGS，解決基于LLM的多模態(tài)訓(xùn)練災(zāi)難遺忘問題-AI.x社區(qū)

為了解決上述問題，論文提出了WINGS模型，它通過(guò)引入額外的模塊來(lái)補(bǔ)償注意力轉(zhuǎn)移，這些模塊作為增強(qiáng)學(xué)習(xí)者，與主注意力并行工作，以平衡對(duì)視覺和文本元素的關(guān)注。

WINGS模型采用了低秩殘差注意力（LoRRA）設(shè)計(jì)，以保證高效率，同時(shí)在文本和視覺問答任務(wù)中實(shí)現(xiàn)卓越的性能。

綜上所述，這篇論文的背景和動(dòng)機(jī)是解決MLLMs在多模態(tài)學(xué)習(xí)中遇到的災(zāi)難性遺忘問題，并提高模型在處理純文本和多模態(tài)任務(wù)時(shí)的效率和性能，以實(shí)現(xiàn)更廣泛的應(yīng)用和更好的用戶體驗(yàn)。

2.建模方法

WINGS模型和核心點(diǎn)包含以下幾個(gè)方面。

視覺和文本學(xué)習(xí)者的并行結(jié)構(gòu)：WINGS通過(guò)在每個(gè)注意力層級(jí)中引入視覺學(xué)習(xí)者（LearnerV）和文本學(xué)習(xí)者（LearnerT），這兩個(gè)學(xué)習(xí)者并行工作，分別增強(qiáng)模型對(duì)視覺和文本特征的關(guān)注，這種結(jié)構(gòu)設(shè)計(jì)提高了模型處理多模態(tài)數(shù)據(jù)的能力。

基于注意力權(quán)重的動(dòng)態(tài)路由：WINGS利用基于注意力權(quán)重的路由機(jī)制來(lái)動(dòng)態(tài)調(diào)整視覺和文本學(xué)習(xí)者的輸出，這種機(jī)制可以根據(jù)當(dāng)前的注意力分布來(lái)優(yōu)化模型的響應(yīng)，提高了模型的適應(yīng)性和靈活性。

低秩殘差注意力（LoRRA）：WINGS采用了低秩殘差注意力（Low-Rank Residual Attention, LoRRA）架構(gòu)，這種架構(gòu)通過(guò)使用低秩矩陣來(lái)減少參數(shù)數(shù)量和計(jì)算需求，同時(shí)保持了模型的效率和性能。

南大&阿里發(fā)布多模態(tài)大模型WINGS，解決基于LLM的多模態(tài)訓(xùn)練災(zāi)難遺忘問題-AI.x社區(qū)

分階段訓(xùn)練策略：WINGS采用了分階段訓(xùn)練策略，首先對(duì)視覺學(xué)習(xí)者進(jìn)行訓(xùn)練，然后逐步引入文本學(xué)習(xí)者和路由機(jī)制，這種策略有助于逐步調(diào)整和優(yōu)化模型，使其更好地適應(yīng)多模態(tài)數(shù)據(jù)。

新構(gòu)建的交錯(cuò)圖像-文本（IIT）基準(zhǔn)測(cè)試：WINGS的研究人員構(gòu)建了一個(gè)新的基準(zhǔn)測(cè)試，即交錯(cuò)圖像-文本（Interleaved Image-Text, IIT）基準(zhǔn)測(cè)試，這個(gè)基準(zhǔn)測(cè)試包含了從純文本到強(qiáng)烈圖像相關(guān)的多輪對(duì)話，用于更全面地評(píng)估模型在多模態(tài)任務(wù)上的性能。

多模態(tài)混合輸入的處理能力：WINGS能夠處理混合了視覺和文本特征的輸入，這種能力使得模型可以更靈活地應(yīng)用于各種實(shí)際場(chǎng)景，如視覺問答、圖像描述生成等。

模型的可擴(kuò)展性和適應(yīng)性：WINGS展示了在不同規(guī)模的模型中的可擴(kuò)展性，包括WINGSbase、WINGSpro和WINGS1.8B版本，這些版本適應(yīng)不同的應(yīng)用場(chǎng)景和設(shè)備要求，顯示了模型的廣泛適用性。

對(duì)注意力機(jī)制的深入分析和應(yīng)用：WINGS通過(guò)深入分析MLLM的注意力機(jī)制，揭示了注意力權(quán)重與模型性能之間的關(guān)系，并據(jù)此設(shè)計(jì)了模型結(jié)構(gòu)和訓(xùn)練策略，這種對(duì)注意力機(jī)制的深入理解和應(yīng)用是WINGS的一個(gè)顯著特點(diǎn)。

南大&阿里發(fā)布多模態(tài)大模型WINGS，解決基于LLM的多模態(tài)訓(xùn)練災(zāi)難遺忘問題-AI.x社區(qū)

這些創(chuàng)新點(diǎn)共同使得WINGS模型在多模態(tài)任務(wù)中表現(xiàn)出色，不僅解決了災(zāi)難性遺忘問題，還提高了模型的效率、適應(yīng)性和泛化能力。

3.實(shí)驗(yàn)分析

在解決多模態(tài)訓(xùn)練過(guò)程中對(duì)文本指令的災(zāi)難性遺忘問題。實(shí)驗(yàn)結(jié)論主要包括以下幾點(diǎn)：

文本指令遺忘現(xiàn)象：論文驗(yàn)證了多模態(tài)大型語(yǔ)言模型（MLLM）在訓(xùn)練過(guò)程中對(duì)初始大型語(yǔ)言模型（LLM）已掌握的純文本指令的遺忘現(xiàn)象，并將此現(xiàn)象與跨層MLLM-LAWS（Layer-level Attention Weights）前后圖像的注意力轉(zhuǎn)移相關(guān)聯(lián)。

WINGS架構(gòu)的有效性：WINGS通過(guò)引入視覺和文本學(xué)習(xí)者以及基于轉(zhuǎn)移注意力權(quán)重的路由機(jī)制，有效地補(bǔ)償了注意力轉(zhuǎn)移。實(shí)驗(yàn)結(jié)果表明，WINGS在同等規(guī)模的MLLM中，在文本指令和視覺問答任務(wù)上均表現(xiàn)優(yōu)異。

性能比較：WINGS在多個(gè)基準(zhǔn)測(cè)試中超越了其他同等規(guī)模的MLLM，包括文本指令遺忘測(cè)試、通用多模態(tài)基準(zhǔn)測(cè)試，以及新構(gòu)建的交錯(cuò)圖像-文本（IIT）基準(zhǔn)測(cè)試。WINGS在從純文本到多模態(tài)豐富的問答任務(wù)中展現(xiàn)了卓越的性能。

效率與性能：WINGS采用了低秩殘差注意力（LoRRA）設(shè)計(jì)，確保了學(xué)習(xí)者的高效率。實(shí)驗(yàn)結(jié)果表明，WINGS在保持文本指令性能的同時(shí)，也能在多模態(tài)任務(wù)中提高性能，尤其是在資源受限的情況下。

可擴(kuò)展性：WINGS證明了其在不同規(guī)模的模型中的可擴(kuò)展性，包括WINGSbase、WINGSpro和WINGS1.8B版本，適應(yīng)不同的應(yīng)用場(chǎng)景和設(shè)備要求。

訓(xùn)練策略：論文還探討了不同的訓(xùn)練策略，包括學(xué)習(xí)率設(shè)置和訓(xùn)練階段，發(fā)現(xiàn)較低的學(xué)習(xí)率有助于保持文本任務(wù)的性能，而較高的學(xué)習(xí)率則有助于提升多模態(tài)任務(wù)的性能。

組件有效性：通過(guò)消融研究，論文分析了WINGS各個(gè)組件的有效性，發(fā)現(xiàn)僅包含視覺學(xué)習(xí)者可以輕微保持文本任務(wù)的性能，但會(huì)降低多模態(tài)任務(wù)的性能。

綜上所述，WINGS通過(guò)其創(chuàng)新的架構(gòu)和訓(xùn)練策略，在處理純文本和多模態(tài)任務(wù)時(shí)均展現(xiàn)出了卓越的性能和泛化能力。

南大&阿里發(fā)布多模態(tài)大模型WINGS，解決基于LLM的多模態(tài)訓(xùn)練災(zāi)難遺忘問題-AI.x社區(qū)

本文轉(zhuǎn)載自??圓圓的算法筆記??，作者：Brown ????

標(biāo)簽

多模態(tài)

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

多模態(tài)視覺-語(yǔ)言大模型的架構(gòu)演進(jìn)

angel ? 5171瀏覽 ? 0回復(fù)
如何解決模型的災(zāi)難性遺忘問題？清華大學(xué)提出新方法！

AI論文解讀 ? 5367瀏覽 ? 0回復(fù)
什么是多模態(tài)大模型？為什么需要多模態(tài)大模型？

AI探索時(shí)代 ? 5345瀏覽 ? 0回復(fù)
多模態(tài)大模型之模態(tài)融合的注意點(diǎn)及難點(diǎn)

AI探索時(shí)代 ? 6439瀏覽 ? 0回復(fù)
解決大型多模態(tài)模型的幻覺問題，新方法AITuning助力AI更可靠

AI論文解讀 ? 3026瀏覽 ? 0回復(fù)
多模態(tài)與偽多模態(tài)大模型

AI探索時(shí)代 ? 2690瀏覽 ? 0回復(fù)
阿里達(dá)摩院最新多模態(tài)大模型介紹，多項(xiàng)圖文任務(wù)取得SOTA效果

海因斯DK ? 3078瀏覽 ? 0回復(fù)
大模型的記憶困境：平衡持續(xù)學(xué)習(xí)與災(zāi)難性遺忘

芝士AI吃魚 ? 6355瀏覽 ? 0回復(fù)
多模態(tài)大模型最全綜述導(dǎo)讀

shizhi02 ? 3163瀏覽 ? 0回復(fù)
多模態(tài)大模型：基礎(chǔ)架構(gòu)

魯班模錘1 ? 2833瀏覽 ? 0回復(fù)
什么是多模態(tài)大模型

AI探索時(shí)代 ? 3834瀏覽 ? 0回復(fù)
多模態(tài)大模型Qwen2的深入了解

一起AI技術(shù) ? 3940瀏覽 ? 0回復(fù)
多模態(tài)大模型數(shù)據(jù)構(gòu)造方法

shizhi02 ? 3204瀏覽 ? 0回復(fù)
南大聯(lián)合中移動(dòng)發(fā)布高效多模態(tài)大模型新范式—— p-MoD

angel ? 2391瀏覽 ? 0回復(fù)
基于多模態(tài)大語(yǔ)言模型的上下文目標(biāo)檢測(cè)

AIRoobt ? 2601瀏覽 ? 0回復(fù)
多模態(tài)大模型Ovis核心技術(shù)點(diǎn)、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié)

大模型自然語(yǔ)言處理 ? 2123瀏覽 ? 0回復(fù)
融合語(yǔ)言模型的多模態(tài)大模型研究

zhcs333 ? 2196瀏覽 ? 0回復(fù)
Kimi-VL開源多模態(tài)大模型結(jié)構(gòu)、訓(xùn)練方法、訓(xùn)練數(shù)據(jù)淺析

大模型自然語(yǔ)言處理 ? 1781瀏覽 ? 0回復(fù)
LLM面經(jīng)——多模態(tài)大模型訓(xùn)練中”模態(tài)懶惰“問題如何解決？

shizhi02 ? 630瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

ICML'25 | 兼容不同數(shù)據(jù)源周期性差異的時(shí)間序列基礎(chǔ)模型 8天前發(fā)布
中科大&騰訊：通過(guò)提升各個(gè)專家網(wǎng)絡(luò)差異性提升基于MoE的CTR預(yù)估效果 8天前發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實(shí)測(cè)：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇：清華大學(xué)NeurIPS'24：時(shí)序大模型AutoTimes，結(jié)合In-context Learning提升預(yù)測(cè)效果

下一篇： NeurIPS'24：針對(duì)時(shí)序預(yù)測(cè)中時(shí)間戳特征的研究

社區(qū)精華內(nèi)容

目錄

<rt id="vwm99"></rt>

<thead id="vwm99"></thead>