南大&阿里發(fā)布多模態(tài)大模型WINGS,解決基于LLM的多模態(tài)訓(xùn)練災(zāi)難遺忘問題
今天給大家介紹一篇南京大學(xué)、阿里巴巴聯(lián)合發(fā)表的多模態(tài)模型建模方法WINGS,解決基于LLM的多模態(tài)模型在進(jìn)行跨模態(tài)建模時(shí)的災(zāi)難遺忘問題。
論文標(biāo)題:WINGS: Learning Multimodal LLMs without Text-only Forgetting
下載地址:??https://arxiv.org/pdf/2406.03496??
1.研究背景
隨著人工智能技術(shù)的進(jìn)步,多模態(tài)大型語(yǔ)言模型(MLLMs)作為大型語(yǔ)言模型(LLMs)的擴(kuò)展,已經(jīng)在視覺相關(guān)的描述生成、理解、推理等方面展現(xiàn)出驚人的性能。這些模型通過(guò)整合視覺輸入(如圖像)和文本輸入,能夠處理更復(fù)雜的任務(wù)。
盡管MLLMs在多模態(tài)任務(wù)中表現(xiàn)出色,但研究發(fā)現(xiàn)它們?cè)谟?xùn)練過(guò)程中會(huì)遺忘初始LLM所掌握的純文本指令。這種現(xiàn)象被稱為“災(zāi)難性遺忘”,嚴(yán)重影響了模型在僅涉及文本的任務(wù)上的性能。
為了解決災(zāi)難性遺忘問題,現(xiàn)有的方法通常需要額外的文本數(shù)據(jù)進(jìn)行訓(xùn)練,這不僅增加了計(jì)算開銷,還面臨數(shù)據(jù)收集的挑戰(zhàn)。此外,一些方法通過(guò)在LLM和MLLM之間切換來(lái)處理圖像是否包含的情況,這增加了部署內(nèi)存的需求,并且在長(zhǎng)期的視覺和語(yǔ)言交替對(duì)話中不太高效。
為了使MLLMs在實(shí)際應(yīng)用中更加有效,需要它們既能處理純文本任務(wù),也能處理多模態(tài)任務(wù)。用戶經(jīng)常以純文本查詢開始,如果不滿足,則可能會(huì)補(bǔ)充圖像內(nèi)容。因此,MLLMs需要在保持對(duì)文本信息關(guān)注的同時(shí),也能處理視覺信息。
論文通過(guò)分析MLLM的注意力權(quán)重,發(fā)現(xiàn)文本遺忘現(xiàn)象與注意力從圖像前文本轉(zhuǎn)移到圖像后文本有關(guān)。這種注意力的轉(zhuǎn)移表明模型過(guò)度關(guān)注視覺元素,而忽視了文本元素。
為了解決上述問題,論文提出了WINGS模型,它通過(guò)引入額外的模塊來(lái)補(bǔ)償注意力轉(zhuǎn)移,這些模塊作為增強(qiáng)學(xué)習(xí)者,與主注意力并行工作,以平衡對(duì)視覺和文本元素的關(guān)注。
WINGS模型采用了低秩殘差注意力(LoRRA)設(shè)計(jì),以保證高效率,同時(shí)在文本和視覺問答任務(wù)中實(shí)現(xiàn)卓越的性能。
綜上所述,這篇論文的背景和動(dòng)機(jī)是解決MLLMs在多模態(tài)學(xué)習(xí)中遇到的災(zāi)難性遺忘問題,并提高模型在處理純文本和多模態(tài)任務(wù)時(shí)的效率和性能,以實(shí)現(xiàn)更廣泛的應(yīng)用和更好的用戶體驗(yàn)。
2.建模方法
WINGS模型和核心點(diǎn)包含以下幾個(gè)方面。
視覺和文本學(xué)習(xí)者的并行結(jié)構(gòu):WINGS通過(guò)在每個(gè)注意力層級(jí)中引入視覺學(xué)習(xí)者(LearnerV)和文本學(xué)習(xí)者(LearnerT),這兩個(gè)學(xué)習(xí)者并行工作,分別增強(qiáng)模型對(duì)視覺和文本特征的關(guān)注,這種結(jié)構(gòu)設(shè)計(jì)提高了模型處理多模態(tài)數(shù)據(jù)的能力。
基于注意力權(quán)重的動(dòng)態(tài)路由:WINGS利用基于注意力權(quán)重的路由機(jī)制來(lái)動(dòng)態(tài)調(diào)整視覺和文本學(xué)習(xí)者的輸出,這種機(jī)制可以根據(jù)當(dāng)前的注意力分布來(lái)優(yōu)化模型的響應(yīng),提高了模型的適應(yīng)性和靈活性。
低秩殘差注意力(LoRRA):WINGS采用了低秩殘差注意力(Low-Rank Residual Attention, LoRRA)架構(gòu),這種架構(gòu)通過(guò)使用低秩矩陣來(lái)減少參數(shù)數(shù)量和計(jì)算需求,同時(shí)保持了模型的效率和性能。
分階段訓(xùn)練策略:WINGS采用了分階段訓(xùn)練策略,首先對(duì)視覺學(xué)習(xí)者進(jìn)行訓(xùn)練,然后逐步引入文本學(xué)習(xí)者和路由機(jī)制,這種策略有助于逐步調(diào)整和優(yōu)化模型,使其更好地適應(yīng)多模態(tài)數(shù)據(jù)。
新構(gòu)建的交錯(cuò)圖像-文本(IIT)基準(zhǔn)測(cè)試:WINGS的研究人員構(gòu)建了一個(gè)新的基準(zhǔn)測(cè)試,即交錯(cuò)圖像-文本(Interleaved Image-Text, IIT)基準(zhǔn)測(cè)試,這個(gè)基準(zhǔn)測(cè)試包含了從純文本到強(qiáng)烈圖像相關(guān)的多輪對(duì)話,用于更全面地評(píng)估模型在多模態(tài)任務(wù)上的性能。
多模態(tài)混合輸入的處理能力:WINGS能夠處理混合了視覺和文本特征的輸入,這種能力使得模型可以更靈活地應(yīng)用于各種實(shí)際場(chǎng)景,如視覺問答、圖像描述生成等。
模型的可擴(kuò)展性和適應(yīng)性:WINGS展示了在不同規(guī)模的模型中的可擴(kuò)展性,包括WINGSbase、WINGSpro和WINGS1.8B版本,這些版本適應(yīng)不同的應(yīng)用場(chǎng)景和設(shè)備要求,顯示了模型的廣泛適用性。
對(duì)注意力機(jī)制的深入分析和應(yīng)用:WINGS通過(guò)深入分析MLLM的注意力機(jī)制,揭示了注意力權(quán)重與模型性能之間的關(guān)系,并據(jù)此設(shè)計(jì)了模型結(jié)構(gòu)和訓(xùn)練策略,這種對(duì)注意力機(jī)制的深入理解和應(yīng)用是WINGS的一個(gè)顯著特點(diǎn)。
這些創(chuàng)新點(diǎn)共同使得WINGS模型在多模態(tài)任務(wù)中表現(xiàn)出色,不僅解決了災(zāi)難性遺忘問題,還提高了模型的效率、適應(yīng)性和泛化能力。
3.實(shí)驗(yàn)分析
在解決多模態(tài)訓(xùn)練過(guò)程中對(duì)文本指令的災(zāi)難性遺忘問題。實(shí)驗(yàn)結(jié)論主要包括以下幾點(diǎn):
文本指令遺忘現(xiàn)象:論文驗(yàn)證了多模態(tài)大型語(yǔ)言模型(MLLM)在訓(xùn)練過(guò)程中對(duì)初始大型語(yǔ)言模型(LLM)已掌握的純文本指令的遺忘現(xiàn)象,并將此現(xiàn)象與跨層MLLM-LAWS(Layer-level Attention Weights)前后圖像的注意力轉(zhuǎn)移相關(guān)聯(lián)。
WINGS架構(gòu)的有效性:WINGS通過(guò)引入視覺和文本學(xué)習(xí)者以及基于轉(zhuǎn)移注意力權(quán)重的路由機(jī)制,有效地補(bǔ)償了注意力轉(zhuǎn)移。實(shí)驗(yàn)結(jié)果表明,WINGS在同等規(guī)模的MLLM中,在文本指令和視覺問答任務(wù)上均表現(xiàn)優(yōu)異。
性能比較:WINGS在多個(gè)基準(zhǔn)測(cè)試中超越了其他同等規(guī)模的MLLM,包括文本指令遺忘測(cè)試、通用多模態(tài)基準(zhǔn)測(cè)試,以及新構(gòu)建的交錯(cuò)圖像-文本(IIT)基準(zhǔn)測(cè)試。WINGS在從純文本到多模態(tài)豐富的問答任務(wù)中展現(xiàn)了卓越的性能。
效率與性能:WINGS采用了低秩殘差注意力(LoRRA)設(shè)計(jì),確保了學(xué)習(xí)者的高效率。實(shí)驗(yàn)結(jié)果表明,WINGS在保持文本指令性能的同時(shí),也能在多模態(tài)任務(wù)中提高性能,尤其是在資源受限的情況下。
可擴(kuò)展性:WINGS證明了其在不同規(guī)模的模型中的可擴(kuò)展性,包括WINGSbase、WINGSpro和WINGS1.8B版本,適應(yīng)不同的應(yīng)用場(chǎng)景和設(shè)備要求。
訓(xùn)練策略:論文還探討了不同的訓(xùn)練策略,包括學(xué)習(xí)率設(shè)置和訓(xùn)練階段,發(fā)現(xiàn)較低的學(xué)習(xí)率有助于保持文本任務(wù)的性能,而較高的學(xué)習(xí)率則有助于提升多模態(tài)任務(wù)的性能。
組件有效性:通過(guò)消融研究,論文分析了WINGS各個(gè)組件的有效性,發(fā)現(xiàn)僅包含視覺學(xué)習(xí)者可以輕微保持文本任務(wù)的性能,但會(huì)降低多模態(tài)任務(wù)的性能。
綜上所述,WINGS通過(guò)其創(chuàng)新的架構(gòu)和訓(xùn)練策略,在處理純文本和多模態(tài)任務(wù)時(shí)均展現(xiàn)出了卓越的性能和泛化能力。
