馬毅團(tuán)隊(duì)新作!微調(diào)多模態(tài)大模型會(huì)「災(zāi)難性遺忘」,讓性能大減
模型災(zāi)難性遺忘,成為當(dāng)前一個(gè)關(guān)鍵熱門話題,甚至連GPT-4也無法避免。
近日,來自UC伯克利、NYU等機(jī)構(gòu)研究人員發(fā)現(xiàn),微調(diào)后的多模態(tài)大模型,會(huì)產(chǎn)生災(zāi)難性遺忘。
論文地址:https://arxiv.org/abs/2309.10313
論文中,研究團(tuán)隊(duì)引入了首個(gè)研究MLLM災(zāi)難性遺忘的評(píng)估框架——EMT(Evaluating MulTimodality)。(老二次元的基因動(dòng)了)
在多個(gè)基準(zhǔn)上評(píng)估4個(gè)模型后,發(fā)現(xiàn)多數(shù)模型無法保持與其基礎(chǔ)視覺編碼器(CLIP)相似的分類性能。
同時(shí),在一個(gè)數(shù)據(jù)集上對(duì)LLaVA進(jìn)行微調(diào)會(huì)導(dǎo)致在其他數(shù)據(jù)集上出現(xiàn)災(zāi)難性遺忘。
MLLM的EMT評(píng)估流程如下:
通過 (1) 提示每個(gè)MLLM作為圖像分類器輸入來自分類任務(wù)的圖像;(2) 要求MLLM明確回答分類任務(wù)中的單個(gè)標(biāo)簽。并使用另一個(gè)LLM評(píng)估每個(gè)輸出的正確性。
馬毅教授對(duì)這項(xiàng)研究也做了推薦,在一些新任務(wù)上通過微調(diào)得到的性能提升,是以以前能力大幅下降為代價(jià)。
一起來看看究竟怎么回事?
微調(diào)后,大模型忘性更嚴(yán)重了
GPT-4之后,一系列多模態(tài)大語言模型(MLLM)的研究噴涌而出。
業(yè)界常用的做法是將預(yù)訓(xùn)練的視覺編碼器與開源LLM集成,以及對(duì)生成視覺語言模型進(jìn)行指令調(diào)優(yōu)。
雖然許多經(jīng)過微調(diào)的MLLM在通用視覺語言理解方面,展現(xiàn)出卓越的能力,但這些模型仍然遭受災(zāi)難性遺忘。
也就是說,模型往往會(huì)過度擬合微調(diào)數(shù)據(jù)集,從而導(dǎo)致預(yù)訓(xùn)練任務(wù)的性能下降。
圖像分類中的災(zāi)難性遺忘,已在CV和ML領(lǐng)域中有著廣泛的研究。
然而,MLLM的最新發(fā)展主要集中在,創(chuàng)建用于視覺問答多模態(tài)聊天機(jī)器人,而沒有評(píng)估其基本圖像分類能力,更不用說探索MLLM中的災(zāi)難性遺忘了。
話雖如此,先前的MLLM評(píng)估框架主要側(cè)重于評(píng)估「認(rèn)知推理能力」或「幻覺」,而忽略了研究如何在MLLM中災(zāi)難性遺忘的必要性。
總而言之,最新研究做出了2個(gè)關(guān)鍵貢獻(xiàn):
- 提出了EMT,一個(gè)專門設(shè)計(jì)用于評(píng)估MLLM中災(zāi)難性遺忘現(xiàn)象的評(píng)估框架。
據(jù)研究人員所知,它是第一個(gè)通過分類研究MLLM災(zāi)難性遺忘的評(píng)估框架。通過EMT,研究團(tuán)隊(duì)發(fā)現(xiàn)幾乎所有測(cè)試的模型都無法保留其視覺編碼器的分類性能。
- 對(duì)LLaVA進(jìn)行了微調(diào)實(shí)驗(yàn)。
實(shí)驗(yàn)結(jié)果表明,適度的微調(diào)對(duì)于非微調(diào)任務(wù)是有利的,但過度的微調(diào)最終會(huì)導(dǎo)致這些任務(wù)中的災(zāi)難性遺忘。
EMT:評(píng)估開源多模態(tài)大模型
具體來講,EMT的工作原理如下:
(1) 首先輸入來自分類任務(wù)的圖像;
(2) 然后,根據(jù)每個(gè)數(shù)據(jù)集,要求測(cè)試MLLM對(duì)輸入圖像進(jìn)行分類,并通過提供的提示收集其輸出;
(3) 接下來,由于MLLM的輸出可能不遵循特定格式,因此研究人員用GPT-3.5來評(píng)估分類精度;
(4) 最后,輸出測(cè)試MLLM在不同數(shù)據(jù)集上的預(yù)測(cè)精度
開源MLLM災(zāi)難性遺忘
研究人員首先用EMT來評(píng)估四個(gè)模型:LLaVA、Otter、LENS和InstructBLIP。
它們?cè)贛NIST、CIFAR10、CIFAR100和miniImageNet上的分類準(zhǔn)確率介紹如下。研究團(tuán)隊(duì)按基本ViTCLIP模型對(duì)所展示的徑向圖進(jìn)行了區(qū)分。
盡管大多數(shù)測(cè)試的MLLM無法獲得與其基礎(chǔ)視覺編碼器相似的性能,但仍有幾處值得注意:
- InstructBLIP-7b是唯一的例外,其性能優(yōu)于視覺編碼器
- 在所有測(cè)試模型中,LENS的整體分類性能最差
不同MLLM在MNIST、CIFAR-10、CIFAR-100和miniImagenet上的EMT評(píng)估精度
檢驗(yàn)預(yù)測(cè)結(jié)果
研究人員對(duì)不同模型在不同數(shù)據(jù)集上的輸出結(jié)果進(jìn)行了分析,并找出了影響分類準(zhǔn)確性的三大因素:
- 錯(cuò)誤預(yù)測(cè):與其他分類任務(wù)一樣,MLLM有時(shí)也會(huì)做出錯(cuò)誤的預(yù)測(cè)。
在如下示例中,LLaVA-7B在MNIST分類中錯(cuò)誤地將0看做成8。
- 內(nèi)在幻覺:經(jīng)過測(cè)試的MLLM有時(shí)會(huì)生成看似相關(guān),但不正確或無法驗(yàn)證的內(nèi)容,簡(jiǎn)之,生成的輸出與源內(nèi)容直接矛盾。
其中一個(gè)例子是,要求LENS對(duì)CIFAR-10進(jìn)行分類。
值得注意的是,EMT提示明確指示,測(cè)試MLLM僅識(shí)別所有類標(biāo)簽中的單個(gè)對(duì)象。
盡管有這些明確的說明,LENS仍然會(huì)產(chǎn)生本質(zhì)上幻覺的輸出——飛機(jī)、汽車、鳥、貓、鹿、狗、青蛙、馬,一個(gè)包含多個(gè)標(biāo)簽的答案。
- 外在幻覺:輸出與原始源內(nèi)容沒有可驗(yàn)證的聯(lián)系。
如下示例中,雖然生成的輸出文本部分包含標(biāo)簽「觀賞魚」,但它還顯示了附加描述符,這些描述符不僅難以驗(yàn)證,而且與提示概述的原始請(qǐng)求無關(guān)。
微調(diào)LLaVA
接下來,研究人員使用EMT來評(píng)估LLaVA微調(diào)過程中的精度變化。
在此,他們使用LLaVA-7b和LLaVA-13b作為基礎(chǔ)MLLM進(jìn)行微調(diào),并且分別在MNIST、CIFAR-10、CIFAR-100和 miniImagenet上進(jìn)行微調(diào)實(shí)驗(yàn)。
具體方法是微調(diào)(1)線性適配器層(表示為線性);(2)線性適配器層和使用Lora的LLM(表示為lora)。
下圖展示了3個(gè)epoch微調(diào)結(jié)果。雖然LLaVA的性能確實(shí)在微調(diào)數(shù)據(jù)集上有所提高,但圖中揭示了MLLM微調(diào)的一個(gè)關(guān)鍵問題:
在一個(gè)數(shù)據(jù)集上微調(diào)MLLM會(huì)降低另一非微調(diào)數(shù)據(jù)集上的性能。
這種現(xiàn)象雖然并不出人意料,但卻值得注意。由于該模型除了經(jīng)過微調(diào)的數(shù)據(jù)集之外沒有接觸過其他數(shù)據(jù)集,因此理所當(dāng)然會(huì)觀察到與災(zāi)難性遺忘類似的影響。
經(jīng)過微調(diào)實(shí)驗(yàn)表明:
- 在一個(gè)數(shù)據(jù)集上進(jìn)行微調(diào)會(huì)導(dǎo)致其他數(shù)據(jù)集上的災(zāi)難性遺忘,這種現(xiàn)象在線性微調(diào)和Lora微調(diào)中都會(huì)發(fā)生
- Lora微調(diào)比線性微調(diào)導(dǎo)致更多遺忘
接下來,研究人員將通過提供精確度曲線,來更詳細(xì)地研究微調(diào)過程。
從分類曲線中可以看出:
- 線性微調(diào)具有普適性,因?yàn)槭褂肦GB數(shù)據(jù)集(CIFAR10、CIFAR100、miniImageNet)進(jìn)行線性微調(diào)也能在第一個(gè)epoch提高其他RGB數(shù)據(jù)集的準(zhǔn)確率
- Lora微調(diào)不具備線性微調(diào)的通用性
檢驗(yàn)預(yù)測(cè)結(jié)果
當(dāng)研究人員檢查微調(diào)LLaVA的輸出時(shí)發(fā)現(xiàn):
它會(huì)輸出與其微調(diào)數(shù)據(jù)集相關(guān)的文本,同時(shí)忽略與其原始提示相關(guān)的問題,從而產(chǎn)生幻覺。
為了進(jìn)一步說明這一現(xiàn)象,研究團(tuán)隊(duì)提供了對(duì)LLaVA-7b和LLaVA-13b進(jìn)行分類的明確示例,這些示例已使用EMT提示在不同數(shù)據(jù)集上進(jìn)行了微調(diào)。
如下的演示說明,當(dāng)CIFAR-10微調(diào)模型在CIFAR10上進(jìn)行測(cè)試時(shí),LLaVA確實(shí)能成功識(shí)別物體。
然而,在其他數(shù)據(jù)集上進(jìn)行微調(diào)后,LLaVA模型在CIFAR-10分類中開始出現(xiàn)幻覺。
在這個(gè)例子中,通過MNIST微調(diào)模型對(duì)CIFAR-10進(jìn)行分類時(shí),模型不僅部分生成了關(guān)鍵詞「飛機(jī)」,而且同時(shí)產(chǎn)生了數(shù)字「8」的幻覺輸出。
另外,研究人員在CIFAR-100和miniImagenet微調(diào)模型中也觀察到了類似的現(xiàn)象。
具體來說,這些微調(diào)模型開始產(chǎn)生幻覺,將「飛機(jī)」預(yù)測(cè)為與「飛機(jī)」相似或相關(guān)的類別,如CIFAR-100模型中的「蝴蝶」和miniImagenet模型中的「航空母艦」。
上述例子表明:
- 微調(diào)MLLM確實(shí)提高了微調(diào)數(shù)據(jù)集的分類性能
- 微調(diào)MLLM在其他數(shù)據(jù)集上會(huì)導(dǎo)致災(zāi)難性遺忘,因?yàn)槲⒄{(diào)MLLM會(huì)記憶微調(diào)數(shù)據(jù)集,從而產(chǎn)生幻覺文本
作者介紹
Yuexiang Zhai
Yuexiang Zhai是加州大學(xué)伯克利分校的博士生,由馬毅教授和Sergey Levine教授指導(dǎo)。
Shengbang Tong(童晟邦)
Peter Tong(Shengbang Tong,童晟邦)是NYU Courant CS的一名博士新生,導(dǎo)師是Yann LeCun教授和謝賽寧教授。
此前,他在加州大學(xué)伯克利分校主修計(jì)算機(jī)科學(xué)、應(yīng)用數(shù)學(xué)(榮譽(yù))和統(tǒng)計(jì)學(xué)(榮譽(yù))。并曾是伯克利人工智能實(shí)驗(yàn)室(BAIR)的研究員,導(dǎo)師是馬毅教授和Jacob Steinhardt教授。
他的研究興趣是世界模型、無監(jiān)督/自監(jiān)督學(xué)習(xí)、生成模型和多模態(tài)模型。
Xiao Li
Xiao Li是香港中文大學(xué)(深圳)數(shù)據(jù)科學(xué)學(xué)院的助理教授。
在此之前,他于2016年至2020年在香港中文大學(xué)獲得博士學(xué)位,導(dǎo)師是Thierry Blu教授和Anthony Man-Cho So教授。于2012年至2016年在浙江工業(yè)大學(xué)攻讀本科學(xué)位。
Mu Cai
Mu Cai是威斯康星大學(xué)麥迪遜分校計(jì)算機(jī)科學(xué)的博士生,導(dǎo)師是Yong Jae Lee教授。
他的研究興趣在于深度學(xué)習(xí)和計(jì)算機(jī)視覺的交叉領(lǐng)域,尤其是視覺LLM、三維場(chǎng)景理解和自監(jiān)督學(xué)習(xí)。
Qing Qu
Qing Qu是密歇根大學(xué)安娜堡分校工程學(xué)院電子工程與計(jì)算機(jī)科學(xué)系ECE的助理教授。他還隸屬于密歇根數(shù)據(jù)科學(xué)研究所(MIDAS)、密歇根應(yīng)用與跨學(xué)科數(shù)學(xué)中心(MCAIM)和密歇根計(jì)算發(fā)現(xiàn)與工程研究所(MICDE)。
他于2011年獲得清華大學(xué)學(xué)士學(xué)位,2018年在哥倫比亞大學(xué)獲得博士學(xué)位。2018年至2020年,他在紐約大學(xué)數(shù)據(jù)科學(xué)中心擔(dān)任Moore-Sloan研究員。
他是SPARS'15最佳學(xué)生論文獎(jiǎng)獲得者,也是2016年微軟機(jī)器學(xué)習(xí)博士獎(jiǎng)學(xué)金獲得者。他于2022年獲得美國(guó)國(guó)家自然科學(xué)基金事業(yè)獎(jiǎng),并于2023年獲得亞馬遜AWS人工智能獎(jiǎng)。
他的研究興趣在于信號(hào)處理、數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)和數(shù)值優(yōu)化的交叉領(lǐng)域。他尤其關(guān)注從高維數(shù)據(jù)中學(xué)習(xí)低復(fù)雜度模型的計(jì)算方法,利用機(jī)器學(xué)習(xí)、數(shù)值優(yōu)化和高維幾何的工具,應(yīng)用于成像科學(xué)和科學(xué)發(fā)現(xiàn)。
最近,他的主要興趣在于從低維建模的角度理解深度網(wǎng)絡(luò)。
Yi Ma
馬毅教授是IEEE、ACM和SIAM的會(huì)士,目前擔(dān)任香港大學(xué)同心基金數(shù)據(jù)科學(xué)研究院院長(zhǎng),以及加州大學(xué)伯克利分校電子工程與計(jì)算機(jī)系教授。
他于1995年獲得清華大學(xué)自動(dòng)化和應(yīng)用數(shù)學(xué)學(xué)士學(xué)位,1997年獲得加州大學(xué)伯克利分校的數(shù)學(xué)碩士學(xué)位及電子工程與計(jì)算機(jī)科學(xué)碩士學(xué)位,并于2000年獲得該校的電子工程與計(jì)算機(jī)科學(xué)博士學(xué)位。
馬教授曾于2000年至2011年在在伊利諾伊大學(xué)厄巴納-香檳分校(UIUC)電氣與計(jì)算機(jī)工程系任教;2009年至2014年,擔(dān)任微軟亞洲研究院計(jì)算機(jī)視覺組主任及首席研究員;2014年至2017年出任上??萍即髮W(xué)信息科學(xué)與技術(shù)學(xué)院教授、執(zhí)行院長(zhǎng);2018年加入加州大學(xué)伯克利分校電子工程與計(jì)算機(jī)科學(xué)系任教。
他在計(jì)算機(jī)視覺、廣義主成分分析和高維度數(shù)據(jù)分析方面,發(fā)表了超過60篇期刊論文,120篇學(xué)術(shù)會(huì)議論文,以及著有3本教科書。
他分別在2004年獲得美國(guó)國(guó)家自然科學(xué)基金職業(yè)獎(jiǎng),2005年獲得美國(guó)國(guó)家航空研究局青年研究員獎(jiǎng)。并在1999年的國(guó)際計(jì)算機(jī)視覺大會(huì)(ICCV)上獲得David Marr最佳計(jì)算機(jī)視覺論文獎(jiǎng)。他還獲得2004年歐洲計(jì)算機(jī)視覺會(huì)議(ECCV)的最佳論文獎(jiǎng)榮譽(yù)提名、2009年亞洲計(jì)算機(jī)視覺會(huì)議(ACCV)的最佳學(xué)術(shù)論文獎(jiǎng)。
此外,馬教授還曾擔(dān)任ICCV 2013的程序主席和ICCV 2015的大會(huì)主席。