清華提出DIKI:基于殘差的可控持續(xù)學(xué)習(xí)方案,完美保持預(yù)訓(xùn)練知識(shí)
本研究解決了領(lǐng)域-類別增量學(xué)習(xí)問(wèn)題,這是一個(gè)現(xiàn)實(shí)但富有挑戰(zhàn)性的持續(xù)學(xué)習(xí)場(chǎng)景,其中領(lǐng)域分布和目標(biāo)類別在不同任務(wù)中變化。為應(yīng)對(duì)這些多樣化的任務(wù),引入了預(yù)訓(xùn)練的視覺(jué)-語(yǔ)言模型(VLMs),因?yàn)樗鼈兙哂泻軓?qiáng)的泛化能力。然而,這也引發(fā)了一個(gè)新問(wèn)題:在適應(yīng)新任務(wù)時(shí),預(yù)訓(xùn)練VLMs中編碼的知識(shí)可能會(huì)受到干擾,從而損害它們固有的零樣本能力?,F(xiàn)有方法通過(guò)在額外數(shù)據(jù)集上對(duì)VLMs進(jìn)行知識(shí)蒸餾來(lái)解決此問(wèn)題,但這需要較大的計(jì)算開(kāi)銷。為了高效地解決此問(wèn)題,論文提出了分布感知無(wú)干擾知識(shí)集成(DIKI)框架,從避免信息干擾的角度保留VLMs的預(yù)訓(xùn)練知識(shí)。具體而言,設(shè)計(jì)了一個(gè)完全殘差機(jī)制,將新學(xué)習(xí)的知識(shí)注入到一個(gè)凍結(jié)的主干網(wǎng)絡(luò)中,同時(shí)對(duì)預(yù)訓(xùn)練知識(shí)產(chǎn)生最小的不利影響。此外,這種殘差特性使分布感知集成校準(zhǔn)方案成為可能,明確控制來(lái)自未知分布的測(cè)試數(shù)據(jù)的信息植入過(guò)程。實(shí)驗(yàn)表明,DIKI超過(guò)了當(dāng)前最先進(jìn)的方法,僅使用0.86%的訓(xùn)練參數(shù),并且所需的訓(xùn)練時(shí)間大幅減少。
論文: Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models
- 論文地址:https://arxiv.org/abs/2407.05342
- 論文代碼:https://github.com/lloongx/DIKI
Introduction
監(jiān)督學(xué)習(xí)技術(shù)在對(duì)所有數(shù)據(jù)完全訪問(wèn)的情況下訓(xùn)練網(wǎng)絡(luò),這可能導(dǎo)致在擴(kuò)展網(wǎng)絡(luò)以獲取新任務(wù)知識(shí)時(shí)缺乏靈活性。持續(xù)學(xué)習(xí)(CL)作為一種解決方案應(yīng)運(yùn)而生,使得模型能夠在陸續(xù)到達(dá)的數(shù)據(jù)上進(jìn)行持續(xù)訓(xùn)練,同時(shí)保留所學(xué)的信息。傳統(tǒng)的CL設(shè)置一般考慮的只新引入的類別或領(lǐng)域分布的變化,這稱為類別增量學(xué)習(xí)和領(lǐng)域增量學(xué)習(xí)。然而,只考慮一種增量的現(xiàn)有工作限制了它們?cè)趶?fù)雜現(xiàn)實(shí)場(chǎng)景中的適用性。
考慮一個(gè)更具挑戰(zhàn)性的領(lǐng)域-類別增量學(xué)習(xí)(DCIL
)設(shè)置,在該設(shè)置中,領(lǐng)域數(shù)據(jù)分布和待分類的類別在所有任務(wù)中可能不斷變化,如圖1(a)所示。在這種情況下,基于傳統(tǒng)圖像編碼器的技術(shù)由于其不可擴(kuò)展的分類頭設(shè)計(jì)而無(wú)法實(shí)現(xiàn)。最近,對(duì)比訓(xùn)練的視覺(jué)-語(yǔ)言模型(VLMs
)如CLIP
的出現(xiàn),使得解決這一要求高但實(shí)際的問(wèn)題成為可能。VLMs
是在大規(guī)模的圖像-文本對(duì)上訓(xùn)練的,具有強(qiáng)大的零樣本泛化能力,可以識(shí)別幾乎無(wú)限的類別,應(yīng)對(duì)這種嚴(yán)重的任務(wù)變化場(chǎng)景。
然而,使用視覺(jué)-語(yǔ)言模型引入了增量訓(xùn)練的新挑戰(zhàn)。傳統(tǒng)的持續(xù)學(xué)習(xí)方案旨在防止模型遺忘先前學(xué)習(xí)的知識(shí),這被稱為向后遺忘(忘記微調(diào)的知識(shí))?,F(xiàn)有的研究探討了正則化機(jī)制、復(fù)習(xí)緩沖區(qū)和架構(gòu)設(shè)計(jì)在減輕向后遺忘方面的潛力,并取得了令人鼓舞的成果。然而,當(dāng)這些方法應(yīng)用于視覺(jué)-語(yǔ)言模型時(shí),出現(xiàn)了一種不同形式的災(zāi)難性遺忘:模型往往會(huì)遺忘在預(yù)訓(xùn)練階段所學(xué)的知識(shí),從而妨礙其強(qiáng)大的零樣本泛化能力。這個(gè)問(wèn)題被稱為向前遺忘(忘記預(yù)訓(xùn)練的知識(shí)),因?yàn)樗l(fā)生在VLMs
對(duì)未知分布數(shù)據(jù)進(jìn)行“向前”預(yù)測(cè)時(shí)。圖1(a)展示了這兩種遺忘類型。
最近的工作ZSCL
嘗試解決CLIP
上的向前遺忘問(wèn)題,引入了一個(gè)大規(guī)模的參考數(shù)據(jù)集來(lái)進(jìn)行知識(shí)蒸餾,并結(jié)合了權(quán)重集成方案。然而,這種方法需要大量的計(jì)算和外部數(shù)據(jù),在實(shí)際場(chǎng)景中可能不可行。同時(shí),現(xiàn)有的基于VLM的參數(shù)高效持續(xù)學(xué)習(xí)方法主要利用提示調(diào)整機(jī)制,未能保留預(yù)訓(xùn)練知識(shí),并導(dǎo)致零樣本能力下降,如圖1(b)所示。論文將這個(gè)問(wèn)題歸因于信息干擾:新引入的任務(wù)特定參數(shù)可能會(huì)干擾預(yù)訓(xùn)練知識(shí)。這些方法的示意圖如圖1(c)所示。
為了以計(jì)算和參數(shù)高效的方式緩解VLMs
的向前遺忘問(wèn)題,論文引入了分布感知無(wú)干擾知識(shí)融合(DIKI
)框架。具體而言,將任務(wù)特定信息注入到凍結(jié)的VLM
中,以便為每個(gè)任務(wù)高效地存儲(chǔ)已學(xué)習(xí)的知識(shí)。
論文的貢獻(xiàn)總結(jié)為三點(diǎn):
- 引入了參數(shù)高效的DIKI,以在DCIL設(shè)置下保留VLM中的預(yù)訓(xùn)練知識(shí)。它解決了信息干擾問(wèn)題,降低了對(duì)大量計(jì)算和外部數(shù)據(jù)的需求。
- 為了緩解向前遺忘,DIKI以完全殘差的方式植入新知識(shí),保持預(yù)訓(xùn)練知識(shí)不受干擾。憑借這種殘差特性,進(jìn)一步集成了分布感知融合校準(zhǔn),以提高在未見(jiàn)任務(wù)上的性能。
- 綜合實(shí)驗(yàn)表明,與以前的方法相比,DIKI以僅0.86%的訓(xùn)練參數(shù)和顯著更少的訓(xùn)練時(shí)間實(shí)現(xiàn)了最先進(jìn)的性能。
Preliminaries
- Continual learning protocol
- Vision-language models
- Task-specific prompt learning
一系列研究開(kāi)始探索在持續(xù)學(xué)習(xí)中參數(shù)高效微調(diào)的潛力,常見(jiàn)的做法是為每個(gè)任務(wù)學(xué)習(xí)和存儲(chǔ)一組輕量級(jí)提示,在持續(xù)學(xué)習(xí)階段形成一個(gè)“提示池”,表示為:
其中N是任務(wù)編號(hào),l和d分別是提示的長(zhǎng)度和特征嵌入的維度。
通過(guò)最相關(guān)的鍵,選擇相應(yīng)的提示并將其附加到凍結(jié)模型上,執(zhí)行推理過(guò)程。
Methodology
Interference-free Knowledge Integration
- Is prepending the best choice?
盡管將提示預(yù)先添加到輸入tokens
的方法因其實(shí)現(xiàn)簡(jiǎn)單而被廣泛使用,但論文發(fā)現(xiàn)它們面臨兩個(gè)方面的問(wèn)題。
- 將提示與輸入tokens進(jìn)行連接會(huì)導(dǎo)致它們?cè)谧⒁饬^(guò)程中相互作用,從而影響預(yù)訓(xùn)練知識(shí)的提取。當(dāng)測(cè)試樣本來(lái)自模型學(xué)習(xí)提示時(shí)的分布時(shí),適應(yīng)后的模型可以保持相對(duì)令人滿意的結(jié)果。然而,一旦遇到分布發(fā)生改變的樣本,這種干擾可能導(dǎo)致模型性能下降,并損失其重要的零樣本泛化能力,造成前向遺忘問(wèn)題。
- 簡(jiǎn)單地預(yù)先添加提示不可避免地增加了所有Transformer塊的token長(zhǎng)度,這在許多有token長(zhǎng)度限制的場(chǎng)景中并不理想。另外,它的可擴(kuò)展性有限:較長(zhǎng)的提示上下文可能會(huì)使文本編碼器忽視重要的類別名稱,從而導(dǎo)致文本嵌入表示不佳。
上述問(wèn)題的存在表明,基于提示調(diào)優(yōu)的方法并不滿足“殘差屬性”:期望學(xué)習(xí)到的參數(shù)應(yīng)該是與凍結(jié)主干并行的殘差路徑,補(bǔ)充新的知識(shí)而不影響關(guān)鍵的預(yù)訓(xùn)練知識(shí)。因此,論文提出了一種無(wú)干擾知識(shí)整合(Interference-free Knowledge Integration
,IKI
)方案,以最小化噪聲的方式將新學(xué)習(xí)的知識(shí)注入到預(yù)訓(xùn)練的VLM中。
- IKI mechanism
為了解決這個(gè)問(wèn)題,論文分別計(jì)算輸入tokens
內(nèi)的自注意力和提示與輸入tokens
之間的交叉注意力,如圖2(b)所示。換句話說(shuō),只訓(xùn)練一個(gè)殘差注意力分支,保持現(xiàn)有的注意力分?jǐn)?shù)不變。通過(guò)新引入的鍵和值,殘差注意力分支的輸出可以表示為:
理想情況下,一個(gè)理想的殘差塊在未在下游數(shù)據(jù)集上進(jìn)行訓(xùn)練之前,應(yīng)該不會(huì)影響原始分支,比如在初始化時(shí)。廣泛使用的方式用均勻或正態(tài)分布初始化提示,這會(huì)在沒(méi)有學(xué)習(xí)到任何知識(shí)的情況下向預(yù)訓(xùn)練的VLMs
中注入隨機(jī)噪聲。具體而言,通過(guò)將參數(shù)初始化為零,強(qiáng)制殘差注意力加法成為一個(gè)恒等函數(shù):
注意,論文僅在開(kāi)始時(shí)將值限制為零,同時(shí)保持隨機(jī)初始化。這是因?yàn)閷⒑投汲跏蓟癁榱憔仃嚂?huì)阻止通過(guò)梯度更新,從而使陷入到具有相同值的向量中。
由于零初始化更像是一種選擇而非技術(shù),一些研究在各種任務(wù)中采用了它。然而,這些工作利用零初始化來(lái)確保穩(wěn)定和漸進(jìn)的訓(xùn)練機(jī)制,而在DCIL場(chǎng)景中并不存在這一顧慮。論文認(rèn)為,零初始化對(duì)于殘差注意力設(shè)計(jì)是至關(guān)重要的,它可以以最小的噪聲將新知識(shí)注入到預(yù)訓(xùn)練的VLMs中。
Distribution-aware Integration Calibration
- Observations 在推理時(shí),會(huì)執(zhí)行公式3中描述的查詢-鍵匹配機(jī)制,以檢索適合當(dāng)前測(cè)試樣本的學(xué)習(xí)提示。這種方法是針對(duì)傳統(tǒng)的持續(xù)學(xué)習(xí)設(shè)置而設(shè)計(jì)的,僅考慮了向后遺忘。然而,當(dāng)面對(duì)來(lái)自未見(jiàn)領(lǐng)域的數(shù)據(jù)時(shí),這種簡(jiǎn)單的匹配設(shè)計(jì)被強(qiáng)制執(zhí)行,從而為測(cè)試樣本分配一個(gè)相對(duì)相似的任務(wù),盡管它們之間存在顯著的分布差距。
得益于IKI
的殘差設(shè)計(jì),與之前的方法相比,現(xiàn)在可以在這種不匹配的場(chǎng)景中引入更少的噪聲。然而,當(dāng)訓(xùn)練和測(cè)試分布之間的差異增加時(shí),模型在某種程度上的性能下降是不可避免的,這會(huì)損害VLMs
在預(yù)訓(xùn)練階段所學(xué)到的零樣本能力。
ZSCL
通過(guò)蒸餾來(lái)解決這個(gè)問(wèn)題。他們構(gòu)建了一個(gè)包含來(lái)自ImageNet的100,000張圖像的參考數(shù)據(jù)集,以在每個(gè)訓(xùn)練步驟中將原始CLIP
的預(yù)訓(xùn)練知識(shí)蒸餾到當(dāng)前模型中,明確進(jìn)行復(fù)習(xí)以避免遺忘。這種方法可能有效,但它依賴于大規(guī)模存儲(chǔ)和高計(jì)算資源,從而在實(shí)際環(huán)境中顯得不切實(shí)際。
一個(gè)直觀的解決方案是控制知識(shí)植入模型的程度。然而,之前基于前置的提示調(diào)整技術(shù)只有兩個(gè)選擇:要么追加學(xué)習(xí)到的提示,要么不對(duì)原始CLIP模型進(jìn)行任何修改。得益于IKI的優(yōu)雅殘差特性,現(xiàn)在可以控制這一并行分支的能力。
- DIKI: calibrate the integration with distribution