Transformer作者初創(chuàng)重磅發(fā)布Transformer2!AI模型活了,動(dòng)態(tài)調(diào)整自己權(quán)重
從章魚(yú)通過(guò)改變皮膚顏色來(lái)融入周圍環(huán)境,到人類大腦在受傷后重新連接神經(jīng)網(wǎng)絡(luò),無(wú)不體現(xiàn)著那句經(jīng)典的名言——「物競(jìng)天擇,適者生存」。
然而,對(duì)于LLM來(lái)說(shuō),想要加入哪怕只是一句話的新知識(shí),都必須要再訓(xùn)練一次。
針對(duì)這一挑戰(zhàn),來(lái)自Sakana AI的研究團(tuán)隊(duì)剛剛提出了一種全新的方法——Transformer2。它可以通過(guò)實(shí)時(shí)選擇性地調(diào)整權(quán)重矩陣中的單一組件,使LLM能夠適應(yīng)未見(jiàn)過(guò)的任務(wù)。
文章鏈接:https://arxiv.org/pdf/2501.06252
代碼鏈接:https://github.com/SakanaAI/self-adaptive-llms
傳統(tǒng)上,LLM的后訓(xùn)練通過(guò)一次全面的訓(xùn)練來(lái)優(yōu)化模型,使其具備廣泛的能力。
從簡(jiǎn)化的角度,這種「one shot」微調(diào)框架看起來(lái)很理想,但在實(shí)際操作中卻很難實(shí)現(xiàn)。例如,后訓(xùn)練需要大量資源,導(dǎo)致計(jì)算成本和訓(xùn)練時(shí)間顯著增加。此外,當(dāng)引入更多樣化的數(shù)據(jù)時(shí),很難同時(shí)克服過(guò)擬合和任務(wù)干擾。
相比之下,自適應(yīng)模型提供了一種更靈活高效的方法。與其一次性訓(xùn)練LLM來(lái)應(yīng)對(duì)所有任務(wù),不如開(kāi)發(fā)專家模塊,根據(jù)需求將其離線開(kāi)發(fā)并增強(qiáng)到基礎(chǔ)LLM中。
然而,創(chuàng)建多個(gè)專家模塊,對(duì)LLM進(jìn)行微調(diào),顯著增加了需要訓(xùn)練的參數(shù)數(shù)量,而且容易過(guò)擬合,模塊之間的組合也不夠靈活。
對(duì)此,新框架通過(guò)有選擇性地調(diào)整模型權(quán)重中的關(guān)鍵組件,讓LLM能夠?qū)崟r(shí)適應(yīng)新任務(wù)。
Transformer2的名稱體現(xiàn)了它的兩步過(guò)程:首先,模型分析傳入的任務(wù),理解其需求;然后應(yīng)用任務(wù)專用的適應(yīng)性調(diào)整,生成最佳結(jié)果。
Transformer2在多種任務(wù)(如數(shù)學(xué)、編碼、推理和視覺(jué)理解)中表現(xiàn)出了顯著的進(jìn)步,在效率和特定任務(wù)的表現(xiàn)上超越了傳統(tǒng)靜態(tài)方法如LoRA,同時(shí)所需的參數(shù)大大減少。
LLM的「大腦」:權(quán)重矩陣
人類大腦通過(guò)互聯(lián)的神經(jīng)通路,存儲(chǔ)知識(shí)并處理信息。
而LLM將知識(shí)存儲(chǔ)在權(quán)重矩陣中。這些矩陣構(gòu)成了LLM的「大腦」,保存了它從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的核心內(nèi)容。
要理解這個(gè)「大腦」,并確保它能夠有效地適應(yīng)新任務(wù),需要深入分析其內(nèi)部結(jié)構(gòu)。
而奇異值分解(SVD)提供了寶貴的洞察力。
可以將SVD看作是一名外科醫(yī)生,正在對(duì)LLM的大腦進(jìn)行細(xì)致操作。這名外科醫(yī)生將LLM中存儲(chǔ)的龐大復(fù)雜的知識(shí)分解成更小、更有意義且獨(dú)立的部分(例如,針對(duì)數(shù)學(xué)、語(yǔ)言理解等的不同路徑或組件)。
SVD通過(guò)識(shí)別LLM權(quán)重矩陣中的主成分來(lái)實(shí)現(xiàn)這一目標(biāo)。
在新研究中發(fā)現(xiàn),增強(qiáng)某些成分的信號(hào),同時(shí)抑制其他部分的信號(hào),可以提高LLM在下游任務(wù)中的表現(xiàn)。
基于這一發(fā)現(xiàn),Transformer2邁出了下一步,向動(dòng)態(tài)、任務(wù)特定的適應(yīng)性發(fā)展,讓LLM能在多種復(fù)雜場(chǎng)景中表現(xiàn)得更加出色。
引入Transformer2
Transformer2通過(guò)兩步過(guò)程重新定義了LLM如何應(yīng)對(duì)多樣的任務(wù)。
其核心在于能夠動(dòng)態(tài)調(diào)整權(quán)重矩陣中的關(guān)鍵組件。
在訓(xùn)練階段,引入了奇異值微調(diào)(SVF)方法,該方法使用強(qiáng)化學(xué)習(xí)(RL)來(lái)增強(qiáng)或抑制不同「大腦」組件的信號(hào),以應(yīng)對(duì)多種下游任務(wù)。
在推理階段,新方法采用三種不同的策略來(lái)識(shí)別任務(wù)的特征,并根據(jù)任務(wù)要求調(diào)整模型的權(quán)重。
下圖概述了新方法。
左圖:使用SVD將LLM的「大腦」(即權(quán)重矩陣)分解為若干獨(dú)立的組件。
右圖:利用RL訓(xùn)練這些組件的組合以應(yīng)對(duì)不同任務(wù)。組件可能在多個(gè)任務(wù)中共享。例如,在上圖中,紫色齒輪在語(yǔ)言理解和推理任務(wù)之間是共享的。推理時(shí),首先識(shí)別任務(wù)類型,然后動(dòng)態(tài)調(diào)整組件的組合。
使用SVF和RL進(jìn)行訓(xùn)練
在訓(xùn)練階段,SVF學(xué)習(xí)一組z向量,其中每個(gè)下游任務(wù)對(duì)應(yīng)一個(gè)z向量。
每個(gè)z向量可以視作該任務(wù)的專家,它是一個(gè)緊湊的表示,指定了權(quán)重矩陣中每個(gè)組件的期望強(qiáng)度,充當(dāng)「放大器」或「衰減器」,調(diào)節(jié)不同組件對(duì)模型行為的影響。
例如,假設(shè)SVD將權(quán)重矩陣分解為五個(gè)組件[A,B,C,D,E]。
對(duì)于數(shù)學(xué)任務(wù),學(xué)習(xí)到的z向量可能是[1,0.8,0,0.3,0.5],這表明組件A對(duì)數(shù)學(xué)任務(wù)至關(guān)重要,而組件C幾乎不影響其表現(xiàn)。
對(duì)于語(yǔ)言理解任務(wù),z向量可能是[0.1,0.3,1,0.7,0.5],表明盡管C組件對(duì)數(shù)學(xué)任務(wù)的貢獻(xiàn)較小,但它對(duì)語(yǔ)言理解任務(wù)至關(guān)重要。
SVF利用RL在預(yù)定義的下游任務(wù)集上學(xué)習(xí)這些z向量。
學(xué)習(xí)到的z向量使Transformer2能夠適應(yīng)各種新的下游任務(wù),同時(shí)僅引入最少量的附加參數(shù)(即z向量)。
自適應(yīng)性
在推理階段,新框架使用兩階段適應(yīng)策略,有效地結(jié)合了任務(wù)專用的z向量。
在第一次推理階段,給定任務(wù)或單個(gè)輸入提示,Transformer2通過(guò)以下三種適應(yīng)方法之一來(lái)分析測(cè)試時(shí)的條件。
在第二階段,Transformer2結(jié)合這些z向量來(lái)調(diào)節(jié)權(quán)重,從而生成最適合新設(shè)置的最終響應(yīng)。
新研究總結(jié)了三種任務(wù)檢測(cè)/適應(yīng)方法如下:
- 基于提示的適應(yīng):使用專門(mén)設(shè)計(jì)的適應(yīng)性提示,對(duì)任務(wù)分類(如數(shù)學(xué)、編程),并選擇一個(gè)預(yù)訓(xùn)練的z向量。
- 基于分類器的適應(yīng):使用SVF訓(xùn)練的任務(wù)分類器在推理時(shí)識(shí)別任務(wù),并選擇合適的z向量。
- 少樣本適應(yīng):通過(guò)加權(quán)插值結(jié)合多個(gè)預(yù)訓(xùn)練的z向量。簡(jiǎn)單的優(yōu)化算法根據(jù)在少樣本評(píng)估集上的表現(xiàn)調(diào)整這些權(quán)重。
這三種方法共同確保了Transformer2能夠?qū)崿F(xiàn)強(qiáng)大且高效的任務(wù)適應(yīng),為其在多種場(chǎng)景下的出色表現(xiàn)奠定了基礎(chǔ)。
主要結(jié)果
作者將這些方法應(yīng)用于Llama和Mistral LLM,在廣泛的任務(wù)上進(jìn)行測(cè)試,包括數(shù)學(xué)(GSM8K,MATH)、代碼(MBPP-Pro,HumanEval)、推理(ARC-Easy,ARC-Challenge)和視覺(jué)問(wèn)答(TextVQA,OKVQA)。
SVF測(cè)評(píng)
首先通過(guò)SVF在這些任務(wù)上獲取z向量,并與LoRA進(jìn)行了比較。
下表中的結(jié)果表明,SVF在文本任務(wù)上優(yōu)于LoRA,特別是在GSM8K任務(wù)上有顯著提升。這可以歸因于RL訓(xùn)練目標(biāo)。與LoRA的微調(diào)方法不同,RL不要求每個(gè)問(wèn)題都有「完美解決方案」。右側(cè)的直方圖也展示了SVF在視覺(jué)領(lǐng)域的驚人表現(xiàn)。
未見(jiàn)過(guò)的任務(wù)
隨后將適應(yīng)框架與LoRA在未見(jiàn)過(guò)的任務(wù)上進(jìn)行對(duì)比評(píng)估,特別是在MATH、HumanEval和ARC-Challenge任務(wù)上。
下表左側(cè)展示了,隨著方法復(fù)雜度的提升,新架構(gòu)的策略在所有任務(wù)上都取得了逐步的性能提升。
在未見(jiàn)任務(wù)上的測(cè)試集表現(xiàn)。左圖:在未見(jiàn)任務(wù)上的自適應(yīng)。右圖:學(xué)習(xí)到的z向量插值權(quán)重。
而右圖分析了少樣本(few-shot)學(xué)習(xí)如何結(jié)合不同的z向量來(lái)處理任務(wù)。
在解決MATH問(wèn)題時(shí),出乎意料的是,模型并非僅依賴于其專門(mén)為GSM8K(數(shù)學(xué))任務(wù)訓(xùn)練的z向量。這表明,復(fù)雜的數(shù)學(xué)推理任務(wù)有益于結(jié)合數(shù)學(xué)、編程和邏輯推理能力。
在其他任務(wù)和模型中也觀察到了類似的意外組合,凸顯了該框架能夠綜合多種專業(yè)知識(shí),從而實(shí)現(xiàn)最佳表現(xiàn)。
模型知識(shí)轉(zhuǎn)移
最后,作者探索了一個(gè)挑戰(zhàn)傳統(tǒng)AI發(fā)展理念的有趣問(wèn)題:能否將一個(gè)模型的知識(shí)轉(zhuǎn)移到另一個(gè)模型中?令人興奮的是,將Llama學(xué)習(xí)到的z向量轉(zhuǎn)移到Mistral時(shí),作者觀察到后者在大多數(shù)任務(wù)上表現(xiàn)出提升。下表中給出了詳細(xì)的結(jié)果。
盡管這些發(fā)現(xiàn)具有前景,但需要注意的是,這兩個(gè)模型具有相似的架構(gòu),這可能是它們能夠兼容的原因。
不同AI模型之間是否能實(shí)現(xiàn)知識(shí)共享仍然是一個(gè)懸而未決的問(wèn)題。
然而,這些結(jié)果暗示了一個(gè)令人興奮的可能性:打開(kāi)特定任務(wù)技能的解耦與重用的大門(mén),為更新的、更大的模型提供支持。
「活體智能」
但這僅僅是開(kāi)始。Transformer2為呈現(xiàn)了未來(lái)的場(chǎng)景:AI系統(tǒng)不再是為固定任務(wù)訓(xùn)練的靜態(tài)實(shí)體。相反,它們將體現(xiàn)「活體智能」,即不斷學(xué)習(xí)、演化和適應(yīng)的模型。
像Transformer2這樣的自適應(yīng)系統(tǒng)彌合了靜態(tài)AI與「活體智能」之間的差距,為高效、個(gè)性化、完全集成的AI工具鋪平道路,這些工具將推動(dòng)各個(gè)行業(yè)的進(jìn)步以及我們?nèi)粘I畹陌l(fā)展。
作者介紹
共同一作Qi Sun,目前是東京工業(yè)大學(xué)研究助理。他從2023年開(kāi)始在Sakana AI做兼職研究員。2024年10月,他獲得了東京科學(xué)大學(xué)的博士學(xué)位。此前,他在東京工業(yè)大學(xué)獲得碩士學(xué)位,在大連理工大學(xué)獲得學(xué)士學(xué)位。
共同一作Yujin Tang,2024年1月起擔(dān)任Sakana AI的研究科學(xué)家,研究領(lǐng)域?yàn)閺?qiáng)化學(xué)習(xí)和機(jī)器人。此前在DeepMind、谷歌等公司從事研發(fā)工作。他在東京大學(xué)獲得博士學(xué)位,在早稻田大學(xué)獲得碩士學(xué)位,在上海交通大學(xué)獲得學(xué)士學(xué)位。