偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<u id="ticen"></u>

<pre id="ticen"></pre>

<output id="ticen"><big id="ticen"><strike id="ticen"></strike></big></output>

<ol id="ticen"><var id="ticen"></var></ol>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Transformer作者初創(chuàng)重磅發(fā)布Transformer2！AI模型活了，動(dòng)態(tài)調(diào)整自己權(quán)重

作者：新智元 2025-01-16 08:30:00

人工智能新聞

Sakana AI發(fā)布了Transformer2新方法，通過(guò)奇異值微調(diào)和權(quán)重自適應(yīng)策略，提高了LLM的泛化和自適應(yīng)能力。新方法在文本任務(wù)上優(yōu)于LoRA；即便是從未見(jiàn)過(guò)的任務(wù)，比如MATH、HumanEval和ARC-Challenge等，性能也都取得了提升。

從章魚(yú)通過(guò)改變皮膚顏色來(lái)融入周圍環(huán)境，到人類大腦在受傷后重新連接神經(jīng)網(wǎng)絡(luò)，無(wú)不體現(xiàn)著那句經(jīng)典的名言——「物競(jìng)天擇，適者生存」。

然而，對(duì)于LLM來(lái)說(shuō)，想要加入哪怕只是一句話的新知識(shí)，都必須要再訓(xùn)練一次。

針對(duì)這一挑戰(zhàn)，來(lái)自Sakana AI的研究團(tuán)隊(duì)剛剛提出了一種全新的方法——Transformer2。它可以通過(guò)實(shí)時(shí)選擇性地調(diào)整權(quán)重矩陣中的單一組件，使LLM能夠適應(yīng)未見(jiàn)過(guò)的任務(wù)。

文章鏈接：https://arxiv.org/pdf/2501.06252

代碼鏈接：https://github.com/SakanaAI/self-adaptive-llms

傳統(tǒng)上，LLM的后訓(xùn)練通過(guò)一次全面的訓(xùn)練來(lái)優(yōu)化模型，使其具備廣泛的能力。

從簡(jiǎn)化的角度，這種「one shot」微調(diào)框架看起來(lái)很理想，但在實(shí)際操作中卻很難實(shí)現(xiàn)。例如，后訓(xùn)練需要大量資源，導(dǎo)致計(jì)算成本和訓(xùn)練時(shí)間顯著增加。此外，當(dāng)引入更多樣化的數(shù)據(jù)時(shí)，很難同時(shí)克服過(guò)擬合和任務(wù)干擾。

相比之下，自適應(yīng)模型提供了一種更靈活高效的方法。與其一次性訓(xùn)練LLM來(lái)應(yīng)對(duì)所有任務(wù)，不如開(kāi)發(fā)專家模塊，根據(jù)需求將其離線開(kāi)發(fā)并增強(qiáng)到基礎(chǔ)LLM中。

然而，創(chuàng)建多個(gè)專家模塊，對(duì)LLM進(jìn)行微調(diào)，顯著增加了需要訓(xùn)練的參數(shù)數(shù)量，而且容易過(guò)擬合，模塊之間的組合也不夠靈活。

對(duì)此，新框架通過(guò)有選擇性地調(diào)整模型權(quán)重中的關(guān)鍵組件，讓LLM能夠?qū)崟r(shí)適應(yīng)新任務(wù)。

Transformer2的名稱體現(xiàn)了它的兩步過(guò)程：首先，模型分析傳入的任務(wù)，理解其需求；然后應(yīng)用任務(wù)專用的適應(yīng)性調(diào)整，生成最佳結(jié)果。

Transformer2在多種任務(wù)（如數(shù)學(xué)、編碼、推理和視覺(jué)理解）中表現(xiàn)出了顯著的進(jìn)步，在效率和特定任務(wù)的表現(xiàn)上超越了傳統(tǒng)靜態(tài)方法如LoRA，同時(shí)所需的參數(shù)大大減少。

LLM的「大腦」：權(quán)重矩陣

人類大腦通過(guò)互聯(lián)的神經(jīng)通路，存儲(chǔ)知識(shí)并處理信息。

而LLM將知識(shí)存儲(chǔ)在權(quán)重矩陣中。這些矩陣構(gòu)成了LLM的「大腦」，保存了它從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的核心內(nèi)容。

要理解這個(gè)「大腦」，并確保它能夠有效地適應(yīng)新任務(wù)，需要深入分析其內(nèi)部結(jié)構(gòu)。

而奇異值分解（SVD）提供了寶貴的洞察力。

可以將SVD看作是一名外科醫(yī)生，正在對(duì)LLM的大腦進(jìn)行細(xì)致操作。這名外科醫(yī)生將LLM中存儲(chǔ)的龐大復(fù)雜的知識(shí)分解成更小、更有意義且獨(dú)立的部分（例如，針對(duì)數(shù)學(xué)、語(yǔ)言理解等的不同路徑或組件）。

SVD通過(guò)識(shí)別LLM權(quán)重矩陣中的主成分來(lái)實(shí)現(xiàn)這一目標(biāo)。

在新研究中發(fā)現(xiàn)，增強(qiáng)某些成分的信號(hào)，同時(shí)抑制其他部分的信號(hào)，可以提高LLM在下游任務(wù)中的表現(xiàn)。

基于這一發(fā)現(xiàn)，Transformer2邁出了下一步，向動(dòng)態(tài)、任務(wù)特定的適應(yīng)性發(fā)展，讓LLM能在多種復(fù)雜場(chǎng)景中表現(xiàn)得更加出色。

引入Transformer2

Transformer2通過(guò)兩步過(guò)程重新定義了LLM如何應(yīng)對(duì)多樣的任務(wù)。

其核心在于能夠動(dòng)態(tài)調(diào)整權(quán)重矩陣中的關(guān)鍵組件。

在訓(xùn)練階段，引入了奇異值微調(diào)（SVF）方法，該方法使用強(qiáng)化學(xué)習(xí)（RL）來(lái)增強(qiáng)或抑制不同「大腦」組件的信號(hào)，以應(yīng)對(duì)多種下游任務(wù)。

在推理階段，新方法采用三種不同的策略來(lái)識(shí)別任務(wù)的特征，并根據(jù)任務(wù)要求調(diào)整模型的權(quán)重。

下圖概述了新方法。

左圖：使用SVD將LLM的「大腦」（即權(quán)重矩陣）分解為若干獨(dú)立的組件。

右圖：利用RL訓(xùn)練這些組件的組合以應(yīng)對(duì)不同任務(wù)。組件可能在多個(gè)任務(wù)中共享。例如，在上圖中，紫色齒輪在語(yǔ)言理解和推理任務(wù)之間是共享的。推理時(shí)，首先識(shí)別任務(wù)類型，然后動(dòng)態(tài)調(diào)整組件的組合。

使用SVF和RL進(jìn)行訓(xùn)練

在訓(xùn)練階段，SVF學(xué)習(xí)一組z向量，其中每個(gè)下游任務(wù)對(duì)應(yīng)一個(gè)z向量。

每個(gè)z向量可以視作該任務(wù)的專家，它是一個(gè)緊湊的表示，指定了權(quán)重矩陣中每個(gè)組件的期望強(qiáng)度，充當(dāng)「放大器」或「衰減器」，調(diào)節(jié)不同組件對(duì)模型行為的影響。

例如，假設(shè)SVD將權(quán)重矩陣分解為五個(gè)組件[A，B，C，D，E]。

對(duì)于數(shù)學(xué)任務(wù)，學(xué)習(xí)到的z向量可能是[1，0.8，0，0.3，0.5]，這表明組件A對(duì)數(shù)學(xué)任務(wù)至關(guān)重要，而組件C幾乎不影響其表現(xiàn)。

對(duì)于語(yǔ)言理解任務(wù)，z向量可能是[0.1，0.3，1，0.7，0.5]，表明盡管C組件對(duì)數(shù)學(xué)任務(wù)的貢獻(xiàn)較小，但它對(duì)語(yǔ)言理解任務(wù)至關(guān)重要。

SVF利用RL在預(yù)定義的下游任務(wù)集上學(xué)習(xí)這些z向量。

學(xué)習(xí)到的z向量使Transformer2能夠適應(yīng)各種新的下游任務(wù)，同時(shí)僅引入最少量的附加參數(shù)（即z向量）。

自適應(yīng)性

在推理階段，新框架使用兩階段適應(yīng)策略，有效地結(jié)合了任務(wù)專用的z向量。

在第一次推理階段，給定任務(wù)或單個(gè)輸入提示，Transformer2通過(guò)以下三種適應(yīng)方法之一來(lái)分析測(cè)試時(shí)的條件。

在第二階段，Transformer2結(jié)合這些z向量來(lái)調(diào)節(jié)權(quán)重，從而生成最適合新設(shè)置的最終響應(yīng)。

新研究總結(jié)了三種任務(wù)檢測(cè)/適應(yīng)方法如下：

基于提示的適應(yīng)：使用專門(mén)設(shè)計(jì)的適應(yīng)性提示，對(duì)任務(wù)分類（如數(shù)學(xué)、編程），并選擇一個(gè)預(yù)訓(xùn)練的z向量。
基于分類器的適應(yīng)：使用SVF訓(xùn)練的任務(wù)分類器在推理時(shí)識(shí)別任務(wù)，并選擇合適的z向量。
少樣本適應(yīng)：通過(guò)加權(quán)插值結(jié)合多個(gè)預(yù)訓(xùn)練的z向量。簡(jiǎn)單的優(yōu)化算法根據(jù)在少樣本評(píng)估集上的表現(xiàn)調(diào)整這些權(quán)重。

這三種方法共同確保了Transformer2能夠?qū)崿F(xiàn)強(qiáng)大且高效的任務(wù)適應(yīng)，為其在多種場(chǎng)景下的出色表現(xiàn)奠定了基礎(chǔ)。

主要結(jié)果

作者將這些方法應(yīng)用于Llama和Mistral LLM，在廣泛的任務(wù)上進(jìn)行測(cè)試，包括數(shù)學(xué)（GSM8K，MATH）、代碼（MBPP-Pro，HumanEval）、推理（ARC-Easy，ARC-Challenge）和視覺(jué)問(wèn)答（TextVQA，OKVQA）。

SVF測(cè)評(píng)

首先通過(guò)SVF在這些任務(wù)上獲取z向量，并與LoRA進(jìn)行了比較。

下表中的結(jié)果表明，SVF在文本任務(wù)上優(yōu)于LoRA，特別是在GSM8K任務(wù)上有顯著提升。這可以歸因于RL訓(xùn)練目標(biāo)。與LoRA的微調(diào)方法不同，RL不要求每個(gè)問(wèn)題都有「完美解決方案」。右側(cè)的直方圖也展示了SVF在視覺(jué)領(lǐng)域的驚人表現(xiàn)。

未見(jiàn)過(guò)的任務(wù)

隨后將適應(yīng)框架與LoRA在未見(jiàn)過(guò)的任務(wù)上進(jìn)行對(duì)比評(píng)估，特別是在MATH、HumanEval和ARC-Challenge任務(wù)上。

下表左側(cè)展示了，隨著方法復(fù)雜度的提升，新架構(gòu)的策略在所有任務(wù)上都取得了逐步的性能提升。

在未見(jiàn)任務(wù)上的測(cè)試集表現(xiàn)。左圖：在未見(jiàn)任務(wù)上的自適應(yīng)。右圖：學(xué)習(xí)到的z向量插值權(quán)重。

而右圖分析了少樣本（few-shot）學(xué)習(xí)如何結(jié)合不同的z向量來(lái)處理任務(wù)。

在解決MATH問(wèn)題時(shí)，出乎意料的是，模型并非僅依賴于其專門(mén)為GSM8K（數(shù)學(xué)）任務(wù)訓(xùn)練的z向量。這表明，復(fù)雜的數(shù)學(xué)推理任務(wù)有益于結(jié)合數(shù)學(xué)、編程和邏輯推理能力。

在其他任務(wù)和模型中也觀察到了類似的意外組合，凸顯了該框架能夠綜合多種專業(yè)知識(shí)，從而實(shí)現(xiàn)最佳表現(xiàn)。

模型知識(shí)轉(zhuǎn)移

最后，作者探索了一個(gè)挑戰(zhàn)傳統(tǒng)AI發(fā)展理念的有趣問(wèn)題：能否將一個(gè)模型的知識(shí)轉(zhuǎn)移到另一個(gè)模型中？令人興奮的是，將Llama學(xué)習(xí)到的z向量轉(zhuǎn)移到Mistral時(shí)，作者觀察到后者在大多數(shù)任務(wù)上表現(xiàn)出提升。下表中給出了詳細(xì)的結(jié)果。

盡管這些發(fā)現(xiàn)具有前景，但需要注意的是，這兩個(gè)模型具有相似的架構(gòu)，這可能是它們能夠兼容的原因。

不同AI模型之間是否能實(shí)現(xiàn)知識(shí)共享仍然是一個(gè)懸而未決的問(wèn)題。

然而，這些結(jié)果暗示了一個(gè)令人興奮的可能性：打開(kāi)特定任務(wù)技能的解耦與重用的大門(mén)，為更新的、更大的模型提供支持。

「活體智能」

但這僅僅是開(kāi)始。Transformer2為呈現(xiàn)了未來(lái)的場(chǎng)景：AI系統(tǒng)不再是為固定任務(wù)訓(xùn)練的靜態(tài)實(shí)體。相反，它們將體現(xiàn)「活體智能」，即不斷學(xué)習(xí)、演化和適應(yīng)的模型。

像Transformer2這樣的自適應(yīng)系統(tǒng)彌合了靜態(tài)AI與「活體智能」之間的差距，為高效、個(gè)性化、完全集成的AI工具鋪平道路，這些工具將推動(dòng)各個(gè)行業(yè)的進(jìn)步以及我們?nèi)粘Ｉ畹陌l(fā)展。

作者介紹

共同一作Qi Sun，目前是東京工業(yè)大學(xué)研究助理。他從2023年開(kāi)始在Sakana AI做兼職研究員。2024年10月，他獲得了東京科學(xué)大學(xué)的博士學(xué)位。此前，他在東京工業(yè)大學(xué)獲得碩士學(xué)位，在大連理工大學(xué)獲得學(xué)士學(xué)位。

共同一作Yujin Tang，2024年1月起擔(dān)任Sakana AI的研究科學(xué)家，研究領(lǐng)域?yàn)閺?qiáng)化學(xué)習(xí)和機(jī)器人。此前在DeepMind、谷歌等公司從事研發(fā)工作。他在東京大學(xué)獲得博士學(xué)位，在早稻田大學(xué)獲得碩士學(xué)位，在上海交通大學(xué)獲得學(xué)士學(xué)位。

責(zé)任編輯：張燕妮來(lái)源：新智元

LLM AI 訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<tr id="h88af"><fieldset id="h88af"></fieldset></tr>

<pre id="h88af"><strike id="h88af"></strike></pre>

<rt id="h88af"></rt><abbr id="h88af"></abbr>