偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

Transformer架構(gòu)的情境學(xué)習(xí)泛化能力

發(fā)布于 2025-3-24 00:32

瀏覽

0收藏

背景

大型語言模型（LLMs）如GPT-4和LLaMA-3憑借Transformer架構(gòu)的強(qiáng)大情境學(xué)習(xí)（In-Context Learning, ICL）能力，能夠從有限的示例中快速學(xué)習(xí)并適應(yīng)新任務(wù)。然而，ICL的泛化邊界和脆弱性一直缺乏系統(tǒng)性的理解，這限制了其在實(shí)際應(yīng)用中的潛力發(fā)揮。清華大學(xué)的研究團(tuán)隊(duì)通過定義一個(gè)以任務(wù)為中心的框架，從三個(gè)維度系統(tǒng)地研究了Transformer架構(gòu)在ICL下的泛化能力，并提出了優(yōu)化訓(xùn)練數(shù)據(jù)設(shè)計(jì)的重要指導(dǎo)原則。

研究框架：三維泛化能力分析

研究團(tuán)隊(duì)提出了一個(gè)任務(wù)中心框架，將ICL的泛化能力分為三個(gè)維度：

跨問題泛化（Inter-problem Generalization）模型能否將在一類問題上學(xué)到的知識(shí)遷移到全新的問題類型上。
問題內(nèi)泛化（Intra-problem Generalization）模型在接觸了問題類型的部分實(shí)例后，能否泛化到同類問題的其他實(shí)例。
任務(wù)內(nèi)泛化（Intra-task Generalization）模型在特定任務(wù)上學(xué)習(xí)后，能否在相似測(cè)試樣本上表現(xiàn)良好。

Transformer架構(gòu)的情境學(xué)習(xí)泛化能力-AI.x社區(qū)

這一框架使研究者能夠系統(tǒng)地評(píng)估Transformer模型在不同泛化場(chǎng)景下的表現(xiàn)，從而揭示ICL能力的本質(zhì)和局限。

函數(shù)擬合實(shí)驗(yàn)：泛化能力的基礎(chǔ)驗(yàn)證

研究首先通過函數(shù)擬合任務(wù)建立了一個(gè)可控的實(shí)驗(yàn)環(huán)境。研究者將基礎(chǔ)函數(shù)（如正弦、余弦函數(shù)）定義為基本問題，將這些函數(shù)的組合（加法、乘法、復(fù)合）定義為復(fù)合問題，通過比較不同訓(xùn)練策略下模型的表現(xiàn)來評(píng)估其泛化能力。

實(shí)驗(yàn)設(shè)計(jì)

研究采用了兩種主要模型配置：

Baseline模型僅在基礎(chǔ)函數(shù)上訓(xùn)練
ComFuncLearner模型在基礎(chǔ)函數(shù)和部分組合函數(shù)上訓(xùn)練

通過比較這兩種模型在未見過的函數(shù)組合上的表現(xiàn)，研究者能夠評(píng)估模型的跨問題和問題內(nèi)泛化能力。

關(guān)鍵發(fā)現(xiàn)

凸組合泛化：當(dāng)測(cè)試模型對(duì)基礎(chǔ)函數(shù)的凸組合進(jìn)行擬合時(shí)，ComFuncLearner模型表現(xiàn)顯著優(yōu)于Baseline模型，即使ComFuncLearner只在訓(xùn)練中接觸過一種特定的凸組合。這表明Transformer模型具有強(qiáng)大的問題內(nèi)泛化能力。
乘積組合泛化：在函數(shù)乘積組合的測(cè)試中，隨著ComFuncLearner在訓(xùn)練中接觸的組合模式數(shù)量增加，其在未見過的乘積組合上的表現(xiàn)持續(xù)提升，進(jìn)一步證實(shí)了問題內(nèi)泛化能力的存在。
復(fù)合函數(shù)泛化：在更復(fù)雜的函數(shù)復(fù)合測(cè)試中，模型表現(xiàn)出類似的泛化模式，但由于復(fù)合操作的復(fù)雜性，泛化難度明顯增加。
預(yù)訓(xùn)練模型的影響：研究還發(fā)現(xiàn)，即使是經(jīng)過大規(guī)模預(yù)訓(xùn)練的LLaMA-3模型，在沒有接觸過特定組合形式的情況下，也難以實(shí)現(xiàn)跨問題泛化，但在問題內(nèi)和任務(wù)內(nèi)泛化方面表現(xiàn)出色。

這些實(shí)驗(yàn)結(jié)果一致表明，Transformer模型在ICL范式下缺乏跨問題泛化能力，但具有出色的問題內(nèi)和任務(wù)內(nèi)泛化能力。

實(shí)際應(yīng)用場(chǎng)景驗(yàn)證

為了驗(yàn)證函數(shù)擬合實(shí)驗(yàn)的發(fā)現(xiàn)在實(shí)際應(yīng)用中的有效性，研究團(tuán)隊(duì)進(jìn)一步在工具調(diào)用和翻譯任務(wù)上進(jìn)行了實(shí)驗(yàn)。

工具調(diào)用實(shí)驗(yàn)

研究者將單API調(diào)用定義為基本問題，多API調(diào)用定義為復(fù)合問題，在LLaMA-2模型上進(jìn)行了實(shí)驗(yàn)。結(jié)果顯示：

在ComFuncLearner模型（訓(xùn)練包含多API調(diào)用示例）上應(yīng)用ICL，顯著提升了模型在多API任務(wù)上的表現(xiàn)。
有趣的是，ComFuncLearner模型在簡單的單API任務(wù)上的表現(xiàn)也優(yōu)于Baseline模型，表明訓(xùn)練數(shù)據(jù)的多樣性不僅提升了復(fù)雜任務(wù)的表現(xiàn)，還能提高簡單任務(wù)的上限。

翻譯任務(wù)實(shí)驗(yàn)

研究者使用Qwen2-1.5B架構(gòu)的模型，在英語和德語翻譯任務(wù)上進(jìn)行了實(shí)驗(yàn)，將單語言到單語言翻譯定義為基本問題，混合語言輸入的翻譯定義為復(fù)合問題。結(jié)果表明：

在復(fù)雜的混合語言輸入任務(wù)上，ComFuncLearner模型明顯優(yōu)于Baseline模型，且ICL帶來的提升更為顯著。
在簡單的單語言翻譯任務(wù)上，針對(duì)特定任務(wù)微調(diào)的Baseline模型表現(xiàn)最佳，表明ICL的問題內(nèi)和跨問題泛化能力仍低于任務(wù)內(nèi)泛化能力。
當(dāng)將測(cè)試集分為簡單和困難樣本時(shí)，發(fā)現(xiàn)在復(fù)雜樣本上，ComFuncLearner模型通過ICL獲得的提升更為顯著，而Baseline模型的提升有限。

這些實(shí)際應(yīng)用實(shí)驗(yàn)進(jìn)一步證實(shí)，當(dāng)模型在訓(xùn)練階段接觸更廣泛的問題類型時(shí)，能顯著提高其通過ICL實(shí)現(xiàn)的泛化能力上限，尤其是在復(fù)雜任務(wù)上。

分布偏移下的泛化能力

研究還探討了當(dāng)ICL示例與測(cè)試樣本之間存在分布偏移時(shí)，模型的泛化能力如何受影響。實(shí)驗(yàn)考察了三種關(guān)鍵場(chǎng)景：

標(biāo)簽噪聲：在ICL示例中引入標(biāo)簽噪聲，發(fā)現(xiàn)即使只有少量噪聲樣本（如39個(gè)示例中的10個(gè)），也會(huì)顯著影響模型的泛化能力。
輸入偏差：當(dāng)ICL示例包含測(cè)試范圍之外的輸入時(shí)，模型在測(cè)試樣本上的表現(xiàn)顯著下降，即使這些額外樣本的輸出仍遵循真實(shí)函數(shù)。
輸入和輸出偏差：當(dāng)ICL示例同時(shí)包含范圍外的輸入和偏移的輸出時(shí)，模型的泛化能力進(jìn)一步惡化。

這些發(fā)現(xiàn)表明，ICL對(duì)示例分布的偏移非常敏感，這在實(shí)際應(yīng)用中需要特別注意。

研究結(jié)論與指導(dǎo)原則

通過這一系列實(shí)驗(yàn)，研究團(tuán)隊(duì)得出了幾個(gè)關(guān)鍵結(jié)論：

Transformer模型在ICL中缺乏跨問題泛化能力，但在問題內(nèi)和任務(wù)內(nèi)泛化方面表現(xiàn)出色。
即使經(jīng)過大規(guī)模預(yù)訓(xùn)練的模型，如果沒有在微調(diào)階段接觸特定的問題組合形式，也難以通過ICL實(shí)現(xiàn)跨問題泛化。
在訓(xùn)練數(shù)據(jù)中包含更多樣化的任務(wù)類型，不僅能提高模型在未見任務(wù)上的ICL泛化能力，還能提升其在已知簡單任務(wù)上的表現(xiàn)。
訓(xùn)練數(shù)據(jù)中任務(wù)多樣性的增加，能顯著放大ICL在復(fù)雜任務(wù)上帶來的改進(jìn)效果。

這些發(fā)現(xiàn)為大型語言模型的訓(xùn)練數(shù)據(jù)設(shè)計(jì)提供了重要指導(dǎo)：應(yīng)當(dāng)最大化覆蓋任務(wù)的多樣性，并在可能的情況下結(jié)合不同任務(wù)，而不是僅關(guān)注特定的目標(biāo)任務(wù)。這種策略不僅能提高模型的跨問題泛化能力，還能增強(qiáng)其在原本簡單任務(wù)上的表現(xiàn)。

研究意義與未來方向

這項(xiàng)研究系統(tǒng)地揭示了Transformer架構(gòu)在ICL下的泛化邊界，為理解大型語言模型的能力與局限提供了重要見解。研究結(jié)果表明，雖然當(dāng)前模型在跨問題泛化方面存在局限，但通過優(yōu)化訓(xùn)練數(shù)據(jù)的多樣性，可以顯著提升其泛化能力。

未來研究可以進(jìn)一步探索：

如何設(shè)計(jì)更有效的訓(xùn)練數(shù)據(jù)組合，最大化模型的泛化能力
改進(jìn)模型架構(gòu)，增強(qiáng)其跨問題泛化能力
開發(fā)更魯棒的ICL方法，減少對(duì)示例分布偏移的敏感性

這項(xiàng)研究不僅深化了我們對(duì)Transformer架構(gòu)和ICL機(jī)制的理解，也為大型語言模型的實(shí)際應(yīng)用提供了寶貴的指導(dǎo)原則，有助于釋放這些模型的全部潛力。

論文：???https://arxiv.org/abs/2503.15579???

代碼：????https://github.com/UbeCc/Generalization-of-Transformers???

本文轉(zhuǎn)載自??頓數(shù)AI??，作者：蔥蔥

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

深度學(xué)習(xí)架構(gòu)的超級(jí)英雄——BatchNorm2d

51CTO內(nèi)容精選 ? 2852瀏覽 ? 0回復(fù)
CVPR 2024 | 分割一切模型SAM泛化能力差？域適應(yīng)策略給解決了

輕薄滴假象 ? 3596瀏覽 ? 0回復(fù)
利用TimeGPT的深度學(xué)習(xí)能力實(shí)現(xiàn)預(yù)測(cè)分析的革新

51CTO內(nèi)容精選 ? 2852瀏覽 ? 0回復(fù)
港大開源圖基礎(chǔ)大模型OpenGraph: 強(qiáng)泛化能力，前向傳播預(yù)測(cè)全新數(shù)據(jù)

Crystalcxt ? 2907瀏覽 ? 0回復(fù)
用基礎(chǔ)模型指導(dǎo)特征傳播，首個(gè)泛化型圖像匹配器OmniGlue搞定未見過域

輕薄滴假象 ? 2625瀏覽 ? 0回復(fù)
高效、可泛化的高斯重建框架，只需3張視圖即可快速推理，45秒便可完成優(yōu)化

輕薄滴假象 ? 2657瀏覽 ? 0回復(fù)
GPT-4o與SQL：大模型改變自身架構(gòu)的能力有多強(qiáng)？

51CTO技術(shù)棧 ? 2517瀏覽 ? 0回復(fù)
ICML 2024 | 揭示非線形Transformer在上下文學(xué)習(xí)中學(xué)習(xí)和泛化的機(jī)制

輕薄滴假象 ? 2652瀏覽 ? 0回復(fù)
大模型解決實(shí)際問題的能力，大模型的產(chǎn)品化過程

AI探索時(shí)代 ? 2934瀏覽 ? 0回復(fù)
探索Transformer的演變：從基礎(chǔ)到高級(jí)架構(gòu)

51CTO內(nèi)容精選 ? 3178瀏覽 ? 0回復(fù)
機(jī)器學(xué)習(xí)的量子飛躍：突破人工智能能力的邊界

51CTO內(nèi)容精選 ? 2475瀏覽 ? 0回復(fù)
對(duì)比、消融、泛化實(shí)驗(yàn)保姆級(jí)教程

Tang_Lan ? 5347瀏覽 ? 0回復(fù)
清華團(tuán)隊(duì)提出精確學(xué)習(xí)新方法，提升AI泛化能力

AI論文解讀 ? 3033瀏覽 ? 0回復(fù)
Meta開源“記憶層”，重塑Transformer架構(gòu)大模型

Aceryt ? 2493瀏覽 ? 0回復(fù)
幾秒生成逼真3D場(chǎng)景，泛化媲美Stable Diffusion | 浙大&螞蟻等提出Prometheus

angel ? 2665瀏覽 ? 0回復(fù)
大模型面經(jīng)：SFT和RL如何影響模型的泛化或記憶能力？

shizhi02 ? 2697瀏覽 ? 0回復(fù)
泛AI架構(gòu)設(shè)計(jì)：理解AI云原生

魯班模錘1 ? 2552瀏覽 ? 0回復(fù)
辯論有助于從弱到強(qiáng)的泛化

AIRoobt ? 2200瀏覽 ? 0回復(fù)
一文讀懂Transformer架構(gòu)的三大變體

智駐未來 ? 2552瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

知識(shí)圖譜與LLM接口優(yōu)化：突破復(fù)雜推理的性能瓶頸 0回復(fù)

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇： GAEA：突破傳統(tǒng)地理定位的多模態(tài)對(duì)話革命

下一篇： ReSearch: 突破性強(qiáng)化學(xué)習(xí)框架實(shí)現(xiàn)大模型推理搜索能力無縫整合

社區(qū)精華內(nèi)容

目錄