谷歌最新研究:大模型為何「學(xué)得會(huì)」卻「用不好」? 精華
圖片
你是否遇到過這樣的情況:GPT、Claude等大模型在對(duì)話時(shí)很聰明,但經(jīng)過微調(diào)后卻變得「變笨」了?
這不是你的錯(cuò)覺,而是AI學(xué)習(xí)的一個(gè)有趣現(xiàn)象。最近,谷歌研究團(tuán)隊(duì)發(fā)表了一篇重磅論文,揭示了大模型兩種學(xué)習(xí)方式之間的巨大差異。
現(xiàn)在一起來探索這個(gè)AI世界中的奇妙現(xiàn)象:為什么有時(shí)候「上下文學(xué)習(xí)」比「微調(diào)學(xué)習(xí)」更靈活?
圖片
1、大模型的兩種學(xué)習(xí)方式,哪個(gè)更強(qiáng)?
大模型主要通過兩種方式學(xué)習(xí)新知識(shí):
(1)上下文學(xué)習(xí)(In-context Learning):在對(duì)話中給模型幾個(gè)例子,它能立刻舉一反三
(2)微調(diào)學(xué)習(xí)(Fine-tuning):通過大量訓(xùn)練數(shù)據(jù)調(diào)整模型參數(shù),使其適應(yīng)新任務(wù)
直覺上,我們會(huì)認(rèn)為微調(diào)應(yīng)該效果更好,畢竟它直接修改了模型的「大腦」。但谷歌的研究發(fā)現(xiàn),在某些情況下,上下文學(xué)習(xí)的泛化能力竟然比微調(diào)更強(qiáng)!
2、「微調(diào)陷阱」:AI為何學(xué)得會(huì)卻用不好?
谷歌研究人員發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:當(dāng)你教大模型"B是A的母親"這個(gè)事實(shí)后,模型能回答"誰是B的母親?",但卻無法回答"誰是A的兒子?"
這就是著名的「反轉(zhuǎn)詛咒」(Reversal Curse)問題。盡管兩個(gè)問題本質(zhì)上是同一信息的不同表達(dá)方式,但微調(diào)后的模型卻無法完成這種簡(jiǎn)單的邏輯轉(zhuǎn)換。
研究通過精心設(shè)計(jì)的實(shí)驗(yàn)證明:微調(diào)學(xué)習(xí)在以下幾種情況下表現(xiàn)不佳:
(1)關(guān)系反轉(zhuǎn):如"狗是哺乳動(dòng)物" → "哺乳動(dòng)物包括狗"
(2)三段論推理:如"狗是哺乳動(dòng)物,哺乳動(dòng)物是溫血?jiǎng)游? → "狗是溫血?jiǎng)游?
(3)知識(shí)組合:需要將多個(gè)事實(shí)串聯(lián)起來得出新結(jié)論
而同樣的任務(wù),當(dāng)所有訓(xùn)練數(shù)據(jù)放在對(duì)話上下文中時(shí),模型卻能輕松完成!
3、突破瓶頸:如何讓微調(diào)也能「靈活思考」?
既然上下文學(xué)習(xí)和微調(diào)各有優(yōu)勢(shì),能否結(jié)合兩者優(yōu)點(diǎn)?
谷歌研究人員提出了一個(gè)巧妙的解決方案:用上下文推理來增強(qiáng)微調(diào)數(shù)據(jù)。
具體做法是:
(1)局部增強(qiáng):對(duì)每條訓(xùn)練數(shù)據(jù)進(jìn)行改寫和反轉(zhuǎn),增加表達(dá)多樣性
(2)全局增強(qiáng):讓模型基于整個(gè)訓(xùn)練集做推理,生成新的邏輯關(guān)系
(3)句子分割:將多句文檔拆分為獨(dú)立的訓(xùn)練樣本,打破固有關(guān)聯(lián)
這種方法在實(shí)驗(yàn)中:增強(qiáng)后的微調(diào)模型不僅克服了「反轉(zhuǎn)詛咒」,在某些測(cè)試中甚至超過了上下文學(xué)習(xí)!
圖片
圖片
4、結(jié)語
這項(xiàng)研究不僅解釋了大模型學(xué)習(xí)的奇怪現(xiàn)象,更為AI應(yīng)用提供了實(shí)用指導(dǎo):
(1)對(duì)AI開發(fā)者:微調(diào)模型前,先用上下文推理增強(qiáng)訓(xùn)練數(shù)據(jù),能顯著提升泛化能力
(2)對(duì)AI研究:揭示了不同學(xué)習(xí)方式的歸納偏好差異,為理解大模型內(nèi)部機(jī)制提供線索
(3)對(duì)認(rèn)知科學(xué):呼應(yīng)了「思考學(xué)習(xí)」理論,即通過計(jì)算可以提高信息的可訪問性
更廣泛地看,這項(xiàng)研究也啟示我們:AI的學(xué)習(xí)過程與人類學(xué)習(xí)有著驚人的相似之處。人類學(xué)習(xí)新知識(shí)時(shí),也會(huì)通過類比、推理和重新組織等方式,使知識(shí)變得更加靈活可用。
當(dāng)我們使用ChatGPT等大模型時(shí),總會(huì)驚嘆于它們?cè)趯?duì)話中展現(xiàn)的靈活推理能力。但當(dāng)我們嘗試通過微調(diào)讓模型掌握特定領(lǐng)域知識(shí)時(shí),卻常常發(fā)現(xiàn)效果不盡如人意。
谷歌這項(xiàng)研究揭示了其中的根本原因:微調(diào)和上下文學(xué)習(xí)在神經(jīng)網(wǎng)絡(luò)中激活了不同的信息處理路徑。
未來,隨著「思考增強(qiáng)訓(xùn)練」等技術(shù)的發(fā)展,我們有望開發(fā)出兼具上下文學(xué)習(xí)靈活性和微調(diào)效率的新一代AI系統(tǒng)。這將極大推動(dòng)AI在醫(yī)療診斷、法律咨詢、教育輔導(dǎo)等需要靈活推理的領(lǐng)域的應(yīng)用。
論文標(biāo)題:On the generalization of language models from in-context learning and finetuning: a controlled study
論文鏈接:https://arxiv.org/abs/2505.00661
本文轉(zhuǎn)載自????AI帝國(guó)????,作者:無影寺
