偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)

發(fā)布于 2025-6-4 06:52
瀏覽
0收藏

?核心觀點(diǎn)

1. 大語(yǔ)言模型推理的定義

常規(guī)觀點(diǎn):大語(yǔ)言模型(LLM)的推理被視為類似人類的高級(jí)能力,定義模糊,常引發(fā)爭(zhēng)論。  

Zhou的觀點(diǎn):推理爭(zhēng)論因缺乏明確定義而無(wú)意義;Zhou將推理定義為輸入與輸出之間的中間Token(推理步驟),僅是模型輸出的可預(yù)測(cè)行為,而非神秘過程。

2. 預(yù)訓(xùn)練模型的推理能力

常規(guī)觀點(diǎn):預(yù)訓(xùn)練模型需通過思維鏈(CoT)提示或微調(diào)才能具備推理能力。  

Zhou的觀點(diǎn):預(yù)訓(xùn)練模型已具備推理能力,推理路徑存在于輸出空間中;問題在于解碼方式,例如通過探索更多候選而非貪心解碼即可挖掘推理,無(wú)需額外提示或微調(diào)。

3. 思維鏈提示的作用

常規(guī)觀點(diǎn):思維鏈提示通過教模型逐步思考來(lái)啟用或增強(qiáng)推理能力。  

Zhou的觀點(diǎn):思維鏈提示不增加推理能力,而是重塑輸出分布,將已存在的含推理步驟的響應(yīng)提升至首位,使貪心解碼可直接選擇,屬于解碼優(yōu)化而非能力增強(qiáng)。

4. 機(jī)器生成數(shù)據(jù)優(yōu)于人類數(shù)據(jù)

常規(guī)觀點(diǎn):人類標(biāo)注數(shù)據(jù)是微調(diào)模型的最佳選擇,尤其適用于復(fù)雜推理任務(wù)。  

Zhou的觀點(diǎn):在迭代微調(diào)中,機(jī)器生成的數(shù)據(jù)優(yōu)于人類數(shù)據(jù),因其分布更貼近訓(xùn)練目標(biāo),直接優(yōu)化輸出質(zhì)量(如數(shù)學(xué)問題的正確性),符合機(jī)器學(xué)習(xí)第一原理。

5. 推理擴(kuò)展的方向

常規(guī)觀點(diǎn):提升推理能力主要靠擴(kuò)大模型規(guī)模(如參數(shù)數(shù)量)。  

Zhou的觀點(diǎn):理論表明,固定大小的Transformer模型通過生成足夠長(zhǎng)的思維鏈(中間Token)即可解決布爾電路問題,擴(kuò)展推理步驟長(zhǎng)度而非模型規(guī)模是關(guān)鍵方向。

6. 自一致性的適用條件

常規(guī)觀點(diǎn):自一致性(Self-Consistency)是一種通用技術(shù),通過多次采樣并選擇最常見答案提升模型可靠性。  

Zhou的觀點(diǎn):自一致性僅在模型生成中間推理步驟時(shí)有用,通過對(duì)推理路徑的概率邊緣化選擇最可能答案;若直接輸出答案,只需查看模型概率,無(wú)需自一致性。

7. 推理無(wú)需依賴搜索

常規(guī)觀點(diǎn):推理任務(wù)(如數(shù)學(xué)或邏輯問題)依賴類似經(jīng)典AI的窮舉搜索。  

Zhou的觀點(diǎn):LLM推理從Token到Token的預(yù)測(cè)中涌現(xiàn),無(wú)需顯式搜索;學(xué)習(xí)是可擴(kuò)展的核心,搜索僅作為輔助工具而非推理本質(zhì)。

8. 迭代微調(diào)的局限性

常規(guī)觀點(diǎn):迭代微調(diào)是提升推理能力的通用方法,適用于大多數(shù)任務(wù)。  

Zhou的觀點(diǎn):迭代微調(diào)依賴自動(dòng)驗(yàn)證器,僅適用于可驗(yàn)證任務(wù)(如數(shù)學(xué)),對(duì)不可自動(dòng)驗(yàn)證的任務(wù)(如創(chuàng)意寫作)效果有限,限制其通用性。

9. 驗(yàn)證器的重要性

常規(guī)觀點(diǎn):強(qiáng)化學(xué)習(xí)算法(如PPO)是提升推理能力的關(guān)鍵技術(shù)。  

Zhou的觀點(diǎn):驗(yàn)證器是迭代微調(diào)和AI訓(xùn)練的核心,遠(yuǎn)超復(fù)雜算法的重要性;可靠驗(yàn)證器決定數(shù)據(jù)質(zhì)量和模型性能,是AI成功的基石。

10. AGI時(shí)間表的懷疑

常規(guī)觀點(diǎn):AI社區(qū)普遍樂觀,認(rèn)為通用人工智能(AGI)可能在2-5年內(nèi)實(shí)現(xiàn)。  

Zhou的觀點(diǎn):Zhou對(duì)AGI在短期內(nèi)實(shí)現(xiàn)的說法持懷疑態(tài)度,認(rèn)為當(dāng)前方法有顯著局限,真正的挑戰(zhàn)是避免研究停滯而非過快達(dá)到AGI。

大語(yǔ)言模型推理(Reasoning)的定義


斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

很高興看到大家已經(jīng)認(rèn)為L(zhǎng)LM很強(qiáng)大。你們可能會(huì)好奇,我對(duì)LLM是否能推理的看法是什么?我的答案是:這取決于推理(reasoning)的定義。今天我們將圍繞一個(gè)具體的推理定義展開討論。我從不參與關(guān)于LLM能否推理的爭(zhēng)論,因?yàn)闆]有明確的推理定義,這些討論毫無(wú)意義。在LLM推理中,我們特指輸入與輸出之間的中間Token(intermediate tokens),這些Token被稱為推理或中間步驟。

這個(gè)概念并不新鮮。早在2017年,Deman發(fā)表了一篇論文,探討如何利用中間Token解決數(shù)學(xué)問題。當(dāng)時(shí),學(xué)術(shù)界對(duì)AlphaGo和AlphaZero的熱情高漲,但這篇論文極具開創(chuàng)性。如果你還沒讀過,我強(qiáng)烈推薦一讀。他們引入了自然語(yǔ)言來(lái)解決數(shù)學(xué)問題,而當(dāng)時(shí)文獻(xiàn)中普遍采用符號(hào)方法或搜索。這在神經(jīng)符號(hào)(neurosymbolic)研究中也很常見,通常使用中間過程來(lái)解決推理問題。

舉個(gè)例子說明LLM推理的用法。當(dāng)我在Google Brain創(chuàng)立推理團(tuán)隊(duì)時(shí),我設(shè)計(jì)了一個(gè)任務(wù):Last Letter Concatenation(末字母拼接)。這個(gè)任務(wù)作為激勵(lì)示例,可以用Transformer模型解決。例如,輸入“artificial intelligence”,輸出是將每個(gè)單詞末字母拼接的結(jié)果。如果沒有推理過程,模型可能直接輸出“LE”。但若有推理過程,模型會(huì)輸出:“‘a(chǎn)rtificial’的末字母是L,‘intelligence’的末字母是E,拼接L和E得到LE?!边@里高亮的文本就是推理(reasoning),這就是我所說的推理。

如果你熟悉程序合成或神經(jīng)符號(hào)推理,這個(gè)任務(wù)設(shè)計(jì)并不意外。我也嘗試過其他方案,比如拼接首字母,但所有大型模型都能輕松解決,因?yàn)榫W(wǎng)上有大量首字母拼接的例子,模型早已學(xué)會(huì)。但當(dāng)我改為末字母拼接時(shí),所有模型都失敗了。很多人會(huì)說:“這很自然,我們需要中間步驟,就像人類一樣?!比缃馤LM看似與人類很像,但作為研究者,我們要牢記:LLM只是預(yù)測(cè)模型(predictive models),不是人類。保持這個(gè)認(rèn)知有助于理解許多新技術(shù)。

推理的理論基礎(chǔ)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

為什么中間Token或推理重要?我們與斯坦福的Tima教授及其學(xué)生合作開展了理論研究。研究表明,對(duì)于任何可以用大小為\( T \)的布爾電路解決的問題,固定大小的Transformer模型通過生成\( O(T) \)個(gè)中間Token即可解決。這是一個(gè)強(qiáng)有力的結(jié)果。這里的“大小”指邏輯門的數(shù)量。例如,若使用GPU集群,\( T \)可能達(dá)到百萬(wàn)、十億甚至萬(wàn)億。如果直接生成最終答案,模型要么需要極深的網(wǎng)絡(luò),要么根本無(wú)法解決問題。這就是我們從理論角度理解推理的依據(jù),后續(xù)我會(huì)再回到這個(gè)理論論點(diǎn)。

解碼與思維鏈推理

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

有一種普遍觀點(diǎn)認(rèn)為,預(yù)訓(xùn)練模型(pre-trained models)若不經(jīng)過CoT提示(Chain-of-Thought prompting)或微調(diào)(fine-tuning),無(wú)法進(jìn)行推理。過去,大家熱衷于討論微調(diào)。這種觀點(diǎn)正確嗎?你們同意嗎?我認(rèn)為這是錯(cuò)誤的,非常錯(cuò)誤。預(yù)訓(xùn)練模型已經(jīng)具備推理能力,我們需要的只是解碼(decoding),僅與解碼過程相關(guān),無(wú)論那些技術(shù)看起來(lái)多么復(fù)雜。

舉個(gè)例子:我有三個(gè)蘋果,我爸比我多兩個(gè)蘋果,我們總共有多少個(gè)蘋果?如果你用預(yù)訓(xùn)練模型(如LLaMA、DeepSeek或Chinchilla,我沒試過這些模型),輸入這個(gè)問題,模型很可能會(huì)輸出“5個(gè)蘋果”。顯然,這個(gè)答案是錯(cuò)的。這是因?yàn)槟J(rèn)使用了貪心解碼(greedy decoding),問題出在解碼方式上。

如果查看第一個(gè)Token的第二候選(因?yàn)樵~匯表很大),繼續(xù)解碼,你會(huì)看到:“我有三個(gè)蘋果,我爸比我多兩個(gè)蘋果,所以他有五個(gè)蘋果,3 + 5 = 8。”完美,對(duì)吧?我們只需探索更多候選。另一個(gè)選擇是第一個(gè)Token的第三候選“we”,解碼后得到:“我們總共有八個(gè)蘋果?!边@也正確。第四候選可能是“you”,繼續(xù)解碼,依然能看到正確的CoT推理,最終答案正確。第五候選可能是“five”,那是錯(cuò)誤的。

可以看到,推理路徑(reasoning path)已經(jīng)存在于輸出空間(output space)中。特別是,第二和第四個(gè)回應(yīng)基于CoT推理。問題在于如何選擇最佳回應(yīng)。你可能認(rèn)為可以根據(jù)輸出長(zhǎng)度選擇,因?yàn)榘评鞹oken的輸出更長(zhǎng)。但我們有更好的方法:根據(jù)答案置信度(answer confidence)選擇。置信度指模型預(yù)測(cè)Token的概率。對(duì)于包含CoT推理的回應(yīng),最終答案Token的置信度遠(yuǎn)高于其他。例如,對(duì)于“8”這個(gè)Token,模型置信度接近98%,這在巨大詞匯表中非常高,通常每個(gè)Token的概率幾乎為零。

這個(gè)過程稱為Chain-of-Thought Decoding(思維鏈解碼),包含兩步:  

1. 超越貪心解碼,檢查更多生成候選;  

2. 選擇最終答案置信度最高的候選。

CoT解碼方法簡(jiǎn)單,但仍需編程實(shí)現(xiàn)。聽說過去大家只想用自然語(yǔ)言,不寫代碼。當(dāng)然,你們是例外。所以我們想:能否重塑模型的輸出分布,讓深思熟慮的回應(yīng)自然排在首位?如果CoT回應(yīng)排在首位,貪心解碼就能自然找到它。

思維鏈提示

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

現(xiàn)在來(lái)看CoT提示(Chain-of-Thought prompting)。如果你了解CoT提示,就能明白其工作原理。這是一個(gè)簡(jiǎn)單方法。給定一個(gè)問題,你可能用一個(gè)相似問題作為示例,放在問題前,模型就會(huì)神奇地模仿推理風(fēng)格,生成逐步解決方案?,F(xiàn)在可以理解CoT提示為何有效:它改變輸出分布,將輸出空間中原有的CoT解決方案推到首位。

還有更簡(jiǎn)單的方法:“Let's Think Step by Step”(讓我們一步步思考)。這在推理研究中是個(gè)驚艷的工作。論文發(fā)布時(shí),我以為是玩笑,怎么可能?當(dāng)時(shí)Google Brain團(tuán)隊(duì)開發(fā)了PaLM模型,我在PaLM上試了這個(gè)方法。我知道PaLM的構(gòu)建過程,絕對(duì)與這個(gè)“魔法”無(wú)關(guān)。但結(jié)果它竟然有效,我非常震驚。這篇論文極大啟發(fā)了我的推理研究。

這些提示方法簡(jiǎn)單,且確實(shí)有效,但也有缺陷。CoT提示需要特定任務(wù)的示例,我對(duì)此不太滿意。如果我知道相似問題,我自己就能解決,為什么還要問別人?“Let's Think Step by Step”更通用,無(wú)需找相似示例,只需說“讓我們一步步思考”,魔法就出現(xiàn)了。但遺憾的是,其表現(xiàn)比少樣本提示(few-shot prompting)差得多。兩種方法看起來(lái)都不錯(cuò),但如果我問問題還得說“請(qǐng)一步步思考”,否則對(duì)方不會(huì)思考,這不符合預(yù)期。

監(jiān)督微調(diào)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

如何解決?一種流行方法是監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT)。思路簡(jiǎn)單:收集一組問題及其人類標(biāo)注的逐步解決方案,然后最大化人類解決方案的似然(likelihood)。對(duì)于LLM訓(xùn)練,這只是最大化似然,之后模型可廣泛應(yīng)用。

我提到2017年的Deman論文,他們正是這樣做的:收集數(shù)學(xué)字面問題及人類標(biāo)注的逐步解決方案,訓(xùn)練序列模型解決數(shù)學(xué)問題。2021年,OpenAI進(jìn)一步擴(kuò)展此方法,構(gòu)建了更大的數(shù)據(jù)集GSM8K(小學(xué)數(shù)學(xué)問題),用它微調(diào)GPT-3模型。

舉例說明:可以用Last Letter Concatenation或蘋果數(shù)學(xué)問題作為訓(xùn)練數(shù)據(jù)微調(diào)模型,然后用新問題測(cè)試,如“草莓里有多少小時(shí)?”我特意選這個(gè)問題,因?yàn)樯缃幻襟w上很多人認(rèn)為這是測(cè)試AGI是否到來(lái)的好問題。

SFT是個(gè)通用的方法,一旦訓(xùn)練好模型,就能廣泛應(yīng)用。如果這能解決推理問題,我的講座到此結(jié)束——收集更多斯坦福的優(yōu)秀示例,訓(xùn)練模型即可。但實(shí)際上,SFT泛化能力不佳。2021年夏天,我們發(fā)現(xiàn)SFT在推理任務(wù)上表現(xiàn)不佳。怎么辦?擴(kuò)展,擴(kuò)展,再擴(kuò)展——獲取更多數(shù)據(jù)訓(xùn)練模型,看效果如何。教訓(xùn)是:不要盲目擴(kuò)展。一旦范式錯(cuò)誤,無(wú)論如何擴(kuò)展,都無(wú)效。

迭代微調(diào)與自我改進(jìn)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

如何解決SFT的泛化失敗?看看SFT流程:僅兩步。問題出在哪?出在人類數(shù)據(jù)上。如果你之前不知道,會(huì)很驚訝。如果人類數(shù)據(jù)有問題,Scale AI怎么賺錢?我團(tuán)隊(duì)的一員發(fā)明了迭代微調(diào)(Iterative Fine-Tuning)。他告訴我,機(jī)器生成的數(shù)據(jù)可能比人類數(shù)據(jù)更適合訓(xùn)練,我一開始非常驚訝。

首個(gè)嘗試稱為Self-Improve(自我改進(jìn))。不再?gòu)娜祟愂占瘮?shù)據(jù),而是讓模型生成數(shù)據(jù)。收集一組問題,讓模型生成逐步解決方案,然后最大化正確答案的似然。對(duì)于數(shù)學(xué)問題,你可能知道最終答案,但不知道逐步解決方案。模型生成解決方案后,檢查答案正確性:正確則選用,錯(cuò)誤則丟棄。然后用此數(shù)據(jù)集微調(diào)模型,與SFT類似,唯一區(qū)別是數(shù)據(jù)來(lái)自模型而非人類。

這一方法由Eric、Tony和Noah提出,論文名為STAR,非常出色。STAR論文最初考慮用此方法節(jié)省標(biāo)注成本,因?yàn)槿祟悩?biāo)注成本高。但后來(lái)我們從不同角度理解:一旦訓(xùn)練數(shù)據(jù)由更優(yōu)模型生成,模型就能自我改進(jìn)。改進(jìn)后,再次收集數(shù)據(jù),重復(fù)此過程。這就是迭代微調(diào)。

我列了一篇2024年1月由BAAI研究者發(fā)表的論文,標(biāo)題為“Reasoning with Reinforced Fine-Tuning”,這是我注意到的最早學(xué)術(shù)出版的迭代微調(diào)研究。在OpenAI流行后,大家開始公開討論迭代微調(diào)。我相信多家機(jī)構(gòu)獨(dú)立發(fā)現(xiàn)了這個(gè)簡(jiǎn)單但非常有效的想法。

在這個(gè)訓(xùn)練循環(huán)中,驗(yàn)證器(verifier)至關(guān)重要,用于判斷哪個(gè)回應(yīng)正確。因?yàn)槲覀冎雷罱K答案,只需用它選擇正確的推理路徑??煽康尿?yàn)證器是迭代微調(diào)的核心,而非算法。我知道很多人討論不同的算法,如PPO或強(qiáng)化學(xué)習(xí)的各種變體。如果有人發(fā)現(xiàn)顯著優(yōu)于其他的方法,請(qǐng)告訴我,我可能錯(cuò)過了什么。我很喜歡Richard Sutton的說法:“驗(yàn)證:AI的關(guān)鍵”(Verification: The Key to AI),這是他2021年的文章標(biāo)題。

為什么用模型生成的數(shù)據(jù)而非人類數(shù)據(jù)?不僅僅是為了節(jié)省成本,而是為了性能。有人有想法嗎?  

觀眾:是CoT結(jié)構(gòu)的連貫性,還是人類解決問題方式的多樣性?  

Denny Zhou:模型生成的數(shù)據(jù)分布更接近訓(xùn)練目標(biāo),訓(xùn)練更有效。這與機(jī)器學(xué)習(xí)的第一原理相關(guān):直接優(yōu)化我們想要的目標(biāo)。

推理優(yōu)化的數(shù)學(xué)原理

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

若要構(gòu)建推理或生成有趣內(nèi)容的模型,需優(yōu)化衡量生成質(zhì)量的指標(biāo)。指標(biāo)因任務(wù)而異,例如數(shù)學(xué)問題的正確性、機(jī)器翻譯的BLEU分?jǐn)?shù)或生成質(zhì)量。有了指標(biāo),計(jì)算其梯度并進(jìn)行反向傳播。數(shù)學(xué)上,我們定義一個(gè)函數(shù)\( R \),給定問題和模型參數(shù)\( \theta \),衡量回應(yīng)質(zhì)量。\( R \)可以是正確率、BLEU分?jǐn)?shù)或任何目標(biāo)。然后計(jì)算梯度,最大化指標(biāo)的期望值。

為此,需通過采樣計(jì)算期望,這就是策略梯度(policy gradient)的由來(lái)。如果你理解數(shù)學(xué)原理,就沒啥神秘的。有人說要激勵(lì)模型思考或推理,我不用這些詞,我用標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)術(shù)語(yǔ):定義指標(biāo),計(jì)算梯度,反向傳播。

一旦找到有效路徑,就需擴(kuò)展方法。有趣的是,對(duì)于這種微調(diào)方法,我們擴(kuò)展輸出長(zhǎng)度或CoT長(zhǎng)度。也可以擴(kuò)展模型深度,因?yàn)榉治霰砻?,只要CoT足夠長(zhǎng),模型幾乎能解決所有可計(jì)算問題。這很驚人——無(wú)需擴(kuò)展模型大小,只需最小固定大小的Transformer模型。

類人推理的涌現(xiàn)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

我想強(qiáng)調(diào)LLM推理的美妙之處:類人推理過程從Token到Token的預(yù)測(cè)中涌現(xiàn),而非依賴經(jīng)典AI的窮舉搜索。Garry Kasparov在1997年輸給Deep Blue后說:“Deep Blue的智能就像程序化的鬧鐘?!蔽彝猓獿LM推理不同,我們不做顯式搜索。講座前,有人引用了我的推文,說搜索已無(wú)關(guān)緊要,我很高興聽到這個(gè)。實(shí)際上,我用了你的代碼,發(fā)現(xiàn)搜索仍有用途。

舉個(gè)例子說明LLM推理與經(jīng)典AI的區(qū)別。2024年12月,Google發(fā)布Gemini 2.0 Thinking Mode(思考模式)。雖然2.5 Pro更強(qiáng)大,但我選這個(gè)模型有原因。模型發(fā)布后,我試了一個(gè)2025年的數(shù)學(xué)問題,確保不在訓(xùn)練集中:“用1到10的數(shù)字組成2025,每個(gè)數(shù)字用一次,僅用加法和乘法?!笨梢杂肞ython寫窮舉搜索程序得到結(jié)果??纯茨P偷乃伎歼^程。

Gemini模型支持查看思考過程,非常有趣。一開始,模型說:“2025是個(gè)大數(shù),暗示乘法占主導(dǎo)。”這很像人類思維。它注意到2025是45的平方(45 × 45)。我設(shè)計(jì)問題時(shí)沒意識(shí)到這點(diǎn),這是重要線索。模型開始思考如何用乘法得到接近2025平方根(45)的大中間結(jié)果。思考過程很長(zhǎng),這正是我們微調(diào)時(shí)使用長(zhǎng)CoT的原因。最終,模型給出答案:“(10 × 4 + 5) = 45,45 × 45 = 2025。”太棒了,無(wú)需任何搜索。

還有一篇關(guān)于CoT提示的論文,提到Game 24問題。這個(gè)問題比Game 24難得多。他們結(jié)合搜索和提示解決,但現(xiàn)在完全不需要,模型僅用自然語(yǔ)言就能解決Game 24。這就是迭代微調(diào)的強(qiáng)大之處。

我想再次引用Richard Sutton:“基于已有發(fā)現(xiàn)構(gòu)建,只會(huì)讓發(fā)現(xiàn)過程更難看到?!彼诩尤隚oogle DeepMind,看到AlphaGo和AlphaZero的成功后說,只有學(xué)習(xí)和搜索是可擴(kuò)展的。但我強(qiáng)調(diào):學(xué)習(xí)是可擴(kuò)展的,我們只需學(xué)習(xí)。

迭代微調(diào)的局限性

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

迭代微調(diào)的巨大優(yōu)勢(shì)是泛化能力強(qiáng),但僅適用于可自動(dòng)驗(yàn)證的任務(wù),因?yàn)橛?xùn)練循環(huán)需要驗(yàn)證器,無(wú)法納入人類驗(yàn)證。并非所有任務(wù)都可自動(dòng)驗(yàn)證。有人能舉例說明不可驗(yàn)證的任務(wù)嗎?  

觀眾:創(chuàng)意寫作。  

Denny Zhou:很好的例子。這是當(dāng)前微調(diào)的重大限制。我知道很多人致力于改進(jìn)RL算法。我希望看到更多研究解決不可驗(yàn)證任務(wù),如創(chuàng)意寫作或編碼。有人說AI幾年內(nèi)會(huì)解決編碼問題,但我認(rèn)為很具挑戰(zhàn)性。他們說的是競(jìng)技編程,不是日常編程。我們關(guān)心設(shè)計(jì)、可讀性和協(xié)作,而不僅是最終答案。

自一致性與聚合

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

所有想法始于CoT解碼:推理路徑已存在于輸出空間,我們只需重塑輸出分布,讓貪心解碼找到它。然后討論了CoT提示和“Let's Think Step by Step”,它們重塑輸出分布,接著是SFT和迭代微調(diào),非常強(qiáng)大。但我們?nèi)杂懈倪M(jìn)空間。

我想談兩個(gè)關(guān)鍵思路:聚合(aggregation)和檢索(retrieval)。我們看到LLM很強(qiáng)大,但生成推理Token然后輸出最終答案的解碼范式有問題。看起來(lái)很自然,對(duì)吧?給定問題,生成中間Token,然后是最終答案。有人看到問題嗎?  

觀眾:挑戰(zhàn)在于模型預(yù)測(cè)下一個(gè)Token的方式,導(dǎo)致結(jié)果與預(yù)期不一致。  

Denny Zhou:模型最初設(shè)計(jì)僅為預(yù)測(cè)下一個(gè)Token。我們要記住,LLM是預(yù)測(cè)模型,不是人類。

數(shù)學(xué)上,LLM解碼做什么?給定問題,生成推理,然后最終答案,通過貪心解碼找到回應(yīng)。貪心解碼意味著最大化概率。但我們需選擇最自信的答案,二者不一致。簡(jiǎn)單的條件概率數(shù)學(xué)很有用,理解解碼過程。我們可以修復(fù):生成推理路徑后,需對(duì)所有推理路徑求和,計(jì)算最終答案的概率。這在機(jī)器學(xué)習(xí)中稱為邊緣化(marginalization),推理路徑本質(zhì)上是隱變量。

這啟發(fā)了自一致性(self-consistency)方法:通過隨機(jī)采樣生成多個(gè)回應(yīng),選擇出現(xiàn)最頻繁的答案。例如,數(shù)學(xué)問題采樣多次,第一個(gè)回應(yīng)可能是“18”,第二個(gè)“26”,再次“18”,選擇最頻繁的。這正是概率邊緣化的實(shí)現(xiàn)。我們不看推理路徑,只選最頻繁的答案,而非最頻繁的推理路徑,這是關(guān)鍵。

實(shí)證上,自一致性顯著提升性能。在GSM8K問題上,微調(diào)的GPT-3模型準(zhǔn)確率33%,OpenAI用驗(yàn)證器達(dá)到55%。PaLM模型加CoT得到58%,與驗(yàn)證器相當(dāng)。但應(yīng)用自一致性后,準(zhǔn)確率躍升至75%,相對(duì)提升近50%。PaLM 2甚至達(dá)到92%。o1模型(去年10月發(fā)布)通過聚合得到66.4%,自一致性仍有顯著提升。

采樣更多回應(yīng)成本更高,但這是推理時(shí)擴(kuò)展(inference-time scaling)的一種方式。推理時(shí)擴(kuò)展有很多方式,如延長(zhǎng)CoT也增加推理時(shí)間。有人說推理時(shí)擴(kuò)展,我得知道具體擴(kuò)展什么。自一致性顯然是一種擴(kuò)展方式。

自一致性天然自校準(zhǔn)(self-calibrated)。一致性越高,準(zhǔn)確率越高。在GSM8K上,自一致性超80%時(shí),準(zhǔn)確率接近100%。關(guān)心預(yù)測(cè)不確定性或置信度的人可以多次采樣。

確保大家理解自一致性的關(guān)鍵:  

1. 當(dāng)LLM不生成中間步驟直接輸出答案時(shí),我們多次采樣,選擇最常見答案。有人有想法嗎?  

觀眾:可以直接獲取概率。  

Denny Zhou:對(duì),就像經(jīng)典機(jī)器學(xué)習(xí),用邏輯回歸得到\( P(y|x) \),最大化概率。這就是傳統(tǒng)機(jī)器學(xué)習(xí)文獻(xiàn)中看不到自一致性的原因,它沒必要,僅對(duì)推理有用。

2. 可否改自一致性,讓LLM生成多個(gè)回應(yīng)而非多次采樣,然后選最常見答案?可以試試。這稱為最大邊緣推理(maximum marginal inference),選擇概率最大的最終答案。數(shù)學(xué)是我們所需的一切。

自一致性有個(gè)問題:假設(shè)答案是單個(gè)Token。對(duì)于一般問題,答案可能不同。我們擴(kuò)展為Universal Self-Consistency。例如,某問題第二個(gè)回應(yīng)是“日本、中國(guó)、印度”,因這些國(guó)家在其他答案中出現(xiàn)最多,被選為最一致回應(yīng)。

推理中的檢索

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

另一個(gè)方法是檢索。關(guān)于推理的爭(zhēng)論很多,有人說:“或許只是檢索,而非推理?!蔽以谏缃幻襟w上看到這些爭(zhēng)論。對(duì)我來(lái)說,區(qū)分檢索和推理很難。主持會(huì)議時(shí),我們討論每篇論文的新穎性,與檢索-推理爭(zhēng)論類似。

觀眾:我試過并行運(yùn)行不同模型,如Gemini 2.5,四個(gè)模型同時(shí)回答同一問題,然后用驗(yàn)證器找最一致結(jié)果。  

Denny Zhou:對(duì),這更像集成模型(ensemble model),類似隨機(jī)森林。數(shù)學(xué)原理與自一致性不同,但實(shí)現(xiàn)類似。好觀點(diǎn)。

我不關(guān)心檢索與推理的爭(zhēng)論。我在工業(yè)界,只關(guān)心性能。對(duì)我來(lái)說,檢索加推理最好,何必爭(zhēng)論?2024年我們發(fā)表了關(guān)于類比推理(analogical reasoning)的論文。舉個(gè)小例子說明檢索在推理中的重要性:“求一個(gè)正方形四頂點(diǎn)的面積……”我加了提示:“回憶一個(gè)相關(guān)問題,然后解決這個(gè)問題?!碑?dāng)時(shí)我試了GPT-3.5和我們自己的模型,都失敗了。加了提示后,模型解決了。它找到相關(guān)問題——計(jì)算坐標(biāo)平面兩點(diǎn)間的距離,然后用公式計(jì)算距離和面積。

另一個(gè)例子是物理問題的Step-Back(回退)。解決前,給予少樣本示例,指導(dǎo)模型回退,考慮更抽象的問題,獲取原理,然后解決。這就是檢索在推理中的作用。現(xiàn)在大家知道Deep Research(深度研究),原理相同。我們有Gemini Deep Research,OpenAI也有。OpenAI的Deep Research負(fù)責(zé)人是我之前的實(shí)習(xí)生,博士畢業(yè)后加入OpenAI,發(fā)明了Deep Research。基本思路簡(jiǎn)單:找到相似問題或知識(shí)解決問題。

總結(jié)與未來(lái)方向

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

別糾結(jié)LLM能否推理的爭(zhēng)論。有推理總比沒推理好。迭代微調(diào)優(yōu)于SFT。聚合多個(gè)答案優(yōu)于單一答案,盡管成本更高。檢索加推理優(yōu)于單獨(dú)推理。

未來(lái)突破,我想看到如何解決非唯一可驗(yàn)證答案的任務(wù)。過去,我也希望看到人們構(gòu)建真實(shí)應(yīng)用,而非僅解決基準(zhǔn)測(cè)試。我認(rèn)為所有基準(zhǔn)測(cè)試很快會(huì)飽和。你們對(duì)AGI或構(gòu)建熱情高漲,我想引用Richard Feynman:“真相總是比你想的更簡(jiǎn)單。”這在研究中尤其正確。我看到很多學(xué)術(shù)論文試圖復(fù)雜化,所以我盡量讓講座簡(jiǎn)單——確實(shí)很簡(jiǎn)單。就這樣。

斯坦福大學(xué)CS25:大語(yǔ)言模型推理(Reasoning)-AI.x社區(qū)

問答環(huán)節(jié)

觀眾:你提到置信度,通常是取輸出Token序列的平均對(duì)數(shù)概率。你認(rèn)為有更好的方法嗎?這對(duì)幻覺(hallucination)是好指標(biāo)嗎?  

Denny Zhou:我說的置信度是指生成條件的概率。可以查看模型的log probs,看到概率。從實(shí)證觀察,推理路徑后,最終答案的置信度大幅提升。

觀眾:你提到Richard Sutton說擴(kuò)展學(xué)習(xí)和搜索,但你認(rèn)為擴(kuò)展學(xué)習(xí)就夠了。能否展開為什么搜索不那么必要?  

Denny Zhou:我得更具體。構(gòu)建模型時(shí),不必考慮搜索。模型建成后,搜索可作為工具使用的一種特例,如CoT提示整合符號(hào)搜索。對(duì)于推理研究,我關(guān)心基本能力。模型可寫Python程序用搜索解決問題,但推理過程無(wú)需搜索。

觀眾:若無(wú)推理,你說無(wú)需采樣,因?yàn)榭刹榭磍ogits。但如果最可能的下一個(gè)Token導(dǎo)致分布擴(kuò)散,而較不可能的Token導(dǎo)致更尖銳分布,采樣不會(huì)收斂于不同分布嗎?  

Denny Zhou:好問題。我們?nèi)圆磺宄?xùn)練中分布如何重塑,很不明確。很難回答,因?yàn)槲覀儗?duì)最終分布缺乏好的解釋。

觀眾:如何區(qū)分推理和答案?需要從最終輸出字符串提取數(shù)字嗎?如果答案是程序怎么辦?  

Denny Zhou:好問題。如果答案是程序,提取更難。所以人們用微調(diào)解決數(shù)學(xué)或競(jìng)技編程問題。對(duì)于一般情況,需為最終答案寫小心解析器。如果問題很具挑戰(zhàn),低置信度答案可能是正確的,自一致性不完美。

觀眾:考慮到AGI可能在2-5年內(nèi)到來(lái),若90%工作自動(dòng)化,你會(huì)培養(yǎng)孩子哪些技能讓他們生存?  

Denny Zhou:大問題。誰(shuí)說AGI五年內(nèi)到來(lái)?去年ICLR有人問AI風(fēng)險(xiǎn),我說最可怕的是我回不去丟了工作。當(dāng)前方法有很多限制。我真想看到AI研究的真正殺手級(jí)應(yīng)用。AI模型擅長(zhǎng)編程,是編碼的好助手,但我只知道這些。

本文轉(zhuǎn)載自????Andy730????,作者:常華?

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦