偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<optgroup id="p4ica"></optgroup>

<sub id="p4ica"><p id="p4ica"></p></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）

發(fā)布于 2025-6-4 06:52

瀏覽

0收藏

?核心觀點

1. 大語言模型推理的定義

常規(guī)觀點：大語言模型（LLM）的推理被視為類似人類的高級能力，定義模糊，常引發(fā)爭論。

Zhou的觀點：推理爭論因缺乏明確定義而無意義；Zhou將推理定義為輸入與輸出之間的中間Token（推理步驟），僅是模型輸出的可預(yù)測行為，而非神秘過程。

2. 預(yù)訓(xùn)練模型的推理能力

常規(guī)觀點：預(yù)訓(xùn)練模型需通過思維鏈（CoT）提示或微調(diào)才能具備推理能力。

Zhou的觀點：預(yù)訓(xùn)練模型已具備推理能力，推理路徑存在于輸出空間中；問題在于解碼方式，例如通過探索更多候選而非貪心解碼即可挖掘推理，無需額外提示或微調(diào)。

3. 思維鏈提示的作用

常規(guī)觀點：思維鏈提示通過教模型逐步思考來啟用或增強推理能力。

Zhou的觀點：思維鏈提示不增加推理能力，而是重塑輸出分布，將已存在的含推理步驟的響應(yīng)提升至首位，使貪心解碼可直接選擇，屬于解碼優(yōu)化而非能力增強。

4. 機器生成數(shù)據(jù)優(yōu)于人類數(shù)據(jù)

常規(guī)觀點：人類標注數(shù)據(jù)是微調(diào)模型的最佳選擇，尤其適用于復(fù)雜推理任務(wù)。

Zhou的觀點：在迭代微調(diào)中，機器生成的數(shù)據(jù)優(yōu)于人類數(shù)據(jù)，因其分布更貼近訓(xùn)練目標，直接優(yōu)化輸出質(zhì)量（如數(shù)學(xué)問題的正確性），符合機器學(xué)習(xí)第一原理。

5. 推理擴展的方向

常規(guī)觀點：提升推理能力主要靠擴大模型規(guī)模（如參數(shù)數(shù)量）。

Zhou的觀點：理論表明，固定大小的Transformer模型通過生成足夠長的思維鏈（中間Token）即可解決布爾電路問題，擴展推理步驟長度而非模型規(guī)模是關(guān)鍵方向。

6. 自一致性的適用條件

常規(guī)觀點：自一致性（Self-Consistency）是一種通用技術(shù)，通過多次采樣并選擇最常見答案提升模型可靠性。

Zhou的觀點：自一致性僅在模型生成中間推理步驟時有用，通過對推理路徑的概率邊緣化選擇最可能答案；若直接輸出答案，只需查看模型概率，無需自一致性。

7. 推理無需依賴搜索

常規(guī)觀點：推理任務(wù)（如數(shù)學(xué)或邏輯問題）依賴類似經(jīng)典AI的窮舉搜索。

Zhou的觀點：LLM推理從Token到Token的預(yù)測中涌現(xiàn)，無需顯式搜索；學(xué)習(xí)是可擴展的核心，搜索僅作為輔助工具而非推理本質(zhì)。

8. 迭代微調(diào)的局限性

常規(guī)觀點：迭代微調(diào)是提升推理能力的通用方法，適用于大多數(shù)任務(wù)。

Zhou的觀點：迭代微調(diào)依賴自動驗證器，僅適用于可驗證任務(wù)（如數(shù)學(xué)），對不可自動驗證的任務(wù)（如創(chuàng)意寫作）效果有限，限制其通用性。

9. 驗證器的重要性

常規(guī)觀點：強化學(xué)習(xí)算法（如PPO）是提升推理能力的關(guān)鍵技術(shù)。

Zhou的觀點：驗證器是迭代微調(diào)和AI訓(xùn)練的核心，遠超復(fù)雜算法的重要性；可靠驗證器決定數(shù)據(jù)質(zhì)量和模型性能，是AI成功的基石。

10. AGI時間表的懷疑

常規(guī)觀點：AI社區(qū)普遍樂觀，認為通用人工智能（AGI）可能在2-5年內(nèi)實現(xiàn)。

Zhou的觀點：Zhou對AGI在短期內(nèi)實現(xiàn)的說法持懷疑態(tài)度，認為當前方法有顯著局限，真正的挑戰(zhàn)是避免研究停滯而非過快達到AGI。

大語言模型推理（Reasoning）的定義

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

很高興看到大家已經(jīng)認為LLM很強大。你們可能會好奇，我對LLM是否能推理的看法是什么？我的答案是：這取決于推理（reasoning）的定義。今天我們將圍繞一個具體的推理定義展開討論。我從不參與關(guān)于LLM能否推理的爭論，因為沒有明確的推理定義，這些討論毫無意義。在LLM推理中，我們特指輸入與輸出之間的中間Token（intermediate tokens），這些Token被稱為推理或中間步驟。

這個概念并不新鮮。早在2017年，Deman發(fā)表了一篇論文，探討如何利用中間Token解決數(shù)學(xué)問題。當時，學(xué)術(shù)界對AlphaGo和AlphaZero的熱情高漲，但這篇論文極具開創(chuàng)性。如果你還沒讀過，我強烈推薦一讀。他們引入了自然語言來解決數(shù)學(xué)問題，而當時文獻中普遍采用符號方法或搜索。這在神經(jīng)符號（neurosymbolic）研究中也很常見，通常使用中間過程來解決推理問題。

舉個例子說明LLM推理的用法。當我在Google Brain創(chuàng)立推理團隊時，我設(shè)計了一個任務(wù)：Last Letter Concatenation（末字母拼接）。這個任務(wù)作為激勵示例，可以用Transformer模型解決。例如，輸入“artificial intelligence”，輸出是將每個單詞末字母拼接的結(jié)果。如果沒有推理過程，模型可能直接輸出“LE”。但若有推理過程，模型會輸出：“‘a(chǎn)rtificial’的末字母是L，‘intelligence’的末字母是E，拼接L和E得到LE?！边@里高亮的文本就是推理（reasoning），這就是我所說的推理。

如果你熟悉程序合成或神經(jīng)符號推理，這個任務(wù)設(shè)計并不意外。我也嘗試過其他方案，比如拼接首字母，但所有大型模型都能輕松解決，因為網(wǎng)上有大量首字母拼接的例子，模型早已學(xué)會。但當我改為末字母拼接時，所有模型都失敗了。很多人會說：“這很自然，我們需要中間步驟，就像人類一樣。”如今LLM看似與人類很像，但作為研究者，我們要牢記：LLM只是預(yù)測模型（predictive models），不是人類。保持這個認知有助于理解許多新技術(shù)。

推理的理論基礎(chǔ)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

為什么中間Token或推理重要？我們與斯坦福的Tima教授及其學(xué)生合作開展了理論研究。研究表明，對于任何可以用大小為\( T \)的布爾電路解決的問題，固定大小的Transformer模型通過生成\( O(T) \)個中間Token即可解決。這是一個強有力的結(jié)果。這里的“大小”指邏輯門的數(shù)量。例如，若使用GPU集群，\( T \)可能達到百萬、十億甚至萬億。如果直接生成最終答案，模型要么需要極深的網(wǎng)絡(luò)，要么根本無法解決問題。這就是我們從理論角度理解推理的依據(jù)，后續(xù)我會再回到這個理論論點。

解碼與思維鏈推理

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

有一種普遍觀點認為，預(yù)訓(xùn)練模型（pre-trained models）若不經(jīng)過CoT提示（Chain-of-Thought prompting）或微調(diào)（fine-tuning），無法進行推理。過去，大家熱衷于討論微調(diào)。這種觀點正確嗎？你們同意嗎？我認為這是錯誤的，非常錯誤。預(yù)訓(xùn)練模型已經(jīng)具備推理能力，我們需要的只是解碼（decoding），僅與解碼過程相關(guān)，無論那些技術(shù)看起來多么復(fù)雜。

舉個例子：我有三個蘋果，我爸比我多兩個蘋果，我們總共有多少個蘋果？如果你用預(yù)訓(xùn)練模型（如LLaMA、DeepSeek或Chinchilla，我沒試過這些模型），輸入這個問題，模型很可能會輸出“5個蘋果”。顯然，這個答案是錯的。這是因為默認使用了貪心解碼（greedy decoding），問題出在解碼方式上。

如果查看第一個Token的第二候選（因為詞匯表很大），繼續(xù)解碼，你會看到：“我有三個蘋果，我爸比我多兩個蘋果，所以他有五個蘋果，3 + 5 = 8。”完美，對吧？我們只需探索更多候選。另一個選擇是第一個Token的第三候選“we”，解碼后得到：“我們總共有八個蘋果?！边@也正確。第四候選可能是“you”，繼續(xù)解碼，依然能看到正確的CoT推理，最終答案正確。第五候選可能是“five”，那是錯誤的。

可以看到，推理路徑（reasoning path）已經(jīng)存在于輸出空間（output space）中。特別是，第二和第四個回應(yīng)基于CoT推理。問題在于如何選擇最佳回應(yīng)。你可能認為可以根據(jù)輸出長度選擇，因為包含推理Token的輸出更長。但我們有更好的方法：根據(jù)答案置信度（answer confidence）選擇。置信度指模型預(yù)測Token的概率。對于包含CoT推理的回應(yīng)，最終答案Token的置信度遠高于其他。例如，對于“8”這個Token，模型置信度接近98%，這在巨大詞匯表中非常高，通常每個Token的概率幾乎為零。

這個過程稱為Chain-of-Thought Decoding（思維鏈解碼），包含兩步：

1. 超越貪心解碼，檢查更多生成候選；

2. 選擇最終答案置信度最高的候選。

CoT解碼方法簡單，但仍需編程實現(xiàn)。聽說過去大家只想用自然語言，不寫代碼。當然，你們是例外。所以我們想：能否重塑模型的輸出分布，讓深思熟慮的回應(yīng)自然排在首位？如果CoT回應(yīng)排在首位，貪心解碼就能自然找到它。

思維鏈提示

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

現(xiàn)在來看CoT提示（Chain-of-Thought prompting）。如果你了解CoT提示，就能明白其工作原理。這是一個簡單方法。給定一個問題，你可能用一個相似問題作為示例，放在問題前，模型就會神奇地模仿推理風(fēng)格，生成逐步解決方案。現(xiàn)在可以理解CoT提示為何有效：它改變輸出分布，將輸出空間中原有的CoT解決方案推到首位。

還有更簡單的方法：“Let's Think Step by Step”（讓我們一步步思考）。這在推理研究中是個驚艷的工作。論文發(fā)布時，我以為是玩笑，怎么可能？當時Google Brain團隊開發(fā)了PaLM模型，我在PaLM上試了這個方法。我知道PaLM的構(gòu)建過程，絕對與這個“魔法”無關(guān)。但結(jié)果它竟然有效，我非常震驚。這篇論文極大啟發(fā)了我的推理研究。

這些提示方法簡單，且確實有效，但也有缺陷。CoT提示需要特定任務(wù)的示例，我對此不太滿意。如果我知道相似問題，我自己就能解決，為什么還要問別人？“Let's Think Step by Step”更通用，無需找相似示例，只需說“讓我們一步步思考”，魔法就出現(xiàn)了。但遺憾的是，其表現(xiàn)比少樣本提示（few-shot prompting）差得多。兩種方法看起來都不錯，但如果我問問題還得說“請一步步思考”，否則對方不會思考，這不符合預(yù)期。

監(jiān)督微調(diào)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

如何解決？一種流行方法是監(jiān)督微調(diào)（Supervised Fine-Tuning, SFT）。思路簡單：收集一組問題及其人類標注的逐步解決方案，然后最大化人類解決方案的似然（likelihood）。對于LLM訓(xùn)練，這只是最大化似然，之后模型可廣泛應(yīng)用。

我提到2017年的Deman論文，他們正是這樣做的：收集數(shù)學(xué)字面問題及人類標注的逐步解決方案，訓(xùn)練序列模型解決數(shù)學(xué)問題。2021年，OpenAI進一步擴展此方法，構(gòu)建了更大的數(shù)據(jù)集GSM8K（小學(xué)數(shù)學(xué)問題），用它微調(diào)GPT-3模型。

舉例說明：可以用Last Letter Concatenation或蘋果數(shù)學(xué)問題作為訓(xùn)練數(shù)據(jù)微調(diào)模型，然后用新問題測試，如“草莓里有多少小時？”我特意選這個問題，因為社交媒體上很多人認為這是測試AGI是否到來的好問題。

SFT是個通用的方法，一旦訓(xùn)練好模型，就能廣泛應(yīng)用。如果這能解決推理問題，我的講座到此結(jié)束——收集更多斯坦福的優(yōu)秀示例，訓(xùn)練模型即可。但實際上，SFT泛化能力不佳。2021年夏天，我們發(fā)現(xiàn)SFT在推理任務(wù)上表現(xiàn)不佳。怎么辦？擴展，擴展，再擴展——獲取更多數(shù)據(jù)訓(xùn)練模型，看效果如何。教訓(xùn)是：不要盲目擴展。一旦范式錯誤，無論如何擴展，都無效。

迭代微調(diào)與自我改進

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

如何解決SFT的泛化失敗？看看SFT流程：僅兩步。問題出在哪？出在人類數(shù)據(jù)上。如果你之前不知道，會很驚訝。如果人類數(shù)據(jù)有問題，Scale AI怎么賺錢？我團隊的一員發(fā)明了迭代微調(diào)（Iterative Fine-Tuning）。他告訴我，機器生成的數(shù)據(jù)可能比人類數(shù)據(jù)更適合訓(xùn)練，我一開始非常驚訝。

首個嘗試稱為Self-Improve（自我改進）。不再從人類收集數(shù)據(jù)，而是讓模型生成數(shù)據(jù)。收集一組問題，讓模型生成逐步解決方案，然后最大化正確答案的似然。對于數(shù)學(xué)問題，你可能知道最終答案，但不知道逐步解決方案。模型生成解決方案后，檢查答案正確性：正確則選用，錯誤則丟棄。然后用此數(shù)據(jù)集微調(diào)模型，與SFT類似，唯一區(qū)別是數(shù)據(jù)來自模型而非人類。

這一方法由Eric、Tony和Noah提出，論文名為STAR，非常出色。STAR論文最初考慮用此方法節(jié)省標注成本，因為人類標注成本高。但后來我們從不同角度理解：一旦訓(xùn)練數(shù)據(jù)由更優(yōu)模型生成，模型就能自我改進。改進后，再次收集數(shù)據(jù)，重復(fù)此過程。這就是迭代微調(diào)。

我列了一篇2024年1月由BAAI研究者發(fā)表的論文，標題為“Reasoning with Reinforced Fine-Tuning”，這是我注意到的最早學(xué)術(shù)出版的迭代微調(diào)研究。在OpenAI流行后，大家開始公開討論迭代微調(diào)。我相信多家機構(gòu)獨立發(fā)現(xiàn)了這個簡單但非常有效的想法。

在這個訓(xùn)練循環(huán)中，驗證器（verifier）至關(guān)重要，用于判斷哪個回應(yīng)正確。因為我們知道最終答案，只需用它選擇正確的推理路徑?？煽康尿炞C器是迭代微調(diào)的核心，而非算法。我知道很多人討論不同的算法，如PPO或強化學(xué)習(xí)的各種變體。如果有人發(fā)現(xiàn)顯著優(yōu)于其他的方法，請告訴我，我可能錯過了什么。我很喜歡Richard Sutton的說法：“驗證：AI的關(guān)鍵”（Verification: The Key to AI），這是他2021年的文章標題。

為什么用模型生成的數(shù)據(jù)而非人類數(shù)據(jù)？不僅僅是為了節(jié)省成本，而是為了性能。有人有想法嗎？

觀眾：是CoT結(jié)構(gòu)的連貫性，還是人類解決問題方式的多樣性？

Denny Zhou：模型生成的數(shù)據(jù)分布更接近訓(xùn)練目標，訓(xùn)練更有效。這與機器學(xué)習(xí)的第一原理相關(guān)：直接優(yōu)化我們想要的目標。

推理優(yōu)化的數(shù)學(xué)原理

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

若要構(gòu)建推理或生成有趣內(nèi)容的模型，需優(yōu)化衡量生成質(zhì)量的指標。指標因任務(wù)而異，例如數(shù)學(xué)問題的正確性、機器翻譯的BLEU分數(shù)或生成質(zhì)量。有了指標，計算其梯度并進行反向傳播。數(shù)學(xué)上，我們定義一個函數(shù)\( R \)，給定問題和模型參數(shù)\( \theta \)，衡量回應(yīng)質(zhì)量。\( R \)可以是正確率、BLEU分數(shù)或任何目標。然后計算梯度，最大化指標的期望值。

為此，需通過采樣計算期望，這就是策略梯度（policy gradient）的由來。如果你理解數(shù)學(xué)原理，就沒啥神秘的。有人說要激勵模型思考或推理，我不用這些詞，我用標準的機器學(xué)習(xí)術(shù)語：定義指標，計算梯度，反向傳播。

一旦找到有效路徑，就需擴展方法。有趣的是，對于這種微調(diào)方法，我們擴展輸出長度或CoT長度。也可以擴展模型深度，因為分析表明，只要CoT足夠長，模型幾乎能解決所有可計算問題。這很驚人——無需擴展模型大小，只需最小固定大小的Transformer模型。

類人推理的涌現(xiàn)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

我想強調(diào)LLM推理的美妙之處：類人推理過程從Token到Token的預(yù)測中涌現(xiàn)，而非依賴經(jīng)典AI的窮舉搜索。Garry Kasparov在1997年輸給Deep Blue后說：“Deep Blue的智能就像程序化的鬧鐘?！蔽彝?，但LLM推理不同，我們不做顯式搜索。講座前，有人引用了我的推文，說搜索已無關(guān)緊要，我很高興聽到這個。實際上，我用了你的代碼，發(fā)現(xiàn)搜索仍有用途。

舉個例子說明LLM推理與經(jīng)典AI的區(qū)別。2024年12月，Google發(fā)布Gemini 2.0 Thinking Mode（思考模式）。雖然2.5 Pro更強大，但我選這個模型有原因。模型發(fā)布后，我試了一個2025年的數(shù)學(xué)問題，確保不在訓(xùn)練集中：“用1到10的數(shù)字組成2025，每個數(shù)字用一次，僅用加法和乘法?！笨梢杂肞ython寫窮舉搜索程序得到結(jié)果?？纯茨Ｐ偷乃伎歼^程。

Gemini模型支持查看思考過程，非常有趣。一開始，模型說：“2025是個大數(shù)，暗示乘法占主導(dǎo)?！边@很像人類思維。它注意到2025是45的平方（45 × 45）。我設(shè)計問題時沒意識到這點，這是重要線索。模型開始思考如何用乘法得到接近2025平方根（45）的大中間結(jié)果。思考過程很長，這正是我們微調(diào)時使用長CoT的原因。最終，模型給出答案：“(10 × 4 + 5) = 45，45 × 45 = 2025。”太棒了，無需任何搜索。

還有一篇關(guān)于CoT提示的論文，提到Game 24問題。這個問題比Game 24難得多。他們結(jié)合搜索和提示解決，但現(xiàn)在完全不需要，模型僅用自然語言就能解決Game 24。這就是迭代微調(diào)的強大之處。

我想再次引用Richard Sutton：“基于已有發(fā)現(xiàn)構(gòu)建，只會讓發(fā)現(xiàn)過程更難看到。”他在加入Google DeepMind，看到AlphaGo和AlphaZero的成功后說，只有學(xué)習(xí)和搜索是可擴展的。但我強調(diào)：學(xué)習(xí)是可擴展的，我們只需學(xué)習(xí)。

迭代微調(diào)的局限性

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

迭代微調(diào)的巨大優(yōu)勢是泛化能力強，但僅適用于可自動驗證的任務(wù)，因為訓(xùn)練循環(huán)需要驗證器，無法納入人類驗證。并非所有任務(wù)都可自動驗證。有人能舉例說明不可驗證的任務(wù)嗎？

觀眾：創(chuàng)意寫作。

Denny Zhou：很好的例子。這是當前微調(diào)的重大限制。我知道很多人致力于改進RL算法。我希望看到更多研究解決不可驗證任務(wù)，如創(chuàng)意寫作或編碼。有人說AI幾年內(nèi)會解決編碼問題，但我認為很具挑戰(zhàn)性。他們說的是競技編程，不是日常編程。我們關(guān)心設(shè)計、可讀性和協(xié)作，而不僅是最終答案。

自一致性與聚合

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

所有想法始于CoT解碼：推理路徑已存在于輸出空間，我們只需重塑輸出分布，讓貪心解碼找到它。然后討論了CoT提示和“Let's Think Step by Step”，它們重塑輸出分布，接著是SFT和迭代微調(diào)，非常強大。但我們?nèi)杂懈倪M空間。

我想談兩個關(guān)鍵思路：聚合（aggregation）和檢索（retrieval）。我們看到LLM很強大，但生成推理Token然后輸出最終答案的解碼范式有問題?？雌饋砗茏匀?，對吧？給定問題，生成中間Token，然后是最終答案。有人看到問題嗎？

觀眾：挑戰(zhàn)在于模型預(yù)測下一個Token的方式，導(dǎo)致結(jié)果與預(yù)期不一致。

Denny Zhou：模型最初設(shè)計僅為預(yù)測下一個Token。我們要記住，LLM是預(yù)測模型，不是人類。

數(shù)學(xué)上，LLM解碼做什么？給定問題，生成推理，然后最終答案，通過貪心解碼找到回應(yīng)。貪心解碼意味著最大化概率。但我們需選擇最自信的答案，二者不一致。簡單的條件概率數(shù)學(xué)很有用，理解解碼過程。我們可以修復(fù)：生成推理路徑后，需對所有推理路徑求和，計算最終答案的概率。這在機器學(xué)習(xí)中稱為邊緣化（marginalization），推理路徑本質(zhì)上是隱變量。

這啟發(fā)了自一致性（self-consistency）方法：通過隨機采樣生成多個回應(yīng)，選擇出現(xiàn)最頻繁的答案。例如，數(shù)學(xué)問題采樣多次，第一個回應(yīng)可能是“18”，第二個“26”，再次“18”，選擇最頻繁的。這正是概率邊緣化的實現(xiàn)。我們不看推理路徑，只選最頻繁的答案，而非最頻繁的推理路徑，這是關(guān)鍵。

實證上，自一致性顯著提升性能。在GSM8K問題上，微調(diào)的GPT-3模型準確率33%，OpenAI用驗證器達到55%。PaLM模型加CoT得到58%，與驗證器相當。但應(yīng)用自一致性后，準確率躍升至75%，相對提升近50%。PaLM 2甚至達到92%。o1模型（去年10月發(fā)布）通過聚合得到66.4%，自一致性仍有顯著提升。

采樣更多回應(yīng)成本更高，但這是推理時擴展（inference-time scaling）的一種方式。推理時擴展有很多方式，如延長CoT也增加推理時間。有人說推理時擴展，我得知道具體擴展什么。自一致性顯然是一種擴展方式。

自一致性天然自校準（self-calibrated）。一致性越高，準確率越高。在GSM8K上，自一致性超80%時，準確率接近100%。關(guān)心預(yù)測不確定性或置信度的人可以多次采樣。

確保大家理解自一致性的關(guān)鍵：

1. 當LLM不生成中間步驟直接輸出答案時，我們多次采樣，選擇最常見答案。有人有想法嗎？

觀眾：可以直接獲取概率。

Denny Zhou：對，就像經(jīng)典機器學(xué)習(xí)，用邏輯回歸得到\( P(y|x) \)，最大化概率。這就是傳統(tǒng)機器學(xué)習(xí)文獻中看不到自一致性的原因，它沒必要，僅對推理有用。

2. 可否改自一致性，讓LLM生成多個回應(yīng)而非多次采樣，然后選最常見答案？可以試試。這稱為最大邊緣推理（maximum marginal inference），選擇概率最大的最終答案。數(shù)學(xué)是我們所需的一切。

自一致性有個問題：假設(shè)答案是單個Token。對于一般問題，答案可能不同。我們擴展為Universal Self-Consistency。例如，某問題第二個回應(yīng)是“日本、中國、印度”，因這些國家在其他答案中出現(xiàn)最多，被選為最一致回應(yīng)。

推理中的檢索

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

另一個方法是檢索。關(guān)于推理的爭論很多，有人說：“或許只是檢索，而非推理?！蔽以谏缃幻襟w上看到這些爭論。對我來說，區(qū)分檢索和推理很難。主持會議時，我們討論每篇論文的新穎性，與檢索-推理爭論類似。

觀眾：我試過并行運行不同模型，如Gemini 2.5，四個模型同時回答同一問題，然后用驗證器找最一致結(jié)果。

Denny Zhou：對，這更像集成模型（ensemble model），類似隨機森林。數(shù)學(xué)原理與自一致性不同，但實現(xiàn)類似。好觀點。

我不關(guān)心檢索與推理的爭論。我在工業(yè)界，只關(guān)心性能。對我來說，檢索加推理最好，何必爭論？2024年我們發(fā)表了關(guān)于類比推理（analogical reasoning）的論文。舉個小例子說明檢索在推理中的重要性：“求一個正方形四頂點的面積……”我加了提示：“回憶一個相關(guān)問題，然后解決這個問題?！碑敃r我試了GPT-3.5和我們自己的模型，都失敗了。加了提示后，模型解決了。它找到相關(guān)問題——計算坐標平面兩點間的距離，然后用公式計算距離和面積。

另一個例子是物理問題的Step-Back（回退）。解決前，給予少樣本示例，指導(dǎo)模型回退，考慮更抽象的問題，獲取原理，然后解決。這就是檢索在推理中的作用?，F(xiàn)在大家知道Deep Research（深度研究），原理相同。我們有Gemini Deep Research，OpenAI也有。OpenAI的Deep Research負責人是我之前的實習(xí)生，博士畢業(yè)后加入OpenAI，發(fā)明了Deep Research?；舅悸泛唵危赫业较嗨茊栴}或知識解決問題。

總結(jié)與未來方向

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

別糾結(jié)LLM能否推理的爭論。有推理總比沒推理好。迭代微調(diào)優(yōu)于SFT。聚合多個答案優(yōu)于單一答案，盡管成本更高。檢索加推理優(yōu)于單獨推理。

未來突破，我想看到如何解決非唯一可驗證答案的任務(wù)。過去，我也希望看到人們構(gòu)建真實應(yīng)用，而非僅解決基準測試。我認為所有基準測試很快會飽和。你們對AGI或構(gòu)建熱情高漲，我想引用Richard Feynman：“真相總是比你想的更簡單?！边@在研究中尤其正確。我看到很多學(xué)術(shù)論文試圖復(fù)雜化，所以我盡量讓講座簡單——確實很簡單。就這樣。

斯坦福大學(xué)CS25：大語言模型推理（Reasoning）-AI.x社區(qū)

問答環(huán)節(jié)

觀眾：你提到置信度，通常是取輸出Token序列的平均對數(shù)概率。你認為有更好的方法嗎？這對幻覺（hallucination）是好指標嗎？

Denny Zhou：我說的置信度是指生成條件的概率?？梢圆榭茨Ｐ偷膌og probs，看到概率。從實證觀察，推理路徑后，最終答案的置信度大幅提升。

觀眾：你提到Richard Sutton說擴展學(xué)習(xí)和搜索，但你認為擴展學(xué)習(xí)就夠了。能否展開為什么搜索不那么必要？

Denny Zhou：我得更具體。構(gòu)建模型時，不必考慮搜索。模型建成后，搜索可作為工具使用的一種特例，如CoT提示整合符號搜索。對于推理研究，我關(guān)心基本能力。模型可寫Python程序用搜索解決問題，但推理過程無需搜索。

觀眾：若無推理，你說無需采樣，因為可查看logits。但如果最可能的下一個Token導(dǎo)致分布擴散，而較不可能的Token導(dǎo)致更尖銳分布，采樣不會收斂于不同分布嗎？

Denny Zhou：好問題。我們?nèi)圆磺宄?xùn)練中分布如何重塑，很不明確。很難回答，因為我們對最終分布缺乏好的解釋。

觀眾：如何區(qū)分推理和答案？需要從最終輸出字符串提取數(shù)字嗎？如果答案是程序怎么辦？

Denny Zhou：好問題。如果答案是程序，提取更難。所以人們用微調(diào)解決數(shù)學(xué)或競技編程問題。對于一般情況，需為最終答案寫小心解析器。如果問題很具挑戰(zhàn)，低置信度答案可能是正確的，自一致性不完美。

觀眾：考慮到AGI可能在2-5年內(nèi)到來，若90%工作自動化，你會培養(yǎng)孩子哪些技能讓他們生存？

Denny Zhou：大問題。誰說AGI五年內(nèi)到來？去年ICLR有人問AI風(fēng)險，我說最可怕的是我回不去丟了工作。當前方法有很多限制。我真想看到AI研究的真正殺手級應(yīng)用。AI模型擅長編程，是編碼的好助手，但我只知道這些。

本文轉(zhuǎn)載自????Andy730????，作者：常華?

標簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

斯坦福學(xué)者推出專為Android移動設(shè)備打造的大模型，開源！

AIGC最前線 ? 2.5w瀏覽 ? 0回復(fù)
斯坦福團隊發(fā)現(xiàn)語言模型的新路徑為Q函數(shù)

xuxiangda ? 3729瀏覽 ? 0回復(fù)
斯坦福大學(xué)Gordon Wetzstein教授團隊提出全息增強現(xiàn)實眼鏡

AIGC最前線 ? 5021瀏覽 ? 0回復(fù)
斯坦福和微軟聯(lián)手，用大型語言模型優(yōu)化詩歌創(chuàng)作

AI論文解讀 ? 3411瀏覽 ? 0回復(fù)
斯坦福新研究：RAG能幫助LLM更靠譜嗎？

duhorse ? 2799瀏覽 ? 0回復(fù)
思維鏈緩存-Buffer of Thoughts，北大、UC伯克利、斯坦福最新研究大幅提升LLM推理

angel ? 5001瀏覽 ? 0回復(fù)
中國AI大模型論文數(shù)量全球第一，清華力壓麻省理工、斯坦福

Aceryt ? 3027瀏覽 ? 0回復(fù)
電子科大、同濟大學(xué)、新加坡國立大學(xué)等發(fā)表的Math-LLaVA：引導(dǎo)多模態(tài)大語言模型的數(shù)學(xué)推理能力

sbf_2000 ? 5216瀏覽 ? 0回復(fù)
幾何視角下的大語言模型推理

sbf_2000 ? 2672瀏覽 ? 0回復(fù)
斯坦福、Salesforce等開源1萬億tokens多模態(tài)數(shù)據(jù)集

Aceryt ? 2496瀏覽 ? 0回復(fù)
谷歌前CEO斯坦福大學(xué)演講內(nèi)容泄露，直指 AI 是強者之間的游戲，“富者更富，窮者唯有盡力而為”

51CTO技術(shù)棧 ? 3522瀏覽 ? 0回復(fù)
斯坦福大學(xué)研究團隊破解小規(guī)模語料庫知識獲取難題，提出創(chuàng)新的合成持續(xù)預(yù)訓(xùn)練方法

AI論文解讀 ? 4143瀏覽 ? 0回復(fù)
斯坦福大學(xué)和倫敦大學(xué)學(xué)院聯(lián)合打造多智能體系統(tǒng)中的安全防線，應(yīng)對大模型即時感染

xuxiangda ? 3659瀏覽 ? 0回復(fù)
開源大模型如何治理？斯坦福基礎(chǔ)模型研究中心給您支招

AIGC最前線 ? 3361瀏覽 ? 0回復(fù)
多智能體新進展 | 斯坦福大學(xué)提出新模型'Hypothetical Minds'，讓AI更懂人類思維

AI論文解讀 ? 3471瀏覽 ? 0回復(fù)
英偉達&斯坦福大學(xué)發(fā)布GRS：從真實世界觀測中生成機器人仿真任務(wù)

angel ? 3322瀏覽 ? 0回復(fù)
斯坦福大學(xué)：VideoAgent基于大語言模型的視頻QA系統(tǒng)

大語言模型論文跟蹤 ? 2513瀏覽 ? 0回復(fù)
斯坦福大學(xué)團隊使用多智能體強化學(xué)習(xí)訓(xùn)練社交推理語言模型

xuxiangda ? 2578瀏覽 ? 0回復(fù)
斯坦福大學(xué)：2025 年人工智能指數(shù)報告

歐米伽未來研究所 ? 1605瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

OpenAI的Stargate項目：德州巨頭勝過xAI的Colossus 5天前發(fā)布
谷歌TPU戰(zhàn)略布局：OpenAI合作重塑AI芯片格局 5天前發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

我把DeepSeek微調(diào)參數(shù)扒光了，顯存和性能優(yōu)化的秘密都在這 0回復(fù)

上一篇： AI代理與代理式AI：概念分類、應(yīng)用與挑戰(zhàn)

下一篇： 50張圖解讀MoE在LLM中的作用

社區(qū)精華內(nèi)容

目錄

<cite id="pbnlu"></cite>

<sub id="pbnlu"></sub>