斯坦福大學(xué)CS25:大語言模型推理(Reasoning)
?核心觀點
1. 大語言模型推理的定義
常規(guī)觀點:大語言模型(LLM)的推理被視為類似人類的高級能力,定義模糊,常引發(fā)爭論。
Zhou的觀點:推理爭論因缺乏明確定義而無意義;Zhou將推理定義為輸入與輸出之間的中間Token(推理步驟),僅是模型輸出的可預(yù)測行為,而非神秘過程。
2. 預(yù)訓(xùn)練模型的推理能力
常規(guī)觀點:預(yù)訓(xùn)練模型需通過思維鏈(CoT)提示或微調(diào)才能具備推理能力。
Zhou的觀點:預(yù)訓(xùn)練模型已具備推理能力,推理路徑存在于輸出空間中;問題在于解碼方式,例如通過探索更多候選而非貪心解碼即可挖掘推理,無需額外提示或微調(diào)。
3. 思維鏈提示的作用
常規(guī)觀點:思維鏈提示通過教模型逐步思考來啟用或增強推理能力。
Zhou的觀點:思維鏈提示不增加推理能力,而是重塑輸出分布,將已存在的含推理步驟的響應(yīng)提升至首位,使貪心解碼可直接選擇,屬于解碼優(yōu)化而非能力增強。
4. 機器生成數(shù)據(jù)優(yōu)于人類數(shù)據(jù)
常規(guī)觀點:人類標注數(shù)據(jù)是微調(diào)模型的最佳選擇,尤其適用于復(fù)雜推理任務(wù)。
Zhou的觀點:在迭代微調(diào)中,機器生成的數(shù)據(jù)優(yōu)于人類數(shù)據(jù),因其分布更貼近訓(xùn)練目標,直接優(yōu)化輸出質(zhì)量(如數(shù)學(xué)問題的正確性),符合機器學(xué)習(xí)第一原理。
5. 推理擴展的方向
常規(guī)觀點:提升推理能力主要靠擴大模型規(guī)模(如參數(shù)數(shù)量)。
Zhou的觀點:理論表明,固定大小的Transformer模型通過生成足夠長的思維鏈(中間Token)即可解決布爾電路問題,擴展推理步驟長度而非模型規(guī)模是關(guān)鍵方向。
6. 自一致性的適用條件
常規(guī)觀點:自一致性(Self-Consistency)是一種通用技術(shù),通過多次采樣并選擇最常見答案提升模型可靠性。
Zhou的觀點:自一致性僅在模型生成中間推理步驟時有用,通過對推理路徑的概率邊緣化選擇最可能答案;若直接輸出答案,只需查看模型概率,無需自一致性。
7. 推理無需依賴搜索
常規(guī)觀點:推理任務(wù)(如數(shù)學(xué)或邏輯問題)依賴類似經(jīng)典AI的窮舉搜索。
Zhou的觀點:LLM推理從Token到Token的預(yù)測中涌現(xiàn),無需顯式搜索;學(xué)習(xí)是可擴展的核心,搜索僅作為輔助工具而非推理本質(zhì)。
8. 迭代微調(diào)的局限性
常規(guī)觀點:迭代微調(diào)是提升推理能力的通用方法,適用于大多數(shù)任務(wù)。
Zhou的觀點:迭代微調(diào)依賴自動驗證器,僅適用于可驗證任務(wù)(如數(shù)學(xué)),對不可自動驗證的任務(wù)(如創(chuàng)意寫作)效果有限,限制其通用性。
9. 驗證器的重要性
常規(guī)觀點:強化學(xué)習(xí)算法(如PPO)是提升推理能力的關(guān)鍵技術(shù)。
Zhou的觀點:驗證器是迭代微調(diào)和AI訓(xùn)練的核心,遠超復(fù)雜算法的重要性;可靠驗證器決定數(shù)據(jù)質(zhì)量和模型性能,是AI成功的基石。
10. AGI時間表的懷疑
常規(guī)觀點:AI社區(qū)普遍樂觀,認為通用人工智能(AGI)可能在2-5年內(nèi)實現(xiàn)。
Zhou的觀點:Zhou對AGI在短期內(nèi)實現(xiàn)的說法持懷疑態(tài)度,認為當前方法有顯著局限,真正的挑戰(zhàn)是避免研究停滯而非過快達到AGI。
大語言模型推理(Reasoning)的定義
很高興看到大家已經(jīng)認為LLM很強大。你們可能會好奇,我對LLM是否能推理的看法是什么?我的答案是:這取決于推理(reasoning)的定義。今天我們將圍繞一個具體的推理定義展開討論。我從不參與關(guān)于LLM能否推理的爭論,因為沒有明確的推理定義,這些討論毫無意義。在LLM推理中,我們特指輸入與輸出之間的中間Token(intermediate tokens),這些Token被稱為推理或中間步驟。
這個概念并不新鮮。早在2017年,Deman發(fā)表了一篇論文,探討如何利用中間Token解決數(shù)學(xué)問題。當時,學(xué)術(shù)界對AlphaGo和AlphaZero的熱情高漲,但這篇論文極具開創(chuàng)性。如果你還沒讀過,我強烈推薦一讀。他們引入了自然語言來解決數(shù)學(xué)問題,而當時文獻中普遍采用符號方法或搜索。這在神經(jīng)符號(neurosymbolic)研究中也很常見,通常使用中間過程來解決推理問題。
舉個例子說明LLM推理的用法。當我在Google Brain創(chuàng)立推理團隊時,我設(shè)計了一個任務(wù):Last Letter Concatenation(末字母拼接)。這個任務(wù)作為激勵示例,可以用Transformer模型解決。例如,輸入“artificial intelligence”,輸出是將每個單詞末字母拼接的結(jié)果。如果沒有推理過程,模型可能直接輸出“LE”。但若有推理過程,模型會輸出:“‘a(chǎn)rtificial’的末字母是L,‘intelligence’的末字母是E,拼接L和E得到LE?!边@里高亮的文本就是推理(reasoning),這就是我所說的推理。
如果你熟悉程序合成或神經(jīng)符號推理,這個任務(wù)設(shè)計并不意外。我也嘗試過其他方案,比如拼接首字母,但所有大型模型都能輕松解決,因為網(wǎng)上有大量首字母拼接的例子,模型早已學(xué)會。但當我改為末字母拼接時,所有模型都失敗了。很多人會說:“這很自然,我們需要中間步驟,就像人類一樣。”如今LLM看似與人類很像,但作為研究者,我們要牢記:LLM只是預(yù)測模型(predictive models),不是人類。保持這個認知有助于理解許多新技術(shù)。
推理的理論基礎(chǔ)
為什么中間Token或推理重要?我們與斯坦福的Tima教授及其學(xué)生合作開展了理論研究。研究表明,對于任何可以用大小為\( T \)的布爾電路解決的問題,固定大小的Transformer模型通過生成\( O(T) \)個中間Token即可解決。這是一個強有力的結(jié)果。這里的“大小”指邏輯門的數(shù)量。例如,若使用GPU集群,\( T \)可能達到百萬、十億甚至萬億。如果直接生成最終答案,模型要么需要極深的網(wǎng)絡(luò),要么根本無法解決問題。這就是我們從理論角度理解推理的依據(jù),后續(xù)我會再回到這個理論論點。
解碼與思維鏈推理
有一種普遍觀點認為,預(yù)訓(xùn)練模型(pre-trained models)若不經(jīng)過CoT提示(Chain-of-Thought prompting)或微調(diào)(fine-tuning),無法進行推理。過去,大家熱衷于討論微調(diào)。這種觀點正確嗎?你們同意嗎?我認為這是錯誤的,非常錯誤。預(yù)訓(xùn)練模型已經(jīng)具備推理能力,我們需要的只是解碼(decoding),僅與解碼過程相關(guān),無論那些技術(shù)看起來多么復(fù)雜。
舉個例子:我有三個蘋果,我爸比我多兩個蘋果,我們總共有多少個蘋果?如果你用預(yù)訓(xùn)練模型(如LLaMA、DeepSeek或Chinchilla,我沒試過這些模型),輸入這個問題,模型很可能會輸出“5個蘋果”。顯然,這個答案是錯的。這是因為默認使用了貪心解碼(greedy decoding),問題出在解碼方式上。
如果查看第一個Token的第二候選(因為詞匯表很大),繼續(xù)解碼,你會看到:“我有三個蘋果,我爸比我多兩個蘋果,所以他有五個蘋果,3 + 5 = 8。”完美,對吧?我們只需探索更多候選。另一個選擇是第一個Token的第三候選“we”,解碼后得到:“我們總共有八個蘋果?!边@也正確。第四候選可能是“you”,繼續(xù)解碼,依然能看到正確的CoT推理,最終答案正確。第五候選可能是“five”,那是錯誤的。
可以看到,推理路徑(reasoning path)已經(jīng)存在于輸出空間(output space)中。特別是,第二和第四個回應(yīng)基于CoT推理。問題在于如何選擇最佳回應(yīng)。你可能認為可以根據(jù)輸出長度選擇,因為包含推理Token的輸出更長。但我們有更好的方法:根據(jù)答案置信度(answer confidence)選擇。置信度指模型預(yù)測Token的概率。對于包含CoT推理的回應(yīng),最終答案Token的置信度遠高于其他。例如,對于“8”這個Token,模型置信度接近98%,這在巨大詞匯表中非常高,通常每個Token的概率幾乎為零。
這個過程稱為Chain-of-Thought Decoding(思維鏈解碼),包含兩步:
1. 超越貪心解碼,檢查更多生成候選;
2. 選擇最終答案置信度最高的候選。
CoT解碼方法簡單,但仍需編程實現(xiàn)。聽說過去大家只想用自然語言,不寫代碼。當然,你們是例外。所以我們想:能否重塑模型的輸出分布,讓深思熟慮的回應(yīng)自然排在首位?如果CoT回應(yīng)排在首位,貪心解碼就能自然找到它。
思維鏈提示
現(xiàn)在來看CoT提示(Chain-of-Thought prompting)。如果你了解CoT提示,就能明白其工作原理。這是一個簡單方法。給定一個問題,你可能用一個相似問題作為示例,放在問題前,模型就會神奇地模仿推理風(fēng)格,生成逐步解決方案。現(xiàn)在可以理解CoT提示為何有效:它改變輸出分布,將輸出空間中原有的CoT解決方案推到首位。
還有更簡單的方法:“Let's Think Step by Step”(讓我們一步步思考)。這在推理研究中是個驚艷的工作。論文發(fā)布時,我以為是玩笑,怎么可能?當時Google Brain團隊開發(fā)了PaLM模型,我在PaLM上試了這個方法。我知道PaLM的構(gòu)建過程,絕對與這個“魔法”無關(guān)。但結(jié)果它竟然有效,我非常震驚。這篇論文極大啟發(fā)了我的推理研究。
這些提示方法簡單,且確實有效,但也有缺陷。CoT提示需要特定任務(wù)的示例,我對此不太滿意。如果我知道相似問題,我自己就能解決,為什么還要問別人?“Let's Think Step by Step”更通用,無需找相似示例,只需說“讓我們一步步思考”,魔法就出現(xiàn)了。但遺憾的是,其表現(xiàn)比少樣本提示(few-shot prompting)差得多。兩種方法看起來都不錯,但如果我問問題還得說“請一步步思考”,否則對方不會思考,這不符合預(yù)期。
監(jiān)督微調(diào)
如何解決?一種流行方法是監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT)。思路簡單:收集一組問題及其人類標注的逐步解決方案,然后最大化人類解決方案的似然(likelihood)。對于LLM訓(xùn)練,這只是最大化似然,之后模型可廣泛應(yīng)用。
我提到2017年的Deman論文,他們正是這樣做的:收集數(shù)學(xué)字面問題及人類標注的逐步解決方案,訓(xùn)練序列模型解決數(shù)學(xué)問題。2021年,OpenAI進一步擴展此方法,構(gòu)建了更大的數(shù)據(jù)集GSM8K(小學(xué)數(shù)學(xué)問題),用它微調(diào)GPT-3模型。
舉例說明:可以用Last Letter Concatenation或蘋果數(shù)學(xué)問題作為訓(xùn)練數(shù)據(jù)微調(diào)模型,然后用新問題測試,如“草莓里有多少小時?”我特意選這個問題,因為社交媒體上很多人認為這是測試AGI是否到來的好問題。
SFT是個通用的方法,一旦訓(xùn)練好模型,就能廣泛應(yīng)用。如果這能解決推理問題,我的講座到此結(jié)束——收集更多斯坦福的優(yōu)秀示例,訓(xùn)練模型即可。但實際上,SFT泛化能力不佳。2021年夏天,我們發(fā)現(xiàn)SFT在推理任務(wù)上表現(xiàn)不佳。怎么辦?擴展,擴展,再擴展——獲取更多數(shù)據(jù)訓(xùn)練模型,看效果如何。教訓(xùn)是:不要盲目擴展。一旦范式錯誤,無論如何擴展,都無效。
迭代微調(diào)與自我改進
如何解決SFT的泛化失敗?看看SFT流程:僅兩步。問題出在哪?出在人類數(shù)據(jù)上。如果你之前不知道,會很驚訝。如果人類數(shù)據(jù)有問題,Scale AI怎么賺錢?我團隊的一員發(fā)明了迭代微調(diào)(Iterative Fine-Tuning)。他告訴我,機器生成的數(shù)據(jù)可能比人類數(shù)據(jù)更適合訓(xùn)練,我一開始非常驚訝。
首個嘗試稱為Self-Improve(自我改進)。不再從人類收集數(shù)據(jù),而是讓模型生成數(shù)據(jù)。收集一組問題,讓模型生成逐步解決方案,然后最大化正確答案的似然。對于數(shù)學(xué)問題,你可能知道最終答案,但不知道逐步解決方案。模型生成解決方案后,檢查答案正確性:正確則選用,錯誤則丟棄。然后用此數(shù)據(jù)集微調(diào)模型,與SFT類似,唯一區(qū)別是數(shù)據(jù)來自模型而非人類。
這一方法由Eric、Tony和Noah提出,論文名為STAR,非常出色。STAR論文最初考慮用此方法節(jié)省標注成本,因為人類標注成本高。但后來我們從不同角度理解:一旦訓(xùn)練數(shù)據(jù)由更優(yōu)模型生成,模型就能自我改進。改進后,再次收集數(shù)據(jù),重復(fù)此過程。這就是迭代微調(diào)。
我列了一篇2024年1月由BAAI研究者發(fā)表的論文,標題為“Reasoning with Reinforced Fine-Tuning”,這是我注意到的最早學(xué)術(shù)出版的迭代微調(diào)研究。在OpenAI流行后,大家開始公開討論迭代微調(diào)。我相信多家機構(gòu)獨立發(fā)現(xiàn)了這個簡單但非常有效的想法。
在這個訓(xùn)練循環(huán)中,驗證器(verifier)至關(guān)重要,用于判斷哪個回應(yīng)正確。因為我們知道最終答案,只需用它選擇正確的推理路徑??煽康尿炞C器是迭代微調(diào)的核心,而非算法。我知道很多人討論不同的算法,如PPO或強化學(xué)習(xí)的各種變體。如果有人發(fā)現(xiàn)顯著優(yōu)于其他的方法,請告訴我,我可能錯過了什么。我很喜歡Richard Sutton的說法:“驗證:AI的關(guān)鍵”(Verification: The Key to AI),這是他2021年的文章標題。
為什么用模型生成的數(shù)據(jù)而非人類數(shù)據(jù)?不僅僅是為了節(jié)省成本,而是為了性能。有人有想法嗎?
觀眾:是CoT結(jié)構(gòu)的連貫性,還是人類解決問題方式的多樣性?
Denny Zhou:模型生成的數(shù)據(jù)分布更接近訓(xùn)練目標,訓(xùn)練更有效。這與機器學(xué)習(xí)的第一原理相關(guān):直接優(yōu)化我們想要的目標。
推理優(yōu)化的數(shù)學(xué)原理
若要構(gòu)建推理或生成有趣內(nèi)容的模型,需優(yōu)化衡量生成質(zhì)量的指標。指標因任務(wù)而異,例如數(shù)學(xué)問題的正確性、機器翻譯的BLEU分數(shù)或生成質(zhì)量。有了指標,計算其梯度并進行反向傳播。數(shù)學(xué)上,我們定義一個函數(shù)\( R \),給定問題和模型參數(shù)\( \theta \),衡量回應(yīng)質(zhì)量。\( R \)可以是正確率、BLEU分數(shù)或任何目標。然后計算梯度,最大化指標的期望值。
為此,需通過采樣計算期望,這就是策略梯度(policy gradient)的由來。如果你理解數(shù)學(xué)原理,就沒啥神秘的。有人說要激勵模型思考或推理,我不用這些詞,我用標準的機器學(xué)習(xí)術(shù)語:定義指標,計算梯度,反向傳播。
一旦找到有效路徑,就需擴展方法。有趣的是,對于這種微調(diào)方法,我們擴展輸出長度或CoT長度。也可以擴展模型深度,因為分析表明,只要CoT足夠長,模型幾乎能解決所有可計算問題。這很驚人——無需擴展模型大小,只需最小固定大小的Transformer模型。
類人推理的涌現(xiàn)
我想強調(diào)LLM推理的美妙之處:類人推理過程從Token到Token的預(yù)測中涌現(xiàn),而非依賴經(jīng)典AI的窮舉搜索。Garry Kasparov在1997年輸給Deep Blue后說:“Deep Blue的智能就像程序化的鬧鐘?!蔽彝?,但LLM推理不同,我們不做顯式搜索。講座前,有人引用了我的推文,說搜索已無關(guān)緊要,我很高興聽到這個。實際上,我用了你的代碼,發(fā)現(xiàn)搜索仍有用途。
舉個例子說明LLM推理與經(jīng)典AI的區(qū)別。2024年12月,Google發(fā)布Gemini 2.0 Thinking Mode(思考模式)。雖然2.5 Pro更強大,但我選這個模型有原因。模型發(fā)布后,我試了一個2025年的數(shù)學(xué)問題,確保不在訓(xùn)練集中:“用1到10的數(shù)字組成2025,每個數(shù)字用一次,僅用加法和乘法?!笨梢杂肞ython寫窮舉搜索程序得到結(jié)果??纯茨P偷乃伎歼^程。
Gemini模型支持查看思考過程,非常有趣。一開始,模型說:“2025是個大數(shù),暗示乘法占主導(dǎo)?!边@很像人類思維。它注意到2025是45的平方(45 × 45)。我設(shè)計問題時沒意識到這點,這是重要線索。模型開始思考如何用乘法得到接近2025平方根(45)的大中間結(jié)果。思考過程很長,這正是我們微調(diào)時使用長CoT的原因。最終,模型給出答案:“(10 × 4 + 5) = 45,45 × 45 = 2025。”太棒了,無需任何搜索。
還有一篇關(guān)于CoT提示的論文,提到Game 24問題。這個問題比Game 24難得多。他們結(jié)合搜索和提示解決,但現(xiàn)在完全不需要,模型僅用自然語言就能解決Game 24。這就是迭代微調(diào)的強大之處。
我想再次引用Richard Sutton:“基于已有發(fā)現(xiàn)構(gòu)建,只會讓發(fā)現(xiàn)過程更難看到。”他在加入Google DeepMind,看到AlphaGo和AlphaZero的成功后說,只有學(xué)習(xí)和搜索是可擴展的。但我強調(diào):學(xué)習(xí)是可擴展的,我們只需學(xué)習(xí)。
迭代微調(diào)的局限性
迭代微調(diào)的巨大優(yōu)勢是泛化能力強,但僅適用于可自動驗證的任務(wù),因為訓(xùn)練循環(huán)需要驗證器,無法納入人類驗證。并非所有任務(wù)都可自動驗證。有人能舉例說明不可驗證的任務(wù)嗎?
觀眾:創(chuàng)意寫作。
Denny Zhou:很好的例子。這是當前微調(diào)的重大限制。我知道很多人致力于改進RL算法。我希望看到更多研究解決不可驗證任務(wù),如創(chuàng)意寫作或編碼。有人說AI幾年內(nèi)會解決編碼問題,但我認為很具挑戰(zhàn)性。他們說的是競技編程,不是日常編程。我們關(guān)心設(shè)計、可讀性和協(xié)作,而不僅是最終答案。
自一致性與聚合
所有想法始于CoT解碼:推理路徑已存在于輸出空間,我們只需重塑輸出分布,讓貪心解碼找到它。然后討論了CoT提示和“Let's Think Step by Step”,它們重塑輸出分布,接著是SFT和迭代微調(diào),非常強大。但我們?nèi)杂懈倪M空間。
我想談兩個關(guān)鍵思路:聚合(aggregation)和檢索(retrieval)。我們看到LLM很強大,但生成推理Token然后輸出最終答案的解碼范式有問題??雌饋砗茏匀?,對吧?給定問題,生成中間Token,然后是最終答案。有人看到問題嗎?
觀眾:挑戰(zhàn)在于模型預(yù)測下一個Token的方式,導(dǎo)致結(jié)果與預(yù)期不一致。
Denny Zhou:模型最初設(shè)計僅為預(yù)測下一個Token。我們要記住,LLM是預(yù)測模型,不是人類。
數(shù)學(xué)上,LLM解碼做什么?給定問題,生成推理,然后最終答案,通過貪心解碼找到回應(yīng)。貪心解碼意味著最大化概率。但我們需選擇最自信的答案,二者不一致。簡單的條件概率數(shù)學(xué)很有用,理解解碼過程。我們可以修復(fù):生成推理路徑后,需對所有推理路徑求和,計算最終答案的概率。這在機器學(xué)習(xí)中稱為邊緣化(marginalization),推理路徑本質(zhì)上是隱變量。
這啟發(fā)了自一致性(self-consistency)方法:通過隨機采樣生成多個回應(yīng),選擇出現(xiàn)最頻繁的答案。例如,數(shù)學(xué)問題采樣多次,第一個回應(yīng)可能是“18”,第二個“26”,再次“18”,選擇最頻繁的。這正是概率邊緣化的實現(xiàn)。我們不看推理路徑,只選最頻繁的答案,而非最頻繁的推理路徑,這是關(guān)鍵。
實證上,自一致性顯著提升性能。在GSM8K問題上,微調(diào)的GPT-3模型準確率33%,OpenAI用驗證器達到55%。PaLM模型加CoT得到58%,與驗證器相當。但應(yīng)用自一致性后,準確率躍升至75%,相對提升近50%。PaLM 2甚至達到92%。o1模型(去年10月發(fā)布)通過聚合得到66.4%,自一致性仍有顯著提升。
采樣更多回應(yīng)成本更高,但這是推理時擴展(inference-time scaling)的一種方式。推理時擴展有很多方式,如延長CoT也增加推理時間。有人說推理時擴展,我得知道具體擴展什么。自一致性顯然是一種擴展方式。
自一致性天然自校準(self-calibrated)。一致性越高,準確率越高。在GSM8K上,自一致性超80%時,準確率接近100%。關(guān)心預(yù)測不確定性或置信度的人可以多次采樣。
確保大家理解自一致性的關(guān)鍵:
1. 當LLM不生成中間步驟直接輸出答案時,我們多次采樣,選擇最常見答案。有人有想法嗎?
觀眾:可以直接獲取概率。
Denny Zhou:對,就像經(jīng)典機器學(xué)習(xí),用邏輯回歸得到\( P(y|x) \),最大化概率。這就是傳統(tǒng)機器學(xué)習(xí)文獻中看不到自一致性的原因,它沒必要,僅對推理有用。
2. 可否改自一致性,讓LLM生成多個回應(yīng)而非多次采樣,然后選最常見答案?可以試試。這稱為最大邊緣推理(maximum marginal inference),選擇概率最大的最終答案。數(shù)學(xué)是我們所需的一切。
自一致性有個問題:假設(shè)答案是單個Token。對于一般問題,答案可能不同。我們擴展為Universal Self-Consistency。例如,某問題第二個回應(yīng)是“日本、中國、印度”,因這些國家在其他答案中出現(xiàn)最多,被選為最一致回應(yīng)。
推理中的檢索
另一個方法是檢索。關(guān)于推理的爭論很多,有人說:“或許只是檢索,而非推理?!蔽以谏缃幻襟w上看到這些爭論。對我來說,區(qū)分檢索和推理很難。主持會議時,我們討論每篇論文的新穎性,與檢索-推理爭論類似。
觀眾:我試過并行運行不同模型,如Gemini 2.5,四個模型同時回答同一問題,然后用驗證器找最一致結(jié)果。
Denny Zhou:對,這更像集成模型(ensemble model),類似隨機森林。數(shù)學(xué)原理與自一致性不同,但實現(xiàn)類似。好觀點。
我不關(guān)心檢索與推理的爭論。我在工業(yè)界,只關(guān)心性能。對我來說,檢索加推理最好,何必爭論?2024年我們發(fā)表了關(guān)于類比推理(analogical reasoning)的論文。舉個小例子說明檢索在推理中的重要性:“求一個正方形四頂點的面積……”我加了提示:“回憶一個相關(guān)問題,然后解決這個問題?!碑敃r我試了GPT-3.5和我們自己的模型,都失敗了。加了提示后,模型解決了。它找到相關(guān)問題——計算坐標平面兩點間的距離,然后用公式計算距離和面積。
另一個例子是物理問題的Step-Back(回退)。解決前,給予少樣本示例,指導(dǎo)模型回退,考慮更抽象的問題,獲取原理,然后解決。這就是檢索在推理中的作用?,F(xiàn)在大家知道Deep Research(深度研究),原理相同。我們有Gemini Deep Research,OpenAI也有。OpenAI的Deep Research負責人是我之前的實習(xí)生,博士畢業(yè)后加入OpenAI,發(fā)明了Deep Research?;舅悸泛唵危赫业较嗨茊栴}或知識解決問題。
總結(jié)與未來方向
別糾結(jié)LLM能否推理的爭論。有推理總比沒推理好。迭代微調(diào)優(yōu)于SFT。聚合多個答案優(yōu)于單一答案,盡管成本更高。檢索加推理優(yōu)于單獨推理。
未來突破,我想看到如何解決非唯一可驗證答案的任務(wù)。過去,我也希望看到人們構(gòu)建真實應(yīng)用,而非僅解決基準測試。我認為所有基準測試很快會飽和。你們對AGI或構(gòu)建熱情高漲,我想引用Richard Feynman:“真相總是比你想的更簡單?!边@在研究中尤其正確。我看到很多學(xué)術(shù)論文試圖復(fù)雜化,所以我盡量讓講座簡單——確實很簡單。就這樣。
問答環(huán)節(jié)
觀眾:你提到置信度,通常是取輸出Token序列的平均對數(shù)概率。你認為有更好的方法嗎?這對幻覺(hallucination)是好指標嗎?
Denny Zhou:我說的置信度是指生成條件的概率??梢圆榭茨P偷膌og probs,看到概率。從實證觀察,推理路徑后,最終答案的置信度大幅提升。
觀眾:你提到Richard Sutton說擴展學(xué)習(xí)和搜索,但你認為擴展學(xué)習(xí)就夠了。能否展開為什么搜索不那么必要?
Denny Zhou:我得更具體。構(gòu)建模型時,不必考慮搜索。模型建成后,搜索可作為工具使用的一種特例,如CoT提示整合符號搜索。對于推理研究,我關(guān)心基本能力。模型可寫Python程序用搜索解決問題,但推理過程無需搜索。
觀眾:若無推理,你說無需采樣,因為可查看logits。但如果最可能的下一個Token導(dǎo)致分布擴散,而較不可能的Token導(dǎo)致更尖銳分布,采樣不會收斂于不同分布嗎?
Denny Zhou:好問題。我們?nèi)圆磺宄?xùn)練中分布如何重塑,很不明確。很難回答,因為我們對最終分布缺乏好的解釋。
觀眾:如何區(qū)分推理和答案?需要從最終輸出字符串提取數(shù)字嗎?如果答案是程序怎么辦?
Denny Zhou:好問題。如果答案是程序,提取更難。所以人們用微調(diào)解決數(shù)學(xué)或競技編程問題。對于一般情況,需為最終答案寫小心解析器。如果問題很具挑戰(zhàn),低置信度答案可能是正確的,自一致性不完美。
觀眾:考慮到AGI可能在2-5年內(nèi)到來,若90%工作自動化,你會培養(yǎng)孩子哪些技能讓他們生存?
Denny Zhou:大問題。誰說AGI五年內(nèi)到來?去年ICLR有人問AI風(fēng)險,我說最可怕的是我回不去丟了工作。當前方法有很多限制。我真想看到AI研究的真正殺手級應(yīng)用。AI模型擅長編程,是編碼的好助手,但我只知道這些。
本文轉(zhuǎn)載自????Andy730????,作者:常華?
