偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大語言模型(LLM)是如何思考的?講講推動(dòng)下一代人工智能推理的五種途徑

譯文 精選
人工智能
大語言模型需要能夠解決數(shù)學(xué)問題、能夠調(diào)試代碼、能夠得出合乎邏輯的結(jié)論,還要能夠檢查和改正自身的錯(cuò)誤。通常而言,現(xiàn)代大語言模型的訓(xùn)練目標(biāo)往往是預(yù)測下一個(gè)詞語是什么,而不是去思考。那么,它們是如何突然變得非常擅長推理的呢??

譯者 | 張哲剛

審校 | 重樓

大語言模型(LLMs)最早時(shí)期只是具備自動(dòng)完成的功能迄今為止,進(jìn)步巨大,與當(dāng)初已經(jīng)不可同日而語然而,僅僅是生成流暢的文本并不足以體現(xiàn)真正的智能——真正的智能需要推理能力。這意味著大語言模型需要能夠解決數(shù)學(xué)問題、能夠調(diào)試代碼、能夠得出合乎邏輯的結(jié)論還要能夠檢查和改正自身的錯(cuò)誤。通常而言,現(xiàn)代大語言模型的訓(xùn)練目標(biāo)往往是預(yù)測下一個(gè)詞語是什么,而不是思考。那么,它們是如何突然變得非常擅長推理的呢?

答案一系列新技術(shù)使然——從提示工程到代理工具使用——這些技術(shù)推動(dòng)、指導(dǎo)在一定程度上直接促成著大語言模型日益成為有條不紊的思考者。下面,讓我們講講五種最具影響力的策略,正是它們推動(dòng)著推理型大語言模型不斷邁向新的領(lǐng)域

1.思維鏈提示:教大語言模型“逐步思考”

提高大型語言模型推理能力,起步最早且最能打的技術(shù)之一異乎尋常地簡單:讓模型解釋自身。

這種方法被稱為思維鏈(Chain-of-Thought,CoT)提示。意指提示模型在給出最終答案之前產(chǎn)生中間推理步驟。例如,不采用直接去問“17乘以24等于多少?”這種簡單直接的方式,而是用“讓我們一步一步地思考”來提示模型,引導(dǎo)它將問題分解:17×24=(20×17)+(4×17),諸如此類,等等。

這一理念最早2022年正式提出,至今仍然是基礎(chǔ)性的指導(dǎo)思想。OpenAI的o1模型被訓(xùn)練“在回答之前更多地思考”——本質(zhì)就是內(nèi)化了類似CoT的推理鏈。它的繼任者o3更進(jìn)一步,模擬推理的方式,在推理過程中暫停以反思和完善自身響應(yīng)。

原理呢,則很簡單:通過強(qiáng)制實(shí)施中間步驟,避免模型草率地、跳躍式地一步得出結(jié)論,從而提升多步推理演繹能力。

2.推理時(shí)間計(jì)算擴(kuò)展:每個(gè)問題更多思考時(shí)間

如果一個(gè)問題難度很大,那就更多的時(shí)間思考——人類會這么做,現(xiàn)在大語言模型也可以。

推理時(shí)間計(jì)算擴(kuò)展,是指通過在生成過程中分配更多計(jì)算這一途徑,來增強(qiáng)推理能力。模型可能會生成多個(gè)推理路徑,最后會選出最佳路徑。這種“自洽性”方法已成為推理基準(zhǔn)的標(biāo)準(zhǔn)。

OpenAI的o3-mini定義了三種推理程度選項(xiàng)(低、中、高),這些選項(xiàng)決定了模型在回答問題之前內(nèi)部推理的時(shí)間長短。在高推理水平下,o3-mini在數(shù)學(xué)和編碼任務(wù)上的表現(xiàn)甚至優(yōu)于完整的o1模型。

2025年的論文s1:簡單測試時(shí)間擴(kuò)展中引入了一種相關(guān)技術(shù),預(yù)算強(qiáng)制(budget forcing),它使用特殊標(biāo)記來控制推理深度。通過附加重復(fù)的“等待”標(biāo)記,引導(dǎo)模型生成更長的響應(yīng)、自我驗(yàn)證并自我糾正。使用類似“最終答案”這樣的結(jié)束思考信號標(biāo)記何時(shí)停止。這種方法在不修改模型權(quán)重的情況下擴(kuò)展推理從而提高準(zhǔn)確性——這是對經(jīng)典“逐步思考”提示的現(xiàn)代升級和改造。

代價(jià)有的,那就是準(zhǔn)確性的延遲。但是如果是面對棘手或艱巨的任務(wù),這通常是值得的,并且是利大于弊的。

3.強(qiáng)化學(xué)習(xí)和多階段訓(xùn)練:優(yōu)秀推理予以獎(jiǎng)勵(lì)

另一個(gè)改變游戲規(guī)則的因素:不要僅僅局限于預(yù)測單詞,而是獎(jiǎng)勵(lì)正確的推理。

OpenAI的o1和DeepSeek-R1這樣的模型是通過強(qiáng)化學(xué)習(xí)(RL)進(jìn)行訓(xùn)練的,以鼓勵(lì)優(yōu)秀的推理模式。這些模型不僅僅是模仿數(shù)據(jù),還能夠獎(jiǎng)勵(lì)生成有邏輯多步答案的推理。DeepSeek-R1的第一個(gè)迭代版本R1-Zero僅僅是使用了RL——沒有監(jiān)督微調(diào)——就開發(fā)出了非常強(qiáng)大推理能力

然而,僅僅使用強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練有可能導(dǎo)致語言不穩(wěn)定的問題出現(xiàn)。所以最終DeepSeek-R1采用了多階段訓(xùn)練方法:先進(jìn)行強(qiáng)化學(xué)習(xí)推理,然后使用監(jiān)督微調(diào)提高可讀性。同樣,阿里巴巴的QwQ-32B強(qiáng)大的基礎(chǔ)模型和持續(xù)的強(qiáng)化學(xué)習(xí)擴(kuò)展相結(jié)合,在數(shù)學(xué)和代碼方面體現(xiàn)了出色的性能。

結(jié)果如何?這些模型不僅能夠給出正確的答案,展示出正確答案是如何得到的——甚至學(xué)會自我糾正。

4.自我糾正和回溯:推理,然后倒帶

當(dāng)模型出錯(cuò)時(shí)會發(fā)生什么情況?它自己能夠意識到并改正錯(cuò)誤嗎?

一直以來大語言模型都在努力進(jìn)行自我糾正,但這方面一直有問題存在。2023 年,研究人員發(fā)現(xiàn),僅僅是簡單地讓模型“再試一次”,對答案鮮有改善——有時(shí)甚至會使情況變得更糟。但2025年有了新的進(jìn)展,回溯——一種經(jīng)典AI策略,被引入到大語言模型中來。

騰訊AI實(shí)驗(yàn)室的王姓工程師等人發(fā)現(xiàn),在o1模型中存在“思考不足”的問題:模型會在不同的想法之間跳躍,而不是一直堅(jiān)持一條推理線。他們策略推理切換進(jìn)行懲罰,鼓勵(lì)對每個(gè)想法進(jìn)行深入探索。

與此同時(shí),楊姓工程師等人提出了自回溯——當(dāng)模型陷入僵局時(shí),讓其重新回放,然后探尋更好的替代方案。這一策略依賴最優(yōu)推理解決方案的策略相比,準(zhǔn)確率提高了超過四十個(gè)百分點(diǎn)。

這些創(chuàng)新有效地增加了推理時(shí)的搜索和規(guī)劃能力呼應(yīng)了深度優(yōu)先搜索等傳統(tǒng)AI方法,并將它們疊加在大語言模型的靈活功能之上。

5.工具使用以及外部知識整合:超越模型的推理

有時(shí)候,推理意味著知道何時(shí)該去尋求幫助。

現(xiàn)代大語言模型越來越多地調(diào)用外部工具——計(jì)算器、代碼解釋器、各種API甚至網(wǎng)絡(luò)搜索——來處理復(fù)雜的查詢。

阿里巴巴的QwQ-32B直接集成了代理功能,使其能夠在推理過程中調(diào)用函數(shù)或訪問API。谷歌的Gemini 2.0(Flash Thinking)支持類似的功能——例如,它可以在推理過程中啟用代碼執(zhí)行,允許模型在其推理過程中運(yùn)行和評估代碼。

這一點(diǎn)非常重要,原因在于某些任務(wù)——比如驗(yàn)證實(shí)時(shí)數(shù)據(jù)、執(zhí)行符號數(shù)學(xué)或執(zhí)行代碼——超出了模型內(nèi)部的能力。將這類子任務(wù)轉(zhuǎn)移出去,能夠讓大語言模型專注于高階邏輯,從而顯著提高準(zhǔn)確性和可靠性。

從本質(zhì)上講,外部工具能夠讓大語言模型發(fā)揮超出其自身能耐的潛力——就像一把數(shù)字瑞士軍刀,用精密儀器擴(kuò)展推理能力。

結(jié)論:推理是一個(gè)堆棧,不是一個(gè)開關(guān)

大語言模型并不是一蹴而就就能“學(xué)會推理”——它們通過一系列分層的技術(shù)來獲取這種能力的。這些技術(shù)包括訓(xùn)練、提示、推理以及與外部世界的互動(dòng)。思維鏈提示加強(qiáng)了結(jié)構(gòu),推理時(shí)間擴(kuò)展增加了深度,強(qiáng)化學(xué)習(xí)(RL)改善了對齊,回溯增強(qiáng)了自我意識,外部工具使用增加了覆蓋面

至于像OpenAI的o1和o3、DeepSeek的R1、谷歌的Gemini 2.0 Flash Thinking以及阿里巴巴的QwQ這樣的頂級模型結(jié)合了這些策略中的幾種——可以稱之為將巧妙設(shè)計(jì)與認(rèn)知支架融合在一起的混合方案。

隨著該領(lǐng)域的不斷發(fā)展,可以預(yù)見,內(nèi)部推理過程與外部決策工具之間的耦合將會更加緊密。逐步走近我們的,不是僅僅能夠猜測下一個(gè)單詞,而是還能夠真正思考的大語言模型。

譯者介紹

張哲剛,51CTO社區(qū)編輯,系統(tǒng)運(yùn)維工程師,國內(nèi)較早一批硬件評測及互聯(lián)網(wǎng)從業(yè)者,曾入職阿里巴巴。

原文標(biāo)題:How Do LLMs Think? 5 Approaches Powering the Next Generation of AI Reasoning作者:Kate Koidan

責(zé)任編輯:姜華 來源: 51CTO內(nèi)容精選
相關(guān)推薦

2021-04-01 15:30:35

人工智能

2020-10-30 14:31:26

人工智能

2020-10-30 14:07:27

人工智能

2022-08-11 10:11:39

人工智能疾病診斷

2023-09-14 10:15:53

人工智能

2018-06-14 09:55:37

高校人工智能教育部

2023-03-21 14:30:47

2024-04-19 10:02:17

2023-09-28 13:08:22

2018-11-21 16:00:24

2019-01-21 09:39:26

人工智能AI互聯(lián)網(wǎng)

2020-08-07 18:22:14

人工智能AI標(biāo)準(zhǔn)體系

2024-07-10 08:12:34

2022-02-23 17:51:45

無人機(jī)人工智能

2020-10-27 10:10:39

人工智能機(jī)器學(xué)習(xí)技術(shù)

2021-12-02 22:38:29

人臉識別人工智能傳感技術(shù)

2013-08-27 13:52:32

鮑爾默微軟

2023-09-07 15:05:57

人工智能音頻助手

2010-09-27 08:10:22

JVMScalaGroovy

2024-03-07 16:19:52

人工智能AI聊天機(jī)器人
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號