偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大語(yǔ)言模型(LLM)是如何思考的?講講推動(dòng)下一代人工智能推理的五種途徑 原創(chuàng)

發(fā)布于 2025-4-8 08:14
瀏覽
0收藏

大語(yǔ)言模型(LLMs)最早時(shí)期只是具備自動(dòng)完成的功能,迄今為止,進(jìn)步巨大,與當(dāng)初已經(jīng)不可同日而語(yǔ)。然而,僅僅是生成流暢的文本并不足以體現(xiàn)真正的智能——真正的智能是需要推理能力的。這意味著,大語(yǔ)言模型需要能夠解決數(shù)學(xué)問(wèn)題、能夠調(diào)試代碼、能夠得出合乎邏輯的結(jié)論,還要能夠檢查和改正自身的錯(cuò)誤。通常而言,現(xiàn)代大語(yǔ)言模型的訓(xùn)練目標(biāo)往往是預(yù)測(cè)下一個(gè)詞語(yǔ)是什么,而不是去思考。那么,它們是如何突然變得非常擅長(zhǎng)推理的呢?

答案是一系列新技術(shù)使然——從提示工程到代理工具使用——這些技術(shù)推動(dòng)著、指導(dǎo)著或在一定程度上直接促成著大語(yǔ)言模型日益成為有條不紊的思考者。下面,讓我們講講五種最具有影響力的策略,正是它們,推動(dòng)著推理型大語(yǔ)言模型不斷邁向新的領(lǐng)域。

1.思維鏈提示:教大語(yǔ)言模型“逐步思考”

提高大型語(yǔ)言模型推理能力,起步最早且最能打的技術(shù)之一異乎尋常地簡(jiǎn)單:讓模型解釋自身。

這種方法被稱(chēng)為思維鏈(Chain-of-Thought,CoT)提示。意指提示模型在給出最終答案之前產(chǎn)生中間推理步驟。例如,不采用直接去問(wèn)“17乘以24等于多少?”這種簡(jiǎn)單直接的方式,而是用“讓我們一步一步地思考”來(lái)提示模型,引導(dǎo)它將問(wèn)題分解為:17×24=(20×17)+(4×17),諸如此類(lèi),等等。

這一理念最早于2022年正式提出,至今仍然是基礎(chǔ)性的指導(dǎo)思想。OpenAI的o1模型就被訓(xùn)練為“在回答之前更多地思考”——其本質(zhì)就是內(nèi)化了類(lèi)似CoT的推理鏈。它的繼任者o3則更進(jìn)一步,以模擬推理的方式,在推理過(guò)程中暫停,用以反思和完善自身響應(yīng)。

原理呢,則很簡(jiǎn)單:通過(guò)強(qiáng)制實(shí)施中間步驟,避免模型草率地、跳躍式地一步得出結(jié)論,從而提升多步推理演繹能力。

2.推理時(shí)間計(jì)算擴(kuò)展:給每個(gè)問(wèn)題更多的思考時(shí)間

如果一個(gè)問(wèn)題難度很大,那就用更多的時(shí)間去思考——人類(lèi)是會(huì)這么做的,現(xiàn)在大語(yǔ)言模型也可以。

推理時(shí)間計(jì)算擴(kuò)展,是指通過(guò)在生成過(guò)程中分配更多的計(jì)算這一途徑,來(lái)增強(qiáng)推理能力。模型可能會(huì)生成多個(gè)推理路徑,但最后會(huì)選出最佳路徑。這種“自洽性”方法已成為推理基準(zhǔn)的標(biāo)準(zhǔn)。

OpenAI的o3-mini定義了三種推理程度選項(xiàng)(低、中、高),這些選項(xiàng)決定了模型在回答問(wèn)題之前內(nèi)部推理的時(shí)間長(zhǎng)短。在高推理水平下,o3-mini在數(shù)學(xué)和編碼任務(wù)上??的表現(xiàn)甚至優(yōu)于??完整的o1模型。?

2025年的論文《s1:簡(jiǎn)單測(cè)試時(shí)間擴(kuò)展》中引入了一種相關(guān)技術(shù),預(yù)算強(qiáng)制(budget forcing),它使用特殊標(biāo)記來(lái)控制推理深度。通過(guò)附加重復(fù)的“等待”標(biāo)記,引導(dǎo)模型生成更長(zhǎng)的響應(yīng)、自我驗(yàn)證并自我糾正。使用類(lèi)似“最終答案”這樣的結(jié)束思考信號(hào)標(biāo)記何時(shí)停止。這種方法在不修改模型權(quán)重的情況下擴(kuò)展推理,從而提高了準(zhǔn)確性——這是對(duì)經(jīng)典“逐步思考”提示的現(xiàn)代化升級(jí)和改造。

代價(jià)也是有的,那就是準(zhǔn)確性的延遲。但是如果是面對(duì)棘手或艱巨的任務(wù),這通常是值得的,并且是利大于弊的。

3.強(qiáng)化學(xué)習(xí)和多階段訓(xùn)練:優(yōu)秀推理予以獎(jiǎng)勵(lì)

另一個(gè)改變游戲規(guī)則的因素:不要僅僅局限于預(yù)測(cè)單詞,而是要獎(jiǎng)勵(lì)正確的推理。

OpenAI的o1和DeepSeek-R1這樣的模型是通過(guò)強(qiáng)化學(xué)習(xí)(RL)進(jìn)行訓(xùn)練的,以鼓勵(lì)優(yōu)秀的推理模式。這些模型不僅僅是模仿數(shù)據(jù),還能夠獎(jiǎng)勵(lì)生成有邏輯多步答案的推理。DeepSeek-R1的第一個(gè)迭代版本R1-Zero僅僅是使用了RL——并沒(méi)有監(jiān)督微調(diào)——就開(kāi)發(fā)出了非常強(qiáng)大的推理能力。

然而,僅僅使用強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練有可能導(dǎo)致語(yǔ)言不穩(wěn)定的問(wèn)題出現(xiàn)。所以最終DeepSeek-R1采用了多階段訓(xùn)練方法:先進(jìn)行強(qiáng)化學(xué)習(xí)推理,然后使用監(jiān)督微調(diào)來(lái)提高可讀性。同樣,阿里巴巴的QwQ-32B將強(qiáng)大的基礎(chǔ)模型和持續(xù)的強(qiáng)化學(xué)習(xí)擴(kuò)展相結(jié)合,在數(shù)學(xué)和代碼方面體現(xiàn)了出色的性能。

結(jié)果如何?這些模型不僅能夠給出正確的答案,還能展示出正確答案是如何得到的——甚至學(xué)會(huì)了自我糾正。

4.自我糾正和回溯:推理,然后倒帶

當(dāng)模型出錯(cuò)時(shí)會(huì)發(fā)生什么情況?它自己能夠意識(shí)到并改正錯(cuò)誤嗎?

一直以來(lái),大語(yǔ)言模型都在努力進(jìn)行自我糾正,但這方面一直有問(wèn)題存在。2023 年,研究人員??發(fā)現(xiàn)??,僅僅是簡(jiǎn)單地讓模型“再試一次”,對(duì)答案鮮有改善——有時(shí)甚至?xí)骨闆r變得更糟。但2025年有了新的進(jìn)展,回溯——一種經(jīng)典AI策略,被引入到大語(yǔ)言模型中來(lái)。?

騰訊AI實(shí)驗(yàn)室的王姓工程師等人發(fā)現(xiàn),在o1型模型中存在“思考不足”的問(wèn)題:模型會(huì)在不同的想法之間跳躍,而不是一直堅(jiān)持一條推理路線。他們的策略是對(duì)推理切換進(jìn)行懲罰,鼓勵(lì)對(duì)每個(gè)想法進(jìn)行深入探索。

與此同時(shí),楊姓工程師等人提出了自回溯——當(dāng)模型陷入僵局時(shí),讓其重新回放,然后探尋更好的替代方案。這一策略與只依賴最優(yōu)推理解決方案的策略相比,準(zhǔn)確率提高了超過(guò)四十個(gè)百分點(diǎn)。

這些創(chuàng)新有效地增加了推理時(shí)的搜索和規(guī)劃能力,呼應(yīng)了深度優(yōu)先搜索等傳統(tǒng)AI方法,并將它們疊加在大語(yǔ)言模型的靈活功能之上。

5.工具的使用以及外部知識(shí)的整合:超越模型的推理

有時(shí)候,推理意味著知道何時(shí)該去尋求幫助。

現(xiàn)代大語(yǔ)言模型越來(lái)越多地調(diào)用外部工具——計(jì)算器、代碼解釋器、各種API甚至網(wǎng)絡(luò)搜索——來(lái)處理復(fù)雜的查詢。

阿里巴巴的QwQ-32B直接集成了代理功能,使其能夠在推理過(guò)程中調(diào)用函數(shù)或訪問(wèn)API。谷歌的Gemini 2.0(Flash Thinking)也支持類(lèi)似的功能——例如,它可以在推理過(guò)程中啟用代碼執(zhí)行,允許模型在其推理過(guò)程中運(yùn)行和評(píng)估代碼。

這一點(diǎn)非常重要,原因在于某些任務(wù)——比如驗(yàn)證實(shí)時(shí)數(shù)據(jù)、執(zhí)行符號(hào)數(shù)學(xué)或執(zhí)行代碼——超出了模型內(nèi)部的能力。將這類(lèi)子任務(wù)轉(zhuǎn)移出去,能夠讓大語(yǔ)言模型更專(zhuān)注于高階邏輯,從而顯著提高準(zhǔn)確性和可靠性。

從本質(zhì)上講,外部工具能夠讓大語(yǔ)言模型發(fā)揮超出其自身能耐的潛力——就像是一把數(shù)字瑞士軍刀,用精密儀器來(lái)擴(kuò)展推理能力。

結(jié)論:推理是一個(gè)堆棧,而不是一個(gè)開(kāi)關(guān)

大語(yǔ)言模型并不是一蹴而就就能“學(xué)會(huì)推理”——它們是通過(guò)一系列分層的技術(shù)來(lái)獲取這種能力的。這些技術(shù)包括訓(xùn)練、提示、推理以及與外部世界的互動(dòng)。思維鏈提示加強(qiáng)了結(jié)構(gòu),推理時(shí)間擴(kuò)展增加了深度,強(qiáng)化學(xué)習(xí)(RL)改善了對(duì)齊性,回溯增強(qiáng)了自我意識(shí),外部工具使用增加了覆蓋面。

至于像OpenAI的o1和o3、DeepSeek的R1、谷歌的Gemini 2.0 Flash Thinking以及阿里巴巴的QwQ這樣的頂級(jí)模型,則結(jié)合了這些策略中的幾種——可以稱(chēng)之為將巧妙設(shè)計(jì)與認(rèn)知支架融合在一起的混合方案。

隨著該領(lǐng)域的不斷發(fā)展,可以預(yù)見(jiàn),內(nèi)部推理過(guò)程與外部決策工具之間的耦合將會(huì)更加緊密。逐步走近我們的,不是僅僅能夠猜測(cè)下一個(gè)單詞,而是還能夠真正思考的大語(yǔ)言模型。

譯者介紹

張哲剛,51CTO社區(qū)編輯,系統(tǒng)運(yùn)維工程師,國(guó)內(nèi)較早一批硬件評(píng)測(cè)及互聯(lián)網(wǎng)從業(yè)者,曾入職阿里巴巴。

原文標(biāo)題:??How Do LLMs Think? 5 Approaches Powering the Next Generation of AI Reasoning??,作者:Kate Koidan?


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
已于2025-4-8 09:33:19修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦