偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

系統(tǒng)梳理 Test-Time Compute 的主要實(shí)現(xiàn)路徑 原創(chuàng)

發(fā)布于 2025-9-5 10:21
瀏覽
0收藏

編者按: AI 真的在“思考”嗎?當(dāng)模型面對(duì)數(shù)學(xué)推理、代碼生成或復(fù)雜決策時(shí),它是如何一步步推演出答案的?如果你曾困惑于大模型在關(guān)鍵任務(wù)中表現(xiàn)不穩(wěn)定、缺乏可解釋性,甚至生成結(jié)果難以驗(yàn)證,那么你并不孤單。這些痛點(diǎn)不僅影響研發(fā)效率,更直接制約了AI在高風(fēng)險(xiǎn)場(chǎng)景中的落地可靠性。

本文系統(tǒng)梳理了測(cè)試時(shí)計(jì)算(test-time compute)的三大實(shí)現(xiàn)路徑:N 選 1 采樣、多數(shù)投票及相關(guān)方法、思維鏈(Chain-of-Thought)自我推理,到融合搜索算法與世界模型的結(jié)構(gòu)化推理系統(tǒng),還深入探討了驗(yàn)證器設(shè)計(jì)、獎(jiǎng)勵(lì)機(jī)制、隱空間推理與智能體行為優(yōu)化等關(guān)鍵挑戰(zhàn)。

作者 | Davis Treybig

編譯 | 岳揚(yáng)

當(dāng)前大語言模型(LLM)最有趣的研究趨勢(shì)之一,是推理模型的興起 —— 這類模型在給出答案前會(huì)花費(fèi)時(shí)間進(jìn)行思考。

這種技術(shù)通常被稱為「測(cè)試時(shí)計(jì)算」(test-time compute),即在推理階段進(jìn)行深度推理。其實(shí)在模型推理過程中應(yīng)用搜索或深度推理的思路早已存在(例如 AlphaZero[1],以及 Transformer 誕生之前就嘗試用類似方法解決旅行商問題的論文[2]),但 o1 的出現(xiàn)讓這一理念重新回到了主流視野。

最令人興奮的是,這種測(cè)試時(shí)計(jì)算可能展現(xiàn)出與預(yù)訓(xùn)練相似的擴(kuò)展規(guī)律 —— 換言之,就像增加訓(xùn)練計(jì)算量能帶來模型能力的指數(shù)級(jí)提升一樣,若在推理階段分配更多計(jì)算資源(延長(zhǎng)思考時(shí)間),模型性能理論上也會(huì)出現(xiàn)可預(yù)測(cè)的指數(shù)級(jí)增長(zhǎng)。

系統(tǒng)梳理 Test-Time Compute 的主要實(shí)現(xiàn)路徑-AI.x社區(qū)

OpenAI 發(fā)布的關(guān)于 o1 模型測(cè)試時(shí)計(jì)算擴(kuò)展效果的圖示表明:模型的準(zhǔn)確率相對(duì)于對(duì)數(shù)尺度的計(jì)算量呈現(xiàn)可預(yù)測(cè)的增長(zhǎng),表明存在指數(shù)關(guān)系

但像 o1 這類模型背后的實(shí)現(xiàn)原理究竟是什么?測(cè)試時(shí)計(jì)算擴(kuò)展(test-time compute scaling)又有哪些不同的實(shí)現(xiàn)機(jī)制與技術(shù)路徑?目前我尚未找到關(guān)于此技術(shù)直觀系統(tǒng)的綜述,而 OpenAI 對(duì)其技術(shù)細(xì)節(jié)守口如瓶,因此本文將嘗試構(gòu)建一個(gè)解讀框架。

本篇博客將結(jié)合近期的大量文獻(xiàn)研究以及與多家實(shí)驗(yàn)室機(jī)器學(xué)習(xí)研究者的交流,系統(tǒng)梳理實(shí)現(xiàn)測(cè)試時(shí)計(jì)算擴(kuò)展的主要技術(shù)路徑。

01 測(cè)試時(shí)計(jì)算的基本實(shí)現(xiàn)機(jī)制

1.1 N 選 1 采樣、多數(shù)投票(majority voting)及相關(guān)方法

其核心思想是讓語言模型在推理階段生成多個(gè)可能的輸出,然后通過采樣、投票或其他評(píng)估/驗(yàn)證器方法來選出最佳答案。 這種方法無需改變模型的訓(xùn)練方式,但確實(shí)能作為一個(gè)有效的基線方案。

系統(tǒng)梳理 Test-Time Compute 的主要實(shí)現(xiàn)路徑-AI.x社區(qū)

Large Language Monkeys[3]

其中的第一點(diǎn)細(xì)微差異在于驗(yàn)證器的設(shè)計(jì)。多數(shù)投票(majority voting)等簡(jiǎn)單方法通用性雖強(qiáng)但效果有限。代碼、數(shù)學(xué)等特定領(lǐng)域可采用專用的驗(yàn)證器(如代碼的單元測(cè)試與編譯器、數(shù)學(xué)的符號(hào)計(jì)算引擎),但缺乏普適性。目前的主流趨勢(shì)是通過微調(diào)大語言模型構(gòu)建專用驗(yàn)證器(參見此案例[4])。

另一個(gè)問題在于,對(duì)于許多更復(fù)雜的問題,傳統(tǒng)的采樣方法可能永遠(yuǎn)無法生成正確答案(或者需要耗費(fèi)大量計(jì)算資源才能以足夠高的概率生成正確答案)。后續(xù)我們將看到,解決這一問題的正確方法要么基于優(yōu)質(zhì)推理軌跡進(jìn)行訓(xùn)練,要么通過獎(jiǎng)勵(lì)機(jī)制引導(dǎo)模型完成復(fù)雜推理。

1.2 思維鏈(Chain of thought)

第二種方法是讓語言模型生成極其詳細(xì)的長(zhǎng)鏈思維推理軌跡,以此提升推理能力。 這種方式本質(zhì)上是單一模型通過自回歸方式產(chǎn)生大量 token 的自我對(duì)話過程 —— 并不依賴外部系統(tǒng)或控制流程。OpenAI 在其 o1 公告中展示了此類案例[5]。

雖然基礎(chǔ)版本可通過提示詞工程實(shí)現(xiàn)(例如“逐步思考”),但其進(jìn)階版本需要專門的預(yù)訓(xùn)練與后訓(xùn)練技術(shù),以優(yōu)化這類長(zhǎng)鏈推理軌跡的生成效果。

這里的關(guān)鍵差異在于模型如何通過訓(xùn)練提升長(zhǎng)鏈推理能力。大致有以下實(shí)現(xiàn)路徑:

1)監(jiān)督學(xué)習(xí)(Supervised learning)  —— 理論上可通過大量人工撰寫的長(zhǎng)鏈思維樣本進(jìn)行訓(xùn)練。但實(shí)踐中難以獲取足夠的高質(zhì)量數(shù)據(jù):公開領(lǐng)域的高水平長(zhǎng)篇幅推理樣本稀缺,且人工制作成本極高。

2)合成推理軌跡(Synthetic reasoning traces)  —— 在特定問題領(lǐng)域,可通過程序化方法生成復(fù)雜的推理軌跡。例如這項(xiàng)研究[6]利用知識(shí)圖譜生成保證正確性的問題/推理/答案三元組。在數(shù)學(xué)和計(jì)算機(jī)科學(xué)領(lǐng)域,還可使用形式化系統(tǒng)(如符號(hào)計(jì)算引擎、Lean 語言[7]、編譯器與構(gòu)建系統(tǒng))產(chǎn)生合成推理鏈,作為模型的訓(xùn)練樣本。

3)采樣&驗(yàn)證 —— 要求大語言模型生成多個(gè)推理輸出,通過驗(yàn)證機(jī)制或獎(jiǎng)勵(lì)模型區(qū)分優(yōu)劣推理鏈,進(jìn)而構(gòu)建用于后訓(xùn)練的強(qiáng)化學(xué)習(xí)數(shù)據(jù)集。核心區(qū)別在于使用結(jié)果獎(jiǎng)勵(lì)模型(ORM,驗(yàn)證最終輸出的正確性)還是過程獎(jiǎng)勵(lì)模型[8](PRM,對(duì)局部推理鏈進(jìn)行獎(jiǎng)勵(lì)評(píng)估)。該領(lǐng)域存在非常多的方法:包括采樣生成方式、驗(yàn)證器的訓(xùn)練或設(shè)計(jì)、以及整合獎(jiǎng)勵(lì)信號(hào)的強(qiáng)化學(xué)習(xí)系統(tǒng)架構(gòu)等。

此處的考量在于:如何在a. 數(shù)據(jù)規(guī)模 b. 計(jì)算可行性 c. 人力成本這三個(gè)維度實(shí)現(xiàn)高效擴(kuò)展?OpenAI 強(qiáng)調(diào)其 o1 技術(shù)具備“數(shù)據(jù)高效特性(data-efficient)”,暗示其很可能深度融合了合成數(shù)據(jù)與基于強(qiáng)化學(xué)習(xí)的驗(yàn)證技術(shù),而非某種依賴人工標(biāo)注的推理數(shù)據(jù)集。

合成數(shù)據(jù)技術(shù)雖有效,但通常局限于特定領(lǐng)域和更易量化的問題類型,因此其泛化能力仍存疑。

采樣技術(shù)面臨的挑戰(zhàn)在于,許多復(fù)雜問題的推理搜索空間過大,既無法進(jìn)行窮舉生成,也難以高效驗(yàn)證。 這與機(jī)器人等強(qiáng)化學(xué)習(xí)領(lǐng)域面臨的問題相似 —— 需要巧妙地模擬或“搜索”結(jié)果空間,并設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)。

這正是過程獎(jiǎng)勵(lì)模型(PRM)的價(jià)值核心 —— 它能提前終止錯(cuò)誤的推理路徑,聚焦于成功概率較高的中間狀態(tài)進(jìn)行分支(相關(guān)論述參見該論文[9]第 3.3 節(jié))。

關(guān)于如何構(gòu)建推理軌跡結(jié)構(gòu)以提升訓(xùn)練效果,當(dāng)前存在大量前沿探索:Dualformer[10] 在訓(xùn)練過程中有選擇性地遮蔽部分推理軌跡,旨在讓模型習(xí)得類似人類“系統(tǒng) 1”的心理啟發(fā)式思維;Stream of Search[11] 研究則發(fā)現(xiàn)包含錯(cuò)誤回溯、自我修正的“不完美”推理軌跡,相比完美的線性推理更具訓(xùn)練價(jià)值;另有論文[12]證實(shí)帶回溯糾錯(cuò)的錯(cuò)誤推理鏈對(duì)訓(xùn)練有益;Beyond A[13] 甚至通過 A* 等經(jīng)典搜索算法構(gòu)建訓(xùn)練樣本,來教導(dǎo)模型如何進(jìn)行搜索。

1.3 推理時(shí)搜索(及其他輔助系統(tǒng))

實(shí)現(xiàn)推理階段計(jì)算擴(kuò)展的第三大路徑,是在推理過程中實(shí)際采用某種搜索技術(shù)。 這意味著推理不再僅僅是模型推理問題,更演變?yōu)橄到y(tǒng)工程問題 —— 需要引入某種控制流或流程編排機(jī)制,而非單純依賴單一模型的詞元輸出。

一些有趣的例子表明,這種范式不僅限于“標(biāo)準(zhǔn)”的大語言模型。例如,AlphaZero[14] 通過訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)指導(dǎo)蒙特卡洛樹搜索算法選擇最佳落子位置;AlphaProof[15] 則結(jié)合預(yù)訓(xùn)練大語言模型與強(qiáng)化學(xué)習(xí)算法生成候選解決方案,再通過 Lean 證明輔助語言(proof assistant language)進(jìn)行驗(yàn)證。

當(dāng)前 LLM 研究中,最常見的實(shí)現(xiàn)形式是在推理階段集成某種“搜索+驗(yàn)證”技術(shù):模型首先生成 N 個(gè)候選的推理步驟,經(jīng)驗(yàn)證器或獎(jiǎng)勵(lì)模型評(píng)分篩選后,然后在最優(yōu)候選子集中重復(fù)此過程。值得注意的是,前文討論的“N 選 1 采樣”方法可視為該體系的子集。

系統(tǒng)梳理 Test-Time Compute 的主要實(shí)現(xiàn)路徑-AI.x社區(qū)

HuggingFace 關(guān)于通過搜索+過程獎(jiǎng)勵(lì)模型實(shí)現(xiàn)測(cè)試時(shí)計(jì)算的綜述

該領(lǐng)域的優(yōu)秀研究案例包括:Tree of Thoughts[16]、Self-Evaluation Guided Beam Search for Reasoning[17] 以及 Reasoning with Language Model is Planning with World Model[18]。這些方法均融合了搜索技術(shù)(廣度優(yōu)先搜索、深度優(yōu)先搜索、波束搜索、蒙特卡洛樹搜索)與驗(yàn)證機(jī)制來引導(dǎo)語言模型推理生成。LLM Reasoners[19] 論文中的可視化呈現(xiàn)(如下圖所示)直觀展示了這些技術(shù)的運(yùn)作方式。這些方法在核心思路上高度一致。

系統(tǒng)梳理 Test-Time Compute 的主要實(shí)現(xiàn)路徑-AI.x社區(qū)

值得注意的是,這種“搜索技術(shù)+驗(yàn)證器+生成模型”的組合范式與前文所述的思維鏈技術(shù)幾乎同構(gòu) —— 唯一區(qū)別在于這些技術(shù)是離線應(yīng)用于生成后訓(xùn)練強(qiáng)化學(xué)習(xí)數(shù)據(jù)集,還是在推理時(shí)在線應(yīng)用。但兩種方式都實(shí)現(xiàn)了測(cè)試時(shí)計(jì)算擴(kuò)展:前者通過訓(xùn)練使模型在測(cè)試時(shí)進(jìn)行更長(zhǎng)時(shí)間的推理,而后者則在推理過程中引導(dǎo)模型生成更大量的輸出。

除搜索算法外,還可集成其他類型的輔助系統(tǒng)來增強(qiáng)生成模型。RAP 論文[18]便是一個(gè)典型范例:研究者使用一個(gè)輔助 LLM 作為“世界模型”來追蹤環(huán)境狀態(tài)。換句話說,當(dāng)生成式 LLM 持續(xù)輸出回溯、思考、權(quán)衡等推理動(dòng)作時(shí),世界模型會(huì)同步跟蹤每個(gè)動(dòng)作執(zhí)行后的“世界狀態(tài)”。

系統(tǒng)梳理 Test-Time Compute 的主要實(shí)現(xiàn)路徑-AI.x社區(qū)

標(biāo)準(zhǔn)思維鏈動(dòng)作序列與世界模型方法的可視化對(duì)比(后者在每個(gè)動(dòng)作后均保留了“世界狀態(tài)”)

從理論上講,這種方式讓模型能更輕松地推斷后續(xù)動(dòng)作產(chǎn)生的影響。相較于單一思維鏈的輸出,模型必須隱式回放整個(gè)動(dòng)作序列才能理解當(dāng)前世界狀態(tài)。

上文提到的推理研究論文[19]提出了一個(gè)有趣的形式化框架,試圖將多數(shù)投票、思維鏈、搜索技術(shù)等不同方法統(tǒng)一到同一個(gè)理論體系中。

研究者認(rèn)為這些技術(shù)本質(zhì)上都是以下三要素的組合:

1)用于確定不同推理步驟優(yōu)先級(jí)的獎(jiǎng)勵(lì)函數(shù)

2)用于定義推理狀態(tài)轉(zhuǎn)換的世界模型

3)用于探索廣闊推理空間的搜索算法

在此框架下,標(biāo)準(zhǔn)的思維鏈推理的獎(jiǎng)勵(lì)函數(shù)等同于默認(rèn)模型似然輸出,其世界模型僅簡(jiǎn)單地將推理動(dòng)作持續(xù)追加到完整動(dòng)作歷史中,并采用始終對(duì)輸出概率分布進(jìn)行單次采樣的“貪婪”搜索算法。

筆者認(rèn)為這種分析視角頗具啟發(fā)性。該論文還通過基準(zhǔn)測(cè)試發(fā)現(xiàn):搜索技術(shù)持續(xù)優(yōu)于思維鏈推理,而 RAP(世界模型+搜索技術(shù))則始終超越純搜索方法。

斯坦福大學(xué)近期對(duì)推理模型的元綜述(meta overview)[20]也描述了類似的思維框架 —— 認(rèn)為這些方法大多都是“生成器、驗(yàn)證器和搜索組件的集成”,這本質(zhì)上是相同的框架。

02 其他考量因素

2.1 驗(yàn)證器機(jī)制

如我們所見,這些技術(shù)的效果很大程度上取決于驗(yàn)證器的質(zhì)量及其驗(yàn)證能力。啟發(fā)式/自動(dòng)驗(yàn)證器(Heuristic/automatic verifiers)雖有效但天然具有領(lǐng)域局限性(例如,編程題目中的測(cè)試用例)。學(xué)習(xí)型驗(yàn)證器(Learned verifiers)雖可行,但需要特定領(lǐng)域的高質(zhì)量訓(xùn)練數(shù)據(jù) —— 可參考 OpenAI 這篇早期的論文[21],他們訓(xùn)練了用于數(shù)學(xué)問題的學(xué)習(xí)型驗(yàn)證器。直接使用 LLM 用作驗(yàn)證器雖已取得顯著進(jìn)展,但該方法的可行性仍存在一定局限?;谶^程的驗(yàn)證器(Process based verifiers)非常重要,但其實(shí)現(xiàn)難度遠(yuǎn)高于基于結(jié)果的驗(yàn)證器(outcome based verifiers)。

MuZero[22] 為此領(lǐng)域的發(fā)展提供了一個(gè)重要參照 —— 這個(gè)無模型的強(qiáng)化學(xué)習(xí)系統(tǒng)能掌握多種復(fù)雜游戲并達(dá)到頂尖水平。“無模型(Model-free)”意味著其強(qiáng)化學(xué)習(xí)算法中并未編碼任何特定游戲規(guī)則。

這種領(lǐng)域無關(guān)的驗(yàn)證器設(shè)計(jì)似乎對(duì)模型在推理能力上實(shí)現(xiàn)普遍提升非常重要。當(dāng)然,關(guān)鍵問題在于,相較于圍棋、國際象棋、將棋和 Atari 游戲等獎(jiǎng)勵(lì)函數(shù)明確的領(lǐng)域,如何在獎(jiǎng)勵(lì)機(jī)制更模糊的領(lǐng)域?qū)崿F(xiàn)類似效果仍待探索。

2.2 泛化能力存疑

這篇精彩的博文深入探討了將強(qiáng)化學(xué)習(xí)應(yīng)用于推理領(lǐng)域的挑戰(zhàn)[23],特別是在 OpenAI 的 o1 模型這個(gè)具體背景下來討論這個(gè)問題。o1 采用強(qiáng)化學(xué)習(xí)技術(shù),而強(qiáng)化學(xué)習(xí)在獎(jiǎng)勵(lì)信號(hào)清晰且頻繁的領(lǐng)域效果最佳,但現(xiàn)實(shí)是大多數(shù)領(lǐng)域缺乏這種明確的獎(jiǎng)勵(lì)機(jī)制。

……

OpenAI 承認(rèn) o1 是在易于驗(yàn)證的領(lǐng)域進(jìn)行訓(xùn)練的,但希望其推理能力能泛化到所有領(lǐng)域。這種跨領(lǐng)域的泛化能力能否實(shí)現(xiàn),是一個(gè)價(jià)值萬億美元的問題。我先直截了當(dāng)?shù)卣f出我的觀點(diǎn):

?? o1 風(fēng)格的推理模型無法實(shí)現(xiàn)超越訓(xùn)練領(lǐng)域的有效泛化

從實(shí)際案例來看,當(dāng)前多數(shù)測(cè)試時(shí)計(jì)算模型在特定問題領(lǐng)域(如數(shù)學(xué)、邏輯、計(jì)算機(jī)科學(xué))表現(xiàn)突出,但在其他領(lǐng)域并未展現(xiàn)明顯優(yōu)勢(shì)。許多體驗(yàn)過這類模型的研究者反饋,它們?cè)趥鹘y(tǒng)生成任務(wù)上的表現(xiàn)反而明顯下降?;趶?qiáng)化學(xué)習(xí)的推理技術(shù)能否有效泛化到驗(yàn)證難度更高的領(lǐng)域,仍是一個(gè)值得探索的開放性問題。

2.3 詞元空間與隱空間中的推理

與上述所有方法形成有趣對(duì)照的是:詞元空間究竟是否為模型推理的最優(yōu)方式?現(xiàn)有研究開始探索讓模型直接在隱空間[24]中推理 —— 即在推理過程中將隱藏狀態(tài)反饋給模型,而非解碼后的詞元。

系統(tǒng)梳理 Test-Time Compute 的主要實(shí)現(xiàn)路徑-AI.x社區(qū)

從理論上講,隱空間推理可能更具優(yōu)勢(shì),因?yàn)殡[藏狀態(tài)(hidden state)代表了下一詞元生成的概率分布,而詞元本質(zhì)上是該分布的“采樣樣本”。相較于僅選擇一個(gè)狀態(tài),在所有可能狀態(tài)下進(jìn)行推理更接近人類的推理模式,可能有提升效果。

這種方法的潛在缺陷是,此類模型不會(huì)向用戶“展示推理過程”。但考慮到 OpenAI 等公司已經(jīng)開始隱藏推理步驟,這個(gè)缺點(diǎn)或許無關(guān)緊要。理論上仍可可視化詞元輸出而同時(shí)在隱空間推理,但這可能導(dǎo)致用戶所見與模型實(shí)際推理過程出現(xiàn)偏差。

2.4 智能體推理機(jī)制

我特別關(guān)注這些技術(shù)如何映射到智能體領(lǐng)域。優(yōu)化模型的多步驟復(fù)雜推理軌跡,與優(yōu)化智能體的多步驟推理軌跡存在高度相似性 —— 唯一區(qū)別在于智能體的子步驟被拆分為不同的模型調(diào)用,且通常涉及更多動(dòng)態(tài)組件(如函數(shù)調(diào)用等)。

觀察到許多領(lǐng)先的智能體創(chuàng)業(yè)公司(如 Cognition、Basis 等)都將這些理念融入其智能體設(shè)計(jì)。例如,多家智能體公司會(huì)采集智能體的運(yùn)行軌跡,通過搜索技術(shù)+獎(jiǎng)勵(lì)模型進(jìn)行回放來推演反事實(shí)推理路徑(counterfactual reasoning paths),并將這些反事實(shí)軌跡(counterfactual trajectories)作為微調(diào)樣本用于提升智能體系統(tǒng)性能。

對(duì)于需要 50-100+ 次鏈?zhǔn)?LLM 調(diào)用來在復(fù)雜工具環(huán)境中完成任務(wù)的智能體而言,這種方法至關(guān)重要 —— 因?yàn)閱未握?qǐng)求下智能體可執(zhí)行的動(dòng)作組合復(fù)雜度極高。

特別值得關(guān)注的是,相較于在模型層通用地解決多步推理問題,設(shè)計(jì)針對(duì)特定領(lǐng)域的搜索算法和過程獎(jiǎng)勵(lì)模型顯然更具可行性。

這恰好印證了前文提及的那篇博客文章的觀點(diǎn):這些技術(shù)可能難以實(shí)現(xiàn)泛化。復(fù)雜推理的強(qiáng)化學(xué)習(xí)技術(shù)在模型提供商層面或許難以泛化,反而會(huì)成為垂直領(lǐng)域智能體創(chuàng)業(yè)公司的核心護(hù)城河 —— 尤其是在需要高度復(fù)雜推理的領(lǐng)域(如會(huì)計(jì)、稅務(wù)、金融、建筑等)。

預(yù)計(jì)未來將出現(xiàn)專門支持此類任務(wù)的開發(fā)工具(類似微調(diào)領(lǐng)域的 MosaicML 生態(tài)),幫助智能體創(chuàng)業(yè)公司更便捷地構(gòu)建“搜索技術(shù)+驗(yàn)證”層,并為特定應(yīng)用場(chǎng)景生成訓(xùn)練數(shù)據(jù)集。

END

本期互動(dòng)內(nèi)容 ??

?文章指出,測(cè)試時(shí)計(jì)算的泛化能力是“價(jià)值萬億美元的問題”。您認(rèn)為,基于強(qiáng)化學(xué)習(xí)的推理技術(shù)能否有效泛化到數(shù)學(xué)、代碼之外,缺乏明確獎(jiǎng)勵(lì)信號(hào)的“模糊”領(lǐng)域(如創(chuàng)意寫作、戰(zhàn)略規(guī)劃)?

文中鏈接

[1]??https://deepmind.google/discover/blog/alphazero-shedding-new-light-on-chess-shogi-and-go/??

[2]??https://arxiv.org/abs/1611.09940??

[3]??https://arxiv.org/pdf/2407.21787??

[4]??https://arxiv.org/pdf/2408.15240??

[5]??https://openai.com/index/learning-to-reason-with-llms/??

[6]??https://extrasensoryai.github.io/enki/blog/synthetic-data-cot/??

[7]??https://lean-lang.org/about/??

[8]??https://arxiv.org/pdf/2410.08146??

[9]??https://arxiv.org/pdf/2501.04682??

[10]??https://arxiv.org/pdf/2410.09918??

[11]??https://arxiv.org/abs/2404.03683??

[12]??https://arxiv.org/abs/2408.16293??

[13]??https://arxiv.org/pdf/2402.14083??

[14]??https://deepmind.google/discover/blog/alphazero-shedding-new-light-on-chess-shogi-and-go/??

[15]??https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/??

[16]??https://arxiv.org/pdf/2305.10601??

[17]??https://arxiv.org/pdf/2305.00633??

[18]??https://arxiv.org/pdf/2305.14992??

[19]??https://arxiv.org/pdf/2404.05221??

[20]??https://arxiv.org/pdf/2501.04682??

[21]??https://arxiv.org/pdf/2110.14168??

[22]??https://deepmind.google/discover/blog/muzero-mastering-go-chess-shogi-and-atari-without-rules/??

[23]??https://aidanmclaughlin.notion.site/reasoners-problem??

[24]??https://arxiv.org/pdf/2412.06769??

原文鏈接:

??https://www.innovationendeavors.com/insights/mechanisms-for-test-time-compute??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦