偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

邁向System 2推理,100頁論文硬核講述Meta-CoT

人工智能 新聞
Meta-CoT 通過顯式建模生成特定思維鏈(CoT)所需的底層推理過程,擴(kuò)展了傳統(tǒng)的思維鏈方法。

「我們有一份關(guān)于『推理時(shí)間計(jì)算』的新研究,以及我們過去幾個(gè)月一直在研究的內(nèi)容!我們提出了一些理論,說明為什么它是必要的,它是如何工作的,我們?yōu)槭裁葱枰?,以及它對超級智能意味著什么?!?/span>

剛剛,斯坦福博士生 Rafael Rafailov 在 X 上官宣了一項(xiàng)他參與的新研究《 Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Thought 》。

圖片

Rafailov 進(jìn)一步表示,「我們需要高級推理的主要原因在于問題的復(fù)雜性。模型訓(xùn)練數(shù)據(jù)中雖然包含了難題的解決方案,但并未涵蓋這些解決方案的真實(shí)數(shù)據(jù)生成過程。解決方案本身是某種復(fù)雜的元思維鏈(Meta-CoT)的輸出,而這一過程并未被明確記錄下來。」

圖片

圖為解決一個(gè)數(shù)學(xué)問題的過程,這個(gè)問題是要找到一種運(yùn)算符序列(包括加號 +、減號 -、乘號 * 和除號 /),使得數(shù)字 7、3、11、5 通過這些運(yùn)算恰好使用一次得到結(jié)果 24。

Rafailov 所說的 Meta-CoT,是一種新穎的框架,它通過顯式建模生成特定思維鏈(CoT)所需的底層推理過程,擴(kuò)展了傳統(tǒng)的思維鏈方法。

該研究認(rèn)為,傳統(tǒng)的 CoT 方法雖然在解決簡單問題時(shí)有效,但未能捕捉到復(fù)雜推理的真實(shí)數(shù)據(jù)生成過程,這一過程通常涉及非線性、迭代性和潛在的探索與驗(yàn)證。Meta-CoT 通過顯式建模這種潛在的「思考」過程,擴(kuò)展了 CoT 方法。本文認(rèn)為,這種建模對于解決需要高級推理能力的問題至關(guān)重要。

圖片

  • 論文地址:https://arxiv.org/pdf/2501.04682

該研究從認(rèn)知科學(xué)的雙過程理論中汲取靈感,將 Meta-CoT 框架看作為一種 System 2 推理形式。本文奠定了 Meta-CoT 理論基礎(chǔ),展示了如何通過系統(tǒng)搜索過程實(shí)現(xiàn)這一框架,以及如何將這些過程內(nèi)化到一個(gè)單一的自回歸模型中。隨后,本文提供了實(shí)證證據(jù),包括對 OpenAI 的 o1 和 DeepSeek-R1 等頂尖模型的分析,這些模型展現(xiàn)出了與內(nèi)化(上下文)搜索一致的行為。接著本文進(jìn)一步探索了通過過程監(jiān)督來訓(xùn)練 Meta-CoT 模型的方法,以及通過蒙特卡洛樹搜索(MCTS)和 A * 等搜索算法生成合成數(shù)據(jù)的技術(shù)。

最后,本文概述了一個(gè)在單一端到端系統(tǒng)中實(shí)現(xiàn) Meta-CoT 的具體流程,該流程結(jié)合了帶有線性化搜索痕跡的指令調(diào)整和強(qiáng)化學(xué)習(xí)(RL)后訓(xùn)練。

本文還介紹了一個(gè)名為 Big MATH 的項(xiàng)目,該項(xiàng)目整合了超過 100 萬個(gè)高質(zhì)量、可驗(yàn)證的數(shù)學(xué)問題,以促進(jìn)這一領(lǐng)域進(jìn)一步研究。

該研究不僅提供了理論洞見,還為在 LLM 中啟用 Meta-CoT 提供了一條實(shí)踐路線圖,為人工智能實(shí)現(xiàn)更強(qiáng)大和更類人的推理鋪平了道路。

為什么要提出 Meta-CoT?   

Meta-CoT 是什么樣的?     

我們要問自己一個(gè)問題:具有「思維鏈」提示功能的語言模型是否真的能夠表達(dá)任何函數(shù),從而解決任意復(fù)雜的問題?今天,前沿模型的能力足以解決一大類數(shù)學(xué)推理問題。但是,它們?nèi)匀浑y以解決高級問題,如 HARP 和 Omni-MATH(通用奧林匹克級別數(shù)學(xué)基準(zhǔn))。作者提出了以下理論來解釋這些經(jīng)驗(yàn)觀察結(jié)果:

圖片


預(yù)訓(xùn)練語料庫中的推理數(shù)據(jù)并不代表真正的數(shù)據(jù)生成過程,尤其是復(fù)雜問題的數(shù)據(jù)生成過程,它是大量潛在推理的產(chǎn)物。此外,這一過程一般不會以從左到右、自回歸的方式進(jìn)行。


更詳細(xì)地說,預(yù)訓(xùn)練語料庫和后訓(xùn)練指令微調(diào)中普遍存在的思維鏈(CoT)推理數(shù)據(jù)遵循簡單問題(如代數(shù)計(jì)算、計(jì)數(shù)、基礎(chǔ)幾何等)解決方案的真實(shí)數(shù)據(jù)生成過程。例如,解決高中代數(shù)問題的教科書展示了生成答案的一般過程。如果我們遵循現(xiàn)有教科書中呈現(xiàn)的一些步驟或方法,我們最終可以得出解答。因此,這些可以通過具有恒定深度的 transformer 來學(xué)習(xí),這些 transformer 能夠表達(dá)過程中每個(gè)單獨(dú)步驟的復(fù)雜性。

相比之下,復(fù)雜推理問題并不遵循這種模式。我們可能有一組三元組(q, S, a),其中 q 是問題,S = (s_1, ..., s_n) 是解答步驟,a 是(可選的)答案,但真實(shí)的數(shù)據(jù)生成過程并非自回歸的:

圖片

z_??是解答步驟中遺漏的潛在「思考」,這些可以通過從左到右的生成來完全表示,而數(shù)據(jù)集中的解答步驟 S = (s_1, ..., s_n) 是聯(lián)合生成的。

我們可以通過將推理解釋為潛在變量過程來形式化這一論證。具體來說,經(jīng)典的思維鏈(CoT)可以被看作是:

圖片

即,最終答案產(chǎn)生的概率是通過對潛在推理鏈的邊緣化得到的。作者主張,對于復(fù)雜問題,真實(shí)的解生成過程應(yīng)該被視為:  

圖片

即,解(a,s_1, . . . , s_n)的聯(lián)合概率分布以潛在生成過程為條件。請注意,這個(gè)參數(shù)是先前的 CoT 參數(shù)的 meta-generalization,因此作者將過程 q→z_1 → . . . → z_K 稱為 Meta-CoT。

傳統(tǒng) CoT 有什么問題?   

根據(jù)之前的討論,一個(gè)問題自然地浮出水面:為什么 LLM 在這些高級推理任務(wù)上失敗了?如上所述,作者提出了預(yù)訓(xùn)練和指令微調(diào)語料庫由類型為(q, s_1, ..., s_n, a)的數(shù)據(jù)組成,這些數(shù)據(jù)并不包含如方程 1 所示的真實(shí)數(shù)據(jù)生成過程。這個(gè)現(xiàn)象很常見 —— 教科書包含高級證明,但不包含推導(dǎo)這些證明的完整思考過程。

很多使用傳統(tǒng)思維鏈的工作受此影響,但 OpenAI 的 o1 系列看起來是個(gè)例外。作者表示,他們在困難的數(shù)學(xué)問題上看到了這種差異:「標(biāo)準(zhǔn)」模型會「模仿」人類編寫的解決方案(訓(xùn)練數(shù)據(jù)),而像 o1 這樣的模型則根據(jù)難度逐步使用更多的計(jì)算。它似乎遵循真正的數(shù)據(jù)生成過程,而不僅僅是最終輸出(CoT)。

圖片

圖片

用語言模型進(jìn)行深思熟慮的推理 —— 搜索

上一節(jié)介紹了 Meta-CoT 過程,并指出 LLM 在高級推理任務(wù)上表現(xiàn)不佳的原因是訓(xùn)練數(shù)據(jù)未能充分代表真實(shí)的數(shù)據(jù)生成過程,即文本語料庫中未包含(或僅包含有限數(shù)量的)Meta-CoT 數(shù)據(jù)。因此,剩下的問題是:真實(shí)的數(shù)據(jù)生成過程是什么樣的?

首先,本文主張對于許多高級推理或目標(biāo)導(dǎo)向問題,生成(問題的解決過程)和驗(yàn)證(解決方案的正確性檢驗(yàn))之間存在顯著的復(fù)雜性 gap。

其次,假設(shè)存在一個(gè)不可忽視的生成器 - 驗(yàn)證器 gap,作者認(rèn)為文本語料庫中呈現(xiàn)的挑戰(zhàn)性問題的解決方案是一個(gè)擴(kuò)展搜索過程的結(jié)果,這個(gè)過程本身在數(shù)據(jù)中并沒有得到體現(xiàn)。

圖片

作者表示,事實(shí)上,在基本策略之上構(gòu)建搜索能力已經(jīng)一次又一次地被證明會帶來巨大的能力提升。不過,這需要更多數(shù)量級的 scale 和數(shù)據(jù)才能內(nèi)化到單個(gè)模型中。

圖片

邁向 Meta-CoT 推理

為什么需要將深思熟慮的推理過程內(nèi)化到一個(gè)單一模型中?作者提出了兩個(gè)主要原因:

首先是效率:通過在自回歸模型的上下文中整合搜索,可以有效地完成探索,因?yàn)槟P涂梢栽L問上下文中所有先前訪問過的節(jié)點(diǎn)。事實(shí)上,正如圖 14 所示,即使是高級推理模型也會執(zhí)行許多語義相同的重復(fù)推理步驟。

圖片

其次是超級智能:如果一個(gè)自回歸模型能夠?qū)W會在上下文中實(shí)現(xiàn)搜索算法,那么額外的強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練可能使模型發(fā)現(xiàn)新的推理方法。這將可能使模型能夠解決在基于符號的樹搜索方法下解決以前無法解決的問題類別。

在接下來的部分,作者進(jìn)一步探討了如何訓(xùn)練一個(gè)模型來內(nèi)化這樣一個(gè)推理系統(tǒng)。

作者介紹了 STaR(Self-Taught Reasoner)方法背后的核心思想,該方法用于引導(dǎo)中間 CoT 步驟,以及如何將類似的概念泛化到元推理策略中。

具體而言,STaR 方法引入了一種迭代 bootstrapping 方法,旨在提高 LLM 的推理能力。STaR 專注于訓(xùn)練模型以生成和完善推理過程,特別是對于需要復(fù)雜推理的任務(wù),其采用了基于強(qiáng)化學(xué)習(xí)的方式來進(jìn)行。

之后作者將 STaR 的思路擴(kuò)展到 Meta-CoT。

通過搜索合成 Meta-CoT

本文探索了兩種用于生成合成訓(xùn)練數(shù)據(jù)的主要搜索算法:蒙特卡洛樹搜索 (MCTS) 和 A* 變體。

蒙特卡洛樹搜索如下:

圖片

與圖 12 中由蒙特卡洛樹搜索(MCTS)產(chǎn)生的路徑相比,A* 搜索具有更少的回溯步驟,主要集中在關(guān)鍵步驟上。

圖片

過程監(jiān)督

搜索方法的一個(gè)關(guān)鍵組成部分是評估函數(shù)??(q, S_??),它對推理鏈中的中間狀態(tài)進(jìn)行評分。這些評估函數(shù)被廣泛稱為過程獎勵(lì)模型(Process Reward Models,簡稱 PRM)。通過整合過程監(jiān)督,搜索機(jī)制獲得了在遇到次優(yōu)路徑時(shí)回溯到早期有前景狀態(tài)的靈活性,從而實(shí)現(xiàn)了更有效的探索。然而,如何有效地獲取這些能力仍然是一個(gè)未解決的問題。

作者概述了構(gòu)建此類過程指導(dǎo)模型的策略:

  • 學(xué)習(xí)過程獎勵(lì)模型;
  • PRM 質(zhì)量及其對搜索的影響;
  • 可驗(yàn)證問題與開放式問題。

在論文第 6 章,作者從元學(xué)習(xí)和元強(qiáng)化學(xué)習(xí)的角度對推理問題和 Meta-CoT 進(jìn)行解釋。

在前面章節(jié)中,作者通過計(jì)算復(fù)雜性和生成器 - 驗(yàn)證器 gap 的范例來激發(fā)上下文搜索的需求。在本節(jié)中,作者建立了一個(gè)替代公式,以幫助形式化強(qiáng)化學(xué)習(xí)訓(xùn)練的實(shí)證結(jié)果。

作者假設(shè)獎勵(lì)函數(shù)??(S, q) → {0, 1} 是提示 q 的確定性(但先驗(yàn)未知)函數(shù),它只接受特定的解決方案集。在新的提示下進(jìn)行測試時(shí),這會產(chǎn)生獎勵(lì)函數(shù)的認(rèn)知不確定性,即我們事先不知道該任務(wù)(提示問題)的完整接受或拒絕的解決方案集。

在接下來的第 7 章,作者提出了一種基于搜索的高級推理理論,以及一些早期的實(shí)證研究結(jié)果。作者建議遵循現(xiàn)代后訓(xùn)練的整體結(jié)構(gòu),包括指令微調(diào)和強(qiáng)化學(xué)習(xí)訓(xùn)練。感興趣的讀者,可以查看原論文了解更多內(nèi)容。

總結(jié)

本文引入了 Meta-CoT 框架,用于理解和增強(qiáng)大型語言模型(LLMs)的推理能力。作者認(rèn)為傳統(tǒng)的思維鏈并不能完全代表推理問題背后的數(shù)據(jù)生成過程。通過融入搜索、驗(yàn)證和迭代優(yōu)化的概念,Meta-CoT 為高級問題解決所需的認(rèn)知過程提供了一個(gè)更完整的模型。

Meta-CoT 是實(shí)現(xiàn)大型語言模型更強(qiáng)大、更具泛化性推理能力的一種有前景的途徑。當(dāng)前最先進(jìn)模型的表現(xiàn),以及在上下文探索和回溯方面的實(shí)驗(yàn),都支持了內(nèi)部搜索過程對于復(fù)雜任務(wù)表現(xiàn)至關(guān)重要的假設(shè)。此外,本文提出的訓(xùn)練流程為開發(fā)具有增強(qiáng) Meta-CoT 能力的大型語言模型提供了一種具體的方法。

了解更多內(nèi)容,請參考原論文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-01-27 12:03:11

2025-10-15 00:00:00

2024-07-15 00:30:00

MetaAI 模型大語言模型

2025-07-03 01:45:00

LLMCoT思維鏈

2024-09-23 09:40:00

AI數(shù)學(xué)模型

2024-12-12 09:00:00

2025-08-13 10:21:50

2024-12-19 09:48:07

2025-08-29 09:09:00

AI模型數(shù)據(jù)

2024-09-20 15:35:33

2009-12-02 15:44:00

Visual Stud

2022-06-13 10:43:11

谷歌模型學(xué)者

2025-02-24 08:30:00

視覺模型訓(xùn)練

2024-11-12 13:40:00

2025-04-07 07:30:00

模型AI訓(xùn)練

2025-01-20 13:08:25

2025-05-21 09:02:20

2022-09-01 15:14:15

AI模型

2025-06-30 08:49:00

2025-03-05 04:00:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號