偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

田淵棟與Russell團隊聯(lián)手,證明Transformer能在訓(xùn)練中自然學會疊加推理

人工智能 新聞
近日,田淵棟與 Stuart Russell 兩個團隊合力,發(fā)表了論文《疊加的涌現(xiàn)》,對這個問題給出正面回答。本論文一作 Hanlin Zhu(竺涵林)為加利福尼亞大學伯克利分校(UC Berkeley)電子工程與計算機科學系博士生,此前畢業(yè)于清華大學姚班。

對于大型語言模型而言,生成更長、更復(fù)雜的推理鏈,往往意味著巨大的計算成本。為了解決這一難題,田淵棟團隊在 2024 年提出的「連續(xù)思維鏈」 (Coconut) 提供了一種全新的范式,它將推理軌跡保留在連續(xù)的隱空間中,而非離散的文字符號?,F(xiàn)在,他們與 Stuart Russell 團隊的最新合作研究則從理論上回答了一個核心問題:這種高效的推理范式是如何在訓(xùn)練中自發(fā)產(chǎn)生的?答案指向了一種關(guān)鍵機制——疊加的涌現(xiàn) 。

大型語言模型(LLM)在許多復(fù)雜任務(wù)上展現(xiàn)出了強大的推理能力,尤其是在引入思維鏈(CoT)之后。然而,長思維鏈在復(fù)雜任務(wù)中的推理成本極高,因此,近期有不少研究在嘗試尋找更高效的測試時擴展方法,以期望更高效地提升模型的推理能力。

一種前景較為可觀的方法是田淵棟團隊在 2024 年提出的「連續(xù)思維鏈」(Chain-of-Continuous-Thought,簡稱 Coconut)。與傳統(tǒng)的 CoT 不同,連續(xù)思維鏈是將模型的推理軌跡保存在連續(xù)隱空間中,而非回投到離散的 token 空間。這種做法不僅在理論上具有多項優(yōu)勢,在實驗中也帶來了顯著性能提升。

然而,若要讓連續(xù)思維鏈更高效、更穩(wěn)定地擴展到更復(fù)雜的推理任務(wù),就必須更深入地理解它的內(nèi)部機制。

該團隊 2025 年的研究《Reasoning by superposition: A theoretical perspective on chain of continuous thought》已從理論上指出,連續(xù)思維鏈的一個關(guān)鍵優(yōu)勢在于它能使模型在疊加(superposition)狀態(tài)下進行推理:當模型面對多個可能的推理路徑而無法確定哪一個是正確時,它可以在連續(xù)空間中并行地保留所有可能的路徑,而不像離散 token 那樣必須選擇單一路徑。

具體來說,該研究將一類推理任務(wù)抽象為有向圖可達性(a directed graph reachability)問題 —— 即判斷從給定起點節(jié)點能否到達目標節(jié)點。

圖片

他們進一步證明,只需一個兩層 Transformer,經(jīng)過 O (n) 次連續(xù)思維解碼(其中 n 為圖中節(jié)點數(shù)量),即可通過特定參數(shù)構(gòu)造有效地解決該問題。

因此,一個自然的問題隨之而來:梯度下降訓(xùn)練能否自然地收斂出這種結(jié)構(gòu)?我們能否在理論上證明這一點?

近日,田淵棟與 Stuart Russell 兩個團隊合力,發(fā)表了論文《疊加的涌現(xiàn)》,對這個問題給出正面回答。本論文一作 Hanlin Zhu(竺涵林)為加利福尼亞大學伯克利分校(UC Berkeley)電子工程與計算機科學系博士生,此前畢業(yè)于清華大學姚班。

圖片

  • 論文標題:Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought
  • Paper:https://arxiv.org/abs/2509.23365v1

具體來說,他們通過對一個簡化的兩層 Transformer 在「圖可達性問題」上的訓(xùn)練動態(tài)進行理論分析,將訓(xùn)練過程劃分為兩個階段:

  1. 思維生成(thought generation)階段:模型自回歸地生成一條連續(xù)思維鏈;
  2. 預(yù)測(prediction)階段:模型利用已生成的思維進行最終預(yù)測。

值得注意的是,通過對思維生成階段進行分析,該團隊揭示了一個重要現(xiàn)象:即便每個訓(xùn)練樣本只包含一個演示樣例,疊加(superposition)仍然會在訓(xùn)練中自發(fā)涌現(xiàn)。

他們的理論分析與實驗結(jié)果均表明,當采用連續(xù)思維訓(xùn)練(Coconut 方法)時,索引匹配 logit(index-matching logit)(衡量模型局部搜索能力強度的一個關(guān)鍵指標)在溫和假設(shè)下保持有界(bounded)。這與傳統(tǒng) Transformer 分析截然不同 —— 后者在無連續(xù)思維的情況下,logit 會呈對數(shù)增長并趨于無界。

一個有界的索引匹配 logit,能在「探索」與「利用」之間維持動態(tài)平衡:

  • 若 logit 過小,模型無法有效進行局部搜索,下一步幾乎只能隨機猜測;
  • 若 logit 過大,模型則會過度自信地鎖定某一條局部路徑(例如僅憑節(jié)點入度等局部特征),從而過早排除真正正確的路徑。

而當 logit 保持在適度范圍內(nèi)時,模型既能利用局部結(jié)構(gòu),又能為多條合理路徑分配相近的權(quán)重,這便自然形成了疊加式推理(superposition reasoning)。這也回答了之前論文未能解答的問題 —— 為何疊加態(tài)會在訓(xùn)練中自發(fā)涌現(xiàn)。

這里我們就不深入其理論證明部分了,感興趣的讀者請查看原論文。下面簡單看看其實驗部分。

實驗與結(jié)果

為了驗證其理論分析的結(jié)果,該團隊使用了一個 GPT-2 式解碼器進行實驗,其包含兩層 Transformer(d_model=768, n_heads=8)。

該模型是從零開始訓(xùn)練的,優(yōu)化器為 AdamW(β?=0.9,β?=0.95,權(quán)重衰減 10?2),學習率固定為 1×10??,全局 batch size 為 256。數(shù)據(jù)集則來自 ProsQA 的一個子集。

訓(xùn)練策略方面,按照之前的方法,他們采用多階段訓(xùn)練,并使用思維鏈示范進行監(jiān)督。

  • 在階段 c,模型學習在預(yù)測推理路徑上第 c 個節(jié)點之前使用 c 個連續(xù)思維(即思維生成階段)。
  • 當 c > l(思維鏈長度)時,模型在生成 l 個連續(xù)思維及 <A> 標記后,預(yù)測最終答案(即預(yù)測階段)。

訓(xùn)練共 350 個 epoch:階段 1 訓(xùn)練 150 個 epoch,后續(xù)每階段 25 個 epoch。在每個階段中,以 0.1 的概率混入之前階段的數(shù)據(jù),以防遺忘。最終模型在測試集上的準確度為 96.2%。

思維生成階段

為分析 L^coco 下 μ_v 的訓(xùn)練動態(tài),該團隊追蹤了第二層注意力的 logit 變化。當模型生成第 c 個連續(xù)思維時,μ_v 對應(yīng)于源節(jié)點位于 N_c 的邊 token <e> 的 logit。

在實踐中,L^coco 會鼓勵模型聚焦于當前搜索前沿,而非已探索的節(jié)點,因此注意力主要集中在「前沿邊 (frontier edges)」上,即源節(jié)點位于 N_c \ N_{c?1} 的邊。

為簡化理論分析,該團隊假設(shè) μ?=0,但在實際訓(xùn)練中,模型會對其他邊也賦予非零注意力。因此該團隊報告的是測試集上前沿邊與非前沿邊之間的 logit 差值,以更準確反映 μ_v 的有效變化。

結(jié)果見圖 2。

圖片

在階段 1(藍色背景)中,模型在預(yù)測第一個連續(xù)思維(c=1)時,逐步學會了關(guān)注前沿邊。logit 差值穩(wěn)步上升,并在約 125 個 epoch 后穩(wěn)定于 60 附近,與定理 1 的理論預(yù)測一致:在 L^coco 下,μ_v 先增長后趨于穩(wěn)定且有界。

圖片

當切換到階段 2(紫色背景)時,模型在生成第二個連續(xù)思維(c=2)時所需的收斂 epoch 大幅減少。更有趣的是,這種模式可推廣至 c=3 和 c=4,盡管模型從未顯式訓(xùn)練生成超過兩個思維。

圖片

這種「長度泛化(length generalization)」表明:一旦疊加態(tài)在早期階段涌現(xiàn),后續(xù)階段便能快速復(fù)用它,進一步拓展搜索前沿。

該團隊還使用了 L^BFS 的變體(COCONUT-BFS 方法)進行對比。與 L^coco 不同,在 c=1 時,注意力 logit 差值沒有飽和,而是持續(xù)增長到更高水平,這與定理 1 的分析一致。

答案預(yù)測階段

接下來該團隊分析了模型如何預(yù)測最終答案。根據(jù)引理 2,預(yù)測依賴兩個信號:

圖片

  • 殘差信號(residual carryover),它將最后一個思維 [t_C] 中已探索的節(jié)點以強度 μ_A 傳遞至答案 token <A>。具體來說,這對應(yīng)于第一層從 <A> 到 [t_C] 的注意力,用于復(fù)制可達節(jié)點的疊加狀態(tài)。
  • 候選提升信號(candidate lift),它以強度 μ_R 提升兩個候選節(jié)點的 logit。由于 <R> 在第一層中復(fù)制候選節(jié)點,因此第二層從 <A> 到 <R> 的注意力可視為 μ_R 的智能體。

圖 3 展示了兩者的訓(xùn)練動態(tài)。

圖片

一旦進入預(yù)測階段,μ_A 與 μ_R 都迅速上升,并在約 5 個 epoch 后趨于穩(wěn)定。這與定理 3 的結(jié)論一致:μ_A 與 μ_R 以相似速率增長,確保正確候選 c? 的 logit 最高。

圖片

與理論中的無界增長不同,該團隊在實踐中觀察到 logit 實際上會趨于平臺期。這可能是因為實際訓(xùn)練中,預(yù)測階段仍與思維生成階段相互作用,而理論假設(shè)思維分布固定,以便單獨分析 μ_R 與 μ_A 的關(guān)系。該團隊將這一差異留待了未來研究。

總結(jié)

本文研究了在連續(xù)思維鏈訓(xùn)練中疊加態(tài)的自發(fā)涌現(xiàn)機制。該團隊對一個簡化的兩層 Transformer 在有向圖可達性任務(wù)上的訓(xùn)練動態(tài)進行了系統(tǒng)的理論分析。

結(jié)果顯示,在溫和假設(shè)下,索引匹配 logit(衡量模型局部搜索能力的關(guān)鍵指標)在訓(xùn)練過程中會保持有界。

一個有界的 logit 能有效平衡「探索」與「利用」,從而讓模型在推理中實現(xiàn)隱式的并行思考,自然產(chǎn)生疊加現(xiàn)象。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-02-26 00:20:00

AI模型

2024-12-19 09:48:07

2024-12-12 09:00:00

2025-03-25 09:12:00

LIMAI模型

2025-02-17 09:30:00

AI訓(xùn)練模型

2023-06-12 09:57:22

AIChatGPT

2025-06-20 08:47:00

量子計算AI模型

2024-10-28 08:50:00

2023-03-17 08:28:17

GPT-4AI

2024-10-16 13:50:00

模型AI

2023-12-07 06:51:18

AI模型

2024-10-17 14:10:00

模型訓(xùn)練

2024-03-08 12:35:41

模型數(shù)據(jù)

2020-09-22 09:54:19

谷歌Android開發(fā)者

2023-06-30 09:49:23

模型Meta

2024-09-20 15:35:33

2023-08-04 13:42:41

2023-06-28 18:10:27

羊駝家族大模型集體進化

2021-10-28 15:41:07

計算機AI 技術(shù)

2025-10-23 12:28:40

點贊
收藏

51CTO技術(shù)棧公眾號