偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<center id="pv8it"></center>

<cite id="pv8it"></cite>

<thead id="pv8it"><optgroup id="pv8it"><small id="pv8it"></small></optgroup></thead>

<li id="pv8it"></li>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

田淵棟與Russell團隊聯(lián)手，證明Transformer能在訓(xùn)練中自然學會疊加推理

2025-10-08 10:19:29

人工智能新聞

近日，田淵棟與 Stuart Russell 兩個團隊合力，發(fā)表了論文《疊加的涌現(xiàn)》，對這個問題給出正面回答。本論文一作 Hanlin Zhu（竺涵林）為加利福尼亞大學伯克利分校（UC Berkeley）電子工程與計算機科學系博士生，此前畢業(yè)于清華大學姚班。

對于大型語言模型而言，生成更長、更復(fù)雜的推理鏈，往往意味著巨大的計算成本。為了解決這一難題，田淵棟團隊在 2024 年提出的「連續(xù)思維鏈」 (Coconut) 提供了一種全新的范式，它將推理軌跡保留在連續(xù)的隱空間中，而非離散的文字符號?，F(xiàn)在，他們與 Stuart Russell 團隊的最新合作研究則從理論上回答了一個核心問題：這種高效的推理范式是如何在訓(xùn)練中自發(fā)產(chǎn)生的？答案指向了一種關(guān)鍵機制——疊加的涌現(xiàn) 。

大型語言模型（LLM）在許多復(fù)雜任務(wù)上展現(xiàn)出了強大的推理能力，尤其是在引入思維鏈（CoT）之后。然而，長思維鏈在復(fù)雜任務(wù)中的推理成本極高，因此，近期有不少研究在嘗試尋找更高效的測試時擴展方法，以期望更高效地提升模型的推理能力。

一種前景較為可觀的方法是田淵棟團隊在 2024 年提出的「連續(xù)思維鏈」（Chain-of-Continuous-Thought，簡稱 Coconut）。與傳統(tǒng)的 CoT 不同，連續(xù)思維鏈是將模型的推理軌跡保存在連續(xù)隱空間中，而非回投到離散的 token 空間。這種做法不僅在理論上具有多項優(yōu)勢，在實驗中也帶來了顯著性能提升。

然而，若要讓連續(xù)思維鏈更高效、更穩(wěn)定地擴展到更復(fù)雜的推理任務(wù)，就必須更深入地理解它的內(nèi)部機制。

該團隊 2025 年的研究《Reasoning by superposition: A theoretical perspective on chain of continuous thought》已從理論上指出，連續(xù)思維鏈的一個關(guān)鍵優(yōu)勢在于它能使模型在疊加（superposition）狀態(tài)下進行推理：當模型面對多個可能的推理路徑而無法確定哪一個是正確時，它可以在連續(xù)空間中并行地保留所有可能的路徑，而不像離散 token 那樣必須選擇單一路徑。

具體來說，該研究將一類推理任務(wù)抽象為有向圖可達性（a directed graph reachability）問題 —— 即判斷從給定起點節(jié)點能否到達目標節(jié)點。

他們進一步證明，只需一個兩層 Transformer，經(jīng)過 O (n) 次連續(xù)思維解碼（其中 n 為圖中節(jié)點數(shù)量），即可通過特定參數(shù)構(gòu)造有效地解決該問題。

因此，一個自然的問題隨之而來：梯度下降訓(xùn)練能否自然地收斂出這種結(jié)構(gòu)？我們能否在理論上證明這一點？

近日，田淵棟與 Stuart Russell 兩個團隊合力，發(fā)表了論文《疊加的涌現(xiàn)》，對這個問題給出正面回答。本論文一作 Hanlin Zhu（竺涵林）為加利福尼亞大學伯克利分校（UC Berkeley）電子工程與計算機科學系博士生，此前畢業(yè)于清華大學姚班。

論文標題：Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought
Paper：https://arxiv.org/abs/2509.23365v1

具體來說，他們通過對一個簡化的兩層 Transformer 在「圖可達性問題」上的訓(xùn)練動態(tài)進行理論分析，將訓(xùn)練過程劃分為兩個階段：

思維生成（thought generation）階段：模型自回歸地生成一條連續(xù)思維鏈；
預(yù)測（prediction）階段：模型利用已生成的思維進行最終預(yù)測。

值得注意的是，通過對思維生成階段進行分析，該團隊揭示了一個重要現(xiàn)象：即便每個訓(xùn)練樣本只包含一個演示樣例，疊加（superposition）仍然會在訓(xùn)練中自發(fā)涌現(xiàn)。

他們的理論分析與實驗結(jié)果均表明，當采用連續(xù)思維訓(xùn)練（Coconut 方法）時，索引匹配 logit（index-matching logit）（衡量模型局部搜索能力強度的一個關(guān)鍵指標）在溫和假設(shè)下保持有界（bounded）。這與傳統(tǒng) Transformer 分析截然不同 —— 后者在無連續(xù)思維的情況下，logit 會呈對數(shù)增長并趨于無界。

一個有界的索引匹配 logit，能在「探索」與「利用」之間維持動態(tài)平衡：

若 logit 過小，模型無法有效進行局部搜索，下一步幾乎只能隨機猜測；
若 logit 過大，模型則會過度自信地鎖定某一條局部路徑（例如僅憑節(jié)點入度等局部特征），從而過早排除真正正確的路徑。

而當 logit 保持在適度范圍內(nèi)時，模型既能利用局部結(jié)構(gòu)，又能為多條合理路徑分配相近的權(quán)重，這便自然形成了疊加式推理（superposition reasoning）。這也回答了之前論文未能解答的問題 —— 為何疊加態(tài)會在訓(xùn)練中自發(fā)涌現(xiàn)。

這里我們就不深入其理論證明部分了，感興趣的讀者請查看原論文。下面簡單看看其實驗部分。

實驗與結(jié)果

為了驗證其理論分析的結(jié)果，該團隊使用了一個 GPT-2 式解碼器進行實驗，其包含兩層 Transformer（d_model=768, n_heads=8）。

該模型是從零開始訓(xùn)練的，優(yōu)化器為 AdamW（β?=0.9，β?=0.95，權(quán)重衰減 10?2），學習率固定為 1×10??，全局 batch size 為 256。數(shù)據(jù)集則來自 ProsQA 的一個子集。

訓(xùn)練策略方面，按照之前的方法，他們采用多階段訓(xùn)練，并使用思維鏈示范進行監(jiān)督。

在階段 c，模型學習在預(yù)測推理路徑上第 c 個節(jié)點之前使用 c 個連續(xù)思維（即思維生成階段）。
當 c > l（思維鏈長度）時，模型在生成 l 個連續(xù)思維及 <A> 標記后，預(yù)測最終答案（即預(yù)測階段）。

訓(xùn)練共 350 個 epoch：階段 1 訓(xùn)練 150 個 epoch，后續(xù)每階段 25 個 epoch。在每個階段中，以 0.1 的概率混入之前階段的數(shù)據(jù)，以防遺忘。最終模型在測試集上的準確度為 96.2%。

思維生成階段

為分析 L^coco 下 μ_v 的訓(xùn)練動態(tài)，該團隊追蹤了第二層注意力的 logit 變化。當模型生成第 c 個連續(xù)思維時，μ_v 對應(yīng)于源節(jié)點位于 N_c 的邊 token <e> 的 logit。

在實踐中，L^coco 會鼓勵模型聚焦于當前搜索前沿，而非已探索的節(jié)點，因此注意力主要集中在「前沿邊 (frontier edges)」上，即源節(jié)點位于 N_c \ N_{c?1} 的邊。

為簡化理論分析，該團隊假設(shè) μ?=0，但在實際訓(xùn)練中，模型會對其他邊也賦予非零注意力。因此該團隊報告的是測試集上前沿邊與非前沿邊之間的 logit 差值，以更準確反映 μ_v 的有效變化。

結(jié)果見圖 2。

在階段 1（藍色背景）中，模型在預(yù)測第一個連續(xù)思維（c=1）時，逐步學會了關(guān)注前沿邊。logit 差值穩(wěn)步上升，并在約 125 個 epoch 后穩(wěn)定于 60 附近，與定理 1 的理論預(yù)測一致：在 L^coco 下，μ_v 先增長后趨于穩(wěn)定且有界。

當切換到階段 2（紫色背景）時，模型在生成第二個連續(xù)思維（c=2）時所需的收斂 epoch 大幅減少。更有趣的是，這種模式可推廣至 c=3 和 c=4，盡管模型從未顯式訓(xùn)練生成超過兩個思維。

這種「長度泛化（length generalization）」表明：一旦疊加態(tài)在早期階段涌現(xiàn)，后續(xù)階段便能快速復(fù)用它，進一步拓展搜索前沿。

該團隊還使用了 L^BFS 的變體（COCONUT-BFS 方法）進行對比。與 L^coco 不同，在 c=1 時，注意力 logit 差值沒有飽和，而是持續(xù)增長到更高水平，這與定理 1 的分析一致。

答案預(yù)測階段

接下來該團隊分析了模型如何預(yù)測最終答案。根據(jù)引理 2，預(yù)測依賴兩個信號：

殘差信號（residual carryover），它將最后一個思維 [t_C] 中已探索的節(jié)點以強度 μ_A 傳遞至答案 token <A>。具體來說，這對應(yīng)于第一層從 <A> 到 [t_C] 的注意力，用于復(fù)制可達節(jié)點的疊加狀態(tài)。
候選提升信號（candidate lift），它以強度 μ_R 提升兩個候選節(jié)點的 logit。由于 <R> 在第一層中復(fù)制候選節(jié)點，因此第二層從 <A> 到 <R> 的注意力可視為 μ_R 的智能體。

圖 3 展示了兩者的訓(xùn)練動態(tài)。

一旦進入預(yù)測階段，μ_A 與 μ_R 都迅速上升，并在約 5 個 epoch 后趨于穩(wěn)定。這與定理 3 的結(jié)論一致：μ_A 與 μ_R 以相似速率增長，確保正確候選 c? 的 logit 最高。

與理論中的無界增長不同，該團隊在實踐中觀察到 logit 實際上會趨于平臺期。這可能是因為實際訓(xùn)練中，預(yù)測階段仍與思維生成階段相互作用，而理論假設(shè)思維分布固定，以便單獨分析 μ_R 與 μ_A 的關(guān)系。該團隊將這一差異留待了未來研究。

總結(jié)

本文研究了在連續(xù)思維鏈訓(xùn)練中疊加態(tài)的自發(fā)涌現(xiàn)機制。該團隊對一個簡化的兩層 Transformer 在有向圖可達性任務(wù)上的訓(xùn)練動態(tài)進行了系統(tǒng)的理論分析。

結(jié)果顯示，在溫和假設(shè)下，索引匹配 logit（衡量模型局部搜索能力的關(guān)鍵指標）在訓(xùn)練過程中會保持有界。

一個有界的 logit 能有效平衡「探索」與「利用」，從而讓模型在推理中實現(xiàn)隱式的并行思考，自然產(chǎn)生疊加現(xiàn)象。

責任編輯：張燕妮來源：機器之心

AI 模型訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<var id="ktcgu"></var>

<blockquote id="ktcgu"><b id="ktcgu"><em id="ktcgu"></em></b></blockquote>

<thead id="ktcgu"><b id="ktcgu"><track id="ktcgu"></track></b></thead>

<thead id="ktcgu"><acronym id="ktcgu"></acronym></thead>