偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<bdo id="cdcaw"><acronym id="cdcaw"><dfn id="cdcaw"></dfn></acronym></bdo>

<meter id="cdcaw"><mark id="cdcaw"></mark></meter>

<del id="cdcaw"></del>

<table id="cdcaw"></table>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

大模型推理的"慢思考"：訓(xùn)練數(shù)據(jù)如何決定模型的思維深度

作者：無影寺 2025-10-10 01:25:00

你是否好奇，為什么有時候讓大模型"多想一會兒"能得到更好的答案，而有時候反而會越想越錯?OpenAI的o3和DeepSeek R1展示了驚人的推理能力，它們的秘密就在于測試時擴(kuò)展(test-time scaling)——給模型更多時間去"思考"。但什么樣的訓(xùn)練數(shù)據(jù)才能讓這種"慢思考"真正有效?

這里介紹的是論文(Understanding the Role of Training Data in Test-Time Scaling)的內(nèi)容：你是否好奇，為什么有時候讓大模型"多想一會兒"能得到更好的答案，而有時候反而會越想越錯?OpenAI的o3和DeepSeek R1展示了驚人的推理能力，它們的秘密就在于測試時擴(kuò)展(test-time scaling)——給模型更多時間去"思考"。但什么樣的訓(xùn)練數(shù)據(jù)才能讓這種"慢思考"真正有效?

圖片

什么是測試時擴(kuò)展：傳統(tǒng)的AI模型接收問題后會立即給出答案。而測試時擴(kuò)展讓模型生成更長的思維鏈(Chain-of-Thought， CoT)，就像人類解決復(fù)雜問題時會:

?把問題分解成多個步驟

?嘗試不同的解決路徑

?發(fā)現(xiàn)錯誤后回溯修正

關(guān)鍵是，這一切都發(fā)生在推理階段，無需改變模型參數(shù)。

圖片

核心發(fā)現(xiàn)：論文通過理論分析和實驗，揭示了訓(xùn)練數(shù)據(jù)與測試時推理之間的微妙關(guān)系:

（1）訓(xùn)練數(shù)據(jù)可以"省著用"：實驗表明:在保持相同測試誤差的前提下，增加推理步數(shù)就能減少訓(xùn)練時需要的示例數(shù)量。這意味著我們可以用更少的訓(xùn)練數(shù)據(jù)，通過在推理階段投入更多計算來達(dá)到同樣的效果。

（2）"過度思考"的陷阱：并非所有情況下，思考得越久越好。研究發(fā)現(xiàn)了一個反直覺的現(xiàn)象:當(dāng)訓(xùn)練數(shù)據(jù)中缺少解決目標(biāo)任務(wù)所需的某些"技能"時，增加推理步數(shù)反而會降低性能。

想象一下，如果訓(xùn)練數(shù)據(jù)主要包含代數(shù)問題，但測試時需要解決幾何問題，那么讓模型"深度思考"可能會讓它在錯誤的方向上越走越遠(yuǎn)。研究團(tuán)隊將這種現(xiàn)象稱為"過度思考"(overthinking)。

（3）任務(wù)難度的數(shù)學(xué)定義：論文提出了一個優(yōu)雅的任務(wù)難度度量:

圖片

這里Λ是特征協(xié)方差矩陣。簡單來說:

?簡單任務(wù):依賴少數(shù)幾個主要技能(類似于只需要加減法)

?困難任務(wù):需要眾多技能且分布不均(類似于綜合運用代數(shù)、幾何、邏輯等)

圖片

如何選擇訓(xùn)練任務(wù)?：基于理論分析，研究團(tuán)隊提出了訓(xùn)練數(shù)據(jù)選擇的三個原則:

(1)多樣性(Diversity)：訓(xùn)練數(shù)據(jù)必須覆蓋足夠廣泛的技能方向。如果某些測試時需要的技能在訓(xùn)練中從未出現(xiàn)，模型將無法有效推理。

（2）相關(guān)性(Relevance):選擇與目標(biāo)任務(wù)密切相關(guān)的訓(xùn)練數(shù)據(jù)。不相關(guān)的數(shù)據(jù)不僅浪費資源，還可能干擾模型學(xué)習(xí)。

（3）難度(Hardness):當(dāng)目標(biāo)任務(wù)困難時，應(yīng)該選擇困難的訓(xùn)練任務(wù)。實驗表明，在困難任務(wù)上訓(xùn)練的模型，在測試時擴(kuò)展中表現(xiàn)更好。研究證明，至少50%的訓(xùn)練概率應(yīng)分配給困難任務(wù)。

論文揭示了一個有趣的機(jī)制:訓(xùn)練好的模型在測試時進(jìn)行思維鏈推理，實際上是在執(zhí)行偽牛頓法(pseudo-Newton's method)來優(yōu)化預(yù)測。每一步思考都在迭代改進(jìn)答案，就像人類逐步接近問題的正確解。

這解釋了為什么:

?足夠的訓(xùn)練覆蓋讓模型知道"朝哪個方向優(yōu)化"

?更多的推理步數(shù)相當(dāng)于"走更多步到達(dá)目標(biāo)"

?訓(xùn)練數(shù)據(jù)覆蓋不足會讓模型"走向錯誤的方向"

論文的重要啟示:

1.訓(xùn)練策略: 不必盲目追求海量訓(xùn)練數(shù)據(jù)，而應(yīng)關(guān)注數(shù)據(jù)的多樣性、相關(guān)性和難度

2.資源分配: 可以在訓(xùn)練效率和推理成本之間找到最優(yōu)平衡點

3.問題診斷: 當(dāng)模型表現(xiàn)不佳時，可以檢查是訓(xùn)練數(shù)據(jù)覆蓋不足還是推理深度不夠

責(zé)任編輯：武曉燕來源： AI帝國

大模型訓(xùn)練數(shù)據(jù)OpenAI

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<abbr id="qmnlu"><optgroup id="qmnlu"><label id="qmnlu"></label></optgroup></abbr>

<nobr id="qmnlu"><strong id="qmnlu"></strong></nobr>