偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<samp id="xuylf"></samp>

<thead id="xuylf"><video id="xuylf"><small id="xuylf"></small></video></thead>

<wbr id="xuylf"></wbr>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

簡單可拓展：思考增強(qiáng)預(yù)訓(xùn)練數(shù)據(jù)生成策略及相關(guān)實(shí)驗(yàn)結(jié)論原創(chuàng)

大模型自然語言處理

發(fā)布于 2025-10-9 07:16

瀏覽

0收藏

Thinking Augmented Pre-Training（TPT，思考增強(qiáng)預(yù)訓(xùn)練）提出源于當(dāng)前 LLM 訓(xùn)練的兩大核心瓶頸，這也是方法設(shè)計(jì)的出發(fā)點(diǎn)：

高質(zhì)量數(shù)據(jù)耗盡：LLM 訓(xùn)練依賴海量數(shù)據(jù)（如最新開源模型已用 10 萬億 Token），但人類創(chuàng)作的高質(zhì)量 Web 數(shù)據(jù)已接近枯竭，繼續(xù)擴(kuò)大數(shù)據(jù)規(guī)模成本極高；
高價(jià)值 Token 難學(xué)習(xí)：部分關(guān)鍵 Token（如數(shù)學(xué)題答案 “890”、邏輯推理結(jié)論）背后依賴復(fù)雜的多步推理（如多項(xiàng)式除法、余數(shù)定理），固定模型容量下，直接學(xué)習(xí)這類 Token 只能靠 “死記硬背”，無法泛化。

思維增強(qiáng)型數(shù)據(jù)樣本：紅色標(biāo)記的 token “890” 既正確又具有價(jià)值，但直接學(xué)習(xí)該信息較為困難。

從上圖例子TPT 的核心邏輯也很直觀：模擬人類學(xué)習(xí)時(shí)的 “思考過程”—— 將原始文本（如 “答案是 890”）與 “推導(dǎo)該答案的專家級思考步驟”（如 “用余數(shù)定理計(jì)算多項(xiàng)式余數(shù)→推導(dǎo) n+10 需整除 900→找到最大除數(shù)”）拼接，形成 “原始文本 + 思考軌跡” 的增強(qiáng)數(shù)據(jù)。

TPT目標(biāo)：在不新增原始數(shù)據(jù)的前提下，通過 “數(shù)據(jù)增強(qiáng)” 讓現(xiàn)有數(shù)據(jù)的 “利用率最大化”，同時(shí)降低高價(jià)值 Token 的學(xué)習(xí)難度。

簡單可拓展：思考增強(qiáng)預(yù)訓(xùn)練數(shù)據(jù)生成策略及相關(guān)實(shí)驗(yàn)結(jié)論-AI.x社區(qū)

在 GSM8k 和 MATH 數(shù)據(jù)集上，模型的平均 few-shot 準(zhǔn)確率得分隨訓(xùn)練 token 總數(shù)的變化情況。兩個(gè)模型均從零開始進(jìn)行參數(shù)量為 8 B 的預(yù)訓(xùn)練。其中一個(gè)模型采用原始的下一個(gè) token 預(yù)測目標(biāo)，另一個(gè)模型則采用了思維增強(qiáng)型預(yù)訓(xùn)練。

核心是預(yù)訓(xùn)練數(shù)據(jù)增強(qiáng)，因此，本文主要看一下數(shù)據(jù)生成策略及一些實(shí)驗(yàn)結(jié)論。

訓(xùn)練數(shù)據(jù)生成-思考軌跡的自動生成概述

這一部分最關(guān)鍵的是prmopt設(shè)計(jì)，生成參數(shù)主要平衡 “多樣性” 和 “準(zhǔn)確性”等：

簡單可拓展：思考增強(qiáng)預(yù)訓(xùn)練數(shù)據(jù)生成策略及相關(guān)實(shí)驗(yàn)結(jié)論-AI.x社區(qū)

提示詞

{{CONTEXT}}：替換為原始訓(xùn)練文檔
用 “簡單語言拆解復(fù)雜概念”
過濾瑣碎信息：只保留與核心邏輯相關(guān)的推理步驟

最后，將 “原始文檔” 與 “生成的思考軌跡” 拼接，形成最終訓(xùn)練樣本。

訓(xùn)練目標(biāo)損失函數(shù)：

簡單可拓展：思考增強(qiáng)預(yù)訓(xùn)練數(shù)據(jù)生成策略及相關(guān)實(shí)驗(yàn)結(jié)論-AI.x社區(qū)

其中N是增強(qiáng)樣本x的總 Token 數(shù)；

為更清晰理解TPT，需對比其與兩類方法的差異：

方法類別	核心邏輯	算力成本	數(shù)據(jù)效率	適用場景
TPT	生成思考軌跡增強(qiáng)數(shù)據(jù)	低（文檔級）	高（3倍提升）	預(yù)訓(xùn)練/中期訓(xùn)練/SFT全流程
RPT（強(qiáng)化預(yù)訓(xùn)練）	用RL優(yōu)化下一個(gè)Token預(yù)測	高（在線Rollout）	中	僅預(yù)訓(xùn)練
CoT（思維鏈）	推理時(shí)生成步驟（非訓(xùn)練）	推理時(shí)高	無（不提升訓(xùn)練效率）	僅推理階段

實(shí)驗(yàn)

訓(xùn)練語料： MegaMath-Web-Pro-Max和FineWeb-Edu 模型架構(gòu)：LLaMA-3-8B 策略：總訓(xùn)練預(yù)算為 100 B 個(gè) token。兩者唯一的區(qū)別在于：一個(gè)在原始數(shù)據(jù)集上進(jìn)行訓(xùn)練，另一個(gè)在思維增強(qiáng)數(shù)據(jù)集上進(jìn)行訓(xùn)練。

簡單可拓展：思考增強(qiáng)預(yù)訓(xùn)練數(shù)據(jù)生成策略及相關(guān)實(shí)驗(yàn)結(jié)論-AI.x社區(qū)

預(yù)訓(xùn)練損失曲線和在 5 個(gè)任務(wù)上的綜合得分隨總訓(xùn)練 token 數(shù)（8B 模型）的變化情況。

簡單可拓展：思考增強(qiáng)預(yù)訓(xùn)練數(shù)據(jù)生成策略及相關(guān)實(shí)驗(yàn)結(jié)論-AI.x社區(qū)

基礎(chǔ)模型在 5 個(gè)數(shù)據(jù)集上的性能及其平均值

簡單可拓展：思考增強(qiáng)預(yù)訓(xùn)練數(shù)據(jù)生成策略及相關(guān)實(shí)驗(yàn)結(jié)論-AI.x社區(qū)

監(jiān)督微調(diào)后在 2 B-token 思維混合數(shù)據(jù)集上的表現(xiàn)

簡單可拓展：思考增強(qiáng)預(yù)訓(xùn)練數(shù)據(jù)生成策略及相關(guān)實(shí)驗(yàn)結(jié)論-AI.x社區(qū)

任務(wù)得分相對于總訓(xùn)練 token 數(shù)（8B 模型）。原始文檔中的 token 數(shù)通過隨機(jī)采樣限制為 10 B。得分如下表

簡單可拓展：思考增強(qiáng)預(yù)訓(xùn)練數(shù)據(jù)生成策略及相關(guān)實(shí)驗(yàn)結(jié)論-AI.x社區(qū)

THINKING AUGMENTED PRE-TRAINING,https://arxiv.org/pdf/2509.20186

本文轉(zhuǎn)載自???大模型自然語言處理?? 作者：llmnlp

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

思考增強(qiáng)預(yù)訓(xùn)練

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

MolGen: 化學(xué)反饋引導(dǎo)的預(yù)訓(xùn)練分子生成

mb5f8eba9bdb0af ? 3912瀏覽 ? 0回復(fù)
HuggingFace放出規(guī)模最大、質(zhì)量最高預(yù)訓(xùn)練數(shù)據(jù)集

duhorse ? 4509瀏覽 ? 0回復(fù)
值得細(xì)讀的八個(gè)視覺大模型生成式預(yù)訓(xùn)練方法

angel ? 7803瀏覽 ? 0回復(fù)
LLM 預(yù)訓(xùn)練語料、預(yù)處理和數(shù)據(jù)集索引、加載總結(jié)

amei2000go ? 9063瀏覽 ? 0回復(fù)
簡單策略解決CTR模型訓(xùn)練一輪過擬合問題

海因斯DK ? 7289瀏覽 ? 0回復(fù)
你真的了解預(yù)訓(xùn)練嗎？預(yù)訓(xùn)練與微調(diào)的區(qū)別是什么？

AI探索時(shí)代 ? 9775瀏覽 ? 0回復(fù)
大模型的核心之一——大模型預(yù)訓(xùn)練之數(shù)據(jù)預(yù)處理

AI探索時(shí)代 ? 6673瀏覽 ? 0回復(fù)
REGMIX: 作為語言模型預(yù)訓(xùn)練的回歸數(shù)據(jù)配比

sbf_2000 ? 4695瀏覽 ? 0回復(fù)
從OmniGen的數(shù)據(jù)、模型設(shè)計(jì)與訓(xùn)練策略中深度了解多模態(tài)統(tǒng)一生成模型

shizhi02 ? 7056瀏覽 ? 0回復(fù)
《深度學(xué)習(xí) “魔法”：數(shù)據(jù)增強(qiáng)策略深度剖析》

智能交互引擎 ? 3907瀏覽 ? 0回復(fù)
深入理解預(yù)訓(xùn)練與微調(diào)，為什么需要預(yù)訓(xùn)練，什么是微調(diào)？

AI探索時(shí)代 ? 5759瀏覽 ? 0回復(fù)
提升RAG性能的全攻略：優(yōu)化檢索增強(qiáng)生成系統(tǒng)的策略大揭秘

Halo咯咯 ? 8605瀏覽 ? 0回復(fù)
OCR-free感知多模態(tài)大模型技術(shù)鏈路及訓(xùn)練數(shù)據(jù)細(xì)節(jié)

大模型自然語言處理 ? 4452瀏覽 ? 0回復(fù)
RAG技術(shù)落地的兩個(gè)問題及應(yīng)對策略

zhishan15 ? 4221瀏覽 ? 0回復(fù)
中國科大認(rèn)知全重實(shí)驗(yàn)室發(fā)布Agent-R1訓(xùn)練框架，支持自主思考與工具調(diào)用！

arnoldzhw ? 3075瀏覽 ? 0回復(fù)
LLM訓(xùn)練數(shù)據(jù)綜述：預(yù)訓(xùn)練與微調(diào)數(shù)據(jù)的規(guī)模、來源、類型及開源資源梳理

AIRoobt ? 9125瀏覽 ? 0回復(fù)
2 萬字總結(jié)：全面梳理大模型預(yù)訓(xùn)練相關(guān)技術(shù)

amei2000go ? 2659瀏覽 ? 0回復(fù)
多模態(tài)大模型中圖像分辨率packing策略及原生分辨率NaViT的部分結(jié)論

大模型自然語言處理 ? 1482瀏覽 ? 0回復(fù)
突破大模型訓(xùn)練瓶頸：騰訊團(tuán)隊(duì)提出RLPT新范式，讓模型從預(yù)訓(xùn)練數(shù)據(jù)中自我強(qiáng)化

柏企閱文 ? 2235瀏覽 ? 0回復(fù)

大模型自然語言處理

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

整合多模態(tài)文檔解析與DeepResearch的框架：Doc-Researcher思路 4天前發(fā)布
多模態(tài)大模型Detect Anything量化坐標(biāo)設(shè)計(jì)思路 6天前發(fā)布

熱門推薦

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測中展現(xiàn)出驚人效率，僅用15秒便將百頁P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

DeepSeek 成長史：從量化投資到 AI 革命的一個(gè) “非主流” 量化大佬的 AI 夢 0回復(fù)

DeepSeek團(tuán)隊(duì)開源新模型DeepSeek-OCR，用3B參數(shù)量實(shí)現(xiàn)10倍文本壓縮的多模態(tài)突破 0回復(fù)

上一篇：萬字梳理大模型后訓(xùn)練（Post-Training）

下一篇：多模態(tài)文檔理解視覺token剪枝思路

社區(qū)精華內(nèi)容

目錄

<nobr id="j4wie"><strong id="j4wie"><p id="j4wie"></p></strong></nobr>

<var id="j4wie"></var>

<thead id="j4wie"><option id="j4wie"></option></thead>

<thead id="j4wie"><video id="j4wie"></video></thead>