偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

大模型訓(xùn)練流程及 SFT、RLHF 作用簡述

鴻煊的學(xué)習(xí)筆記

發(fā)布于 2025-7-4 00:09

瀏覽

0收藏

一、大模型訓(xùn)練流程：從預(yù)訓(xùn)練到對齊的三階閉環(huán)

1.1 預(yù)訓(xùn)練階段

基于海量無標(biāo)注數(shù)據(jù)（如互聯(lián)網(wǎng)文本、多模態(tài)數(shù)據(jù)）進行自監(jiān)督學(xué)習(xí)，通過語言建模（LM）、對比學(xué)習(xí)等任務(wù)建立通用表征能力。典型參數(shù)規(guī)模為千億至萬億級別，需千卡級 GPU 集群訓(xùn)練數(shù)月。

1.2 監(jiān)督微調(diào)（SFT）階段

使用標(biāo)注數(shù)據(jù)（如領(lǐng)域問答、指令遵循）調(diào)整模型參數(shù)，使其適配下游任務(wù)。SFT 階段僅需 0.1%-1% 的預(yù)訓(xùn)練數(shù)據(jù)量即可顯著提升特定任務(wù)性能。

1.3 強化學(xué)習(xí)對齊（RLHF）階段

通過人類偏好數(shù)據(jù)訓(xùn)練獎勵模型（Reward Model），指導(dǎo)大模型生成符合倫理和安全規(guī)范的內(nèi)容。此階段可將有害輸出率降低 54%-78%。

二、SFT 與 RLHF 的核心作用

2.1 監(jiān)督微調(diào)（SFT）的雙向價值

任務(wù)適配：通過領(lǐng)域數(shù)據(jù)訓(xùn)練，使模型從 “通用知識理解” 轉(zhuǎn)向 “特定任務(wù)執(zhí)行”。例如在醫(yī)療問答中，SFT 可將模型準確率從通用場景的 75% 提升至專業(yè)領(lǐng)域的 88%。
效率優(yōu)化：僅需少量標(biāo)注數(shù)據(jù)（預(yù)訓(xùn)練數(shù)據(jù)量的 0.1%-1%）即可實現(xiàn)性能提升，避免從頭訓(xùn)練的海量資源消耗。

2.2 強化學(xué)習(xí)對齊（RLHF）的三層優(yōu)化

倫理控制：通過人類偏好數(shù)據(jù)訓(xùn)練獎勵模型，將有害輸出率降低 54%-78%，確保模型輸出符合社會規(guī)范3。
偏好對齊：解決 SFT 的 “目標(biāo) mismatch” 問題 ——SFT 僅學(xué)習(xí) “正確回答” 的概率分布，而 RLHF 能讓模型理解 “人類偏好的回答”（如口語化表達 vs 學(xué)術(shù)化表達）。
動態(tài)進化：通過持續(xù)收集用戶反饋，RLHF 可迭代優(yōu)化模型策略，例如在客服場景中，模型可根據(jù)用戶滿意度反饋自動調(diào)整回答風(fēng)格。

三、關(guān)鍵技術(shù)對比

環(huán)節(jié)	核心目標(biāo)	技術(shù)特點	面試高頻考點
預(yù)訓(xùn)練	構(gòu)建通用語義表征	自監(jiān)督學(xué)習(xí)、萬億級數(shù)據(jù)訓(xùn)練	分布式訓(xùn)練架構(gòu)、數(shù)據(jù)清洗策略
SFT	適配具體任務(wù)	小樣本高效微調(diào)、領(lǐng)域知識注入	LoRA 等參數(shù)高效微調(diào)技術(shù)
RLHF	對齊人類價值觀	獎勵模型訓(xùn)練、PPO 等強化算法	偏好數(shù)據(jù)收集方法、KL 正則項作用

問題：“SFT 為何不能替代 RLHF？”

SFT 是 token 級學(xué)習(xí)，無法解決 “價值觀對齊” 和 “用戶隱性偏好捕捉” 問題，而 RLHF 通過人類反饋機制填補了這一空白。

本文轉(zhuǎn)載自???????鴻煊的學(xué)習(xí)筆記???????，作者：乘風(fēng)破浪jxj

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

探究代碼思維鏈對大模型推理能力的作用

mb5f8eba9bdb0af ? 4595瀏覽 ? 0回復(fù)
無需RLHF？基于圖增強的大模型可控生成框架

kcoufee ? 3283瀏覽 ? 0回復(fù)
僅靠開源數(shù)據(jù)復(fù)刻出LLaMA3指令學(xué)習(xí)效果，在線迭代RLHF全流程解決方案來了

輕薄滴假象 ? 2968瀏覽 ? 0回復(fù)
OpenAI聯(lián)合創(chuàng)始人John Schulman：OpenAI 大模型史，RLHF，AGI 2027 ...

lintoms ? 3816瀏覽 ? 0回復(fù)
從零實現(xiàn)大模型-RLHF：Reinforcement Learning from Human Feedback

魚蟲子 ? 4752瀏覽 ? 0回復(fù)
神經(jīng)網(wǎng)絡(luò)的通用訓(xùn)練流程

AI探索時代 ? 3003瀏覽 ? 0回復(fù)
大模型的訓(xùn)練與調(diào)優(yōu)，SFT(監(jiān)督微調(diào))和RLHF(基于人類反饋的強化學(xué)習(xí))到底是什么？

AI探索時代 ? 8217瀏覽 ? 0回復(fù)
大模型微調(diào)：Hugging Face Transformers全流程實戰(zhàn)

51CTO內(nèi)容精選 ? 7229瀏覽 ? 0回復(fù)
大模型的訓(xùn)練與調(diào)優(yōu)，SFT(監(jiān)督微調(diào))和RLHF(基于人類反饋的強化學(xué)習(xí))到底是什么？

AI探索時代 ? 8926瀏覽 ? 0回復(fù)
大模型SFT暗藏大陷阱？梯度累計bug造成大范圍影響

kede96 ? 2807瀏覽 ? 0回復(fù)
AI存儲：存儲系統(tǒng)在優(yōu)化AI訓(xùn)練中的關(guān)鍵作用

chengganfei ? 5495瀏覽 ? 0回復(fù)
大模型的三大架構(gòu)及T5體驗

一起AI技術(shù) ? 3334瀏覽 ? 0回復(fù)
OCR-free感知多模態(tài)大模型技術(shù)鏈路及訓(xùn)練數(shù)據(jù)細節(jié)

大模型自然語言處理 ? 3104瀏覽 ? 0回復(fù)
大模型之深入探索RAG流程

一起AI技術(shù) ? 3161瀏覽 ? 0回復(fù)
大模型面經(jīng)：SFT和RL如何影響模型的泛化或記憶能力？

shizhi02 ? 2702瀏覽 ? 0回復(fù)
探討大模型預(yù)訓(xùn)練與微調(diào)之間的相互作用

NLP工作站 ? 2252瀏覽 ? 0回復(fù)
大模型 SFT 有監(jiān)督微調(diào)教程

AI悠閑區(qū) ? 2217瀏覽 ? 0回復(fù)
我們一起聊聊大模型 SFT 有監(jiān)督微調(diào)教程

AI悠閑區(qū) ? 1877瀏覽 ? 0回復(fù)
MCP協(xié)議之MCP簡述

一起AI技術(shù) ? 3302瀏覽 ? 0回復(fù)

鴻煊的學(xué)習(xí)筆記

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

為什么大家都開始探索 MoE 架構(gòu)？MoE 相比 Dense 有什么好處？ 16h前發(fā)布
RLHF 核心算法解析：從 DPO 到 DAPO 的大模型對齊技術(shù)演進 17h前發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

我把DeepSeek微調(diào)參數(shù)扒光了，顯存和性能優(yōu)化的秘密都在這 0回復(fù)

上一篇： RLHF 核心算法解析：從 DPO 到 DAPO 的大模型對齊技術(shù)演進

下一篇：為什么大家都開始探索 MoE 架構(gòu)？MoE 相比 Dense 有什么好處？

社區(qū)精華內(nèi)容

目錄

<sub id="pobnw"></sub>