偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

使用DeepSeek的GRPO,7B模型只需強(qiáng)化學(xué)習(xí)就能拿下數(shù)獨(dú)

人工智能 新聞
現(xiàn)在的語(yǔ)言模型已經(jīng)能完成很多任務(wù)了,包括寫論文、生成代碼和解答復(fù)雜問題。但是,如何讓它們學(xué)會(huì)解答需要結(jié)構(gòu)化思維、空間推理和邏輯推理的難題呢?

沒有任何冷啟動(dòng)數(shù)據(jù),7B 參數(shù)模型能單純通過(guò)強(qiáng)化學(xué)習(xí)學(xué)會(huì)玩數(shù)獨(dú)嗎?

近日,技術(shù)博主 Hrishbh Dalal 的實(shí)踐表明,這個(gè)問題的答案是肯定的。并且他在這個(gè)過(guò)程中用到了 DeepSeek 開發(fā)的 GRPO 算法,最終他「成功在一個(gè)小型數(shù)獨(dú)數(shù)據(jù)集上實(shí)現(xiàn)了高獎(jiǎng)勵(lì)和解答」。

圖片

下面我們就來(lái)具體看看他的博客文章,了解一番他的開發(fā)思路。

原文地址:https://hrishbh.com/teaching-language-models-to-solve-sudoku-through-reinforcement-learning/

現(xiàn)在的語(yǔ)言模型已經(jīng)能完成很多任務(wù)了,包括寫論文、生成代碼和解答復(fù)雜問題。但是,如何讓它們學(xué)會(huì)解答需要結(jié)構(gòu)化思維、空間推理和邏輯推理的難題呢?這就是我最近的實(shí)驗(yàn)的切入點(diǎn) —— 通過(guò)強(qiáng)化學(xué)習(xí)教語(yǔ)言模型解決數(shù)獨(dú)問題。

教語(yǔ)言模型玩數(shù)獨(dú)的難點(diǎn)

對(duì)語(yǔ)言模型來(lái)說(shuō),數(shù)獨(dú)有自己獨(dú)特的難點(diǎn)。不同于開放式的文本生成,玩數(shù)獨(dú)需要:

  • 遵循嚴(yán)格的規(guī)則(每行、每列和每框必須包含數(shù)字 1-9,且不能重復(fù))
  • 保持一致的網(wǎng)格格式
  • 應(yīng)用逐步的邏輯推理
  • 理解網(wǎng)格元素之間的空間關(guān)系
  • 得出一個(gè)正確的解答

有趣的是,語(yǔ)言模型并不是為結(jié)構(gòu)化問題設(shè)計(jì)的。它們的訓(xùn)練目標(biāo)是預(yù)測(cè)文本,而不是遵循邏輯規(guī)則或維持網(wǎng)格結(jié)構(gòu)。然而,通過(guò)正確的方法,它們可以學(xué)會(huì)這些技能。

準(zhǔn)備數(shù)據(jù):從數(shù)值到網(wǎng)格

本實(shí)驗(yàn)使用了來(lái)自 Kaggle 的包含 400 萬(wàn)數(shù)獨(dú)的數(shù)據(jù)集,其中有非常簡(jiǎn)單的,也有非常困難的。準(zhǔn)備數(shù)據(jù)集的過(guò)程包含幾大關(guān)鍵步驟:

1、加載和過(guò)濾:使用 kagglehub 庫(kù)下載數(shù)據(jù)集并根據(jù)難度級(jí)別過(guò)濾數(shù)獨(dú)。

2、難度分類:根據(jù)線索數(shù)量,將數(shù)獨(dú)分為四個(gè)難度級(jí)別:

  • Level 1(非常簡(jiǎn)單):50-81 條線索
  • Level 2(簡(jiǎn)單):40-49 條線索
  • Level 3(中等):30-39 條線索
  • Level 4(困難):17-29 條線索

3、每個(gè)數(shù)獨(dú)一開始都被表示成了 81 個(gè)字符的字符串。這里將其轉(zhuǎn)換為具有適當(dāng)行、列和框分隔符的網(wǎng)格格式:

圖片

4、提示詞工程:每個(gè)數(shù)獨(dú)都會(huì)被封裝在一個(gè)精心設(shè)計(jì)的提示詞中,而該提示詞的作用是指示模型:

  • 在 <think> 標(biāo)簽中逐步思考解決方案
  • 在 <answer> 標(biāo)簽中提供具有適當(dāng)網(wǎng)格格式的最終答案

對(duì)于初始實(shí)驗(yàn),我創(chuàng)建了一個(gè)包含 400 個(gè)訓(xùn)練樣本的聚焦數(shù)據(jù)集,這主要是使用更簡(jiǎn)單的數(shù)獨(dú)來(lái)為學(xué)習(xí)構(gòu)建一個(gè)基線。這個(gè)數(shù)據(jù)集被刻意選得較小,目的是測(cè)試模型使用有限樣本學(xué)習(xí)的效率。加上我的資源有限:如果使用 unsloth grpo 訓(xùn)練,24GB RTX 4090 大約最多只能放入 3000 上下文長(zhǎng)度。因此我只能選擇更簡(jiǎn)單的問題以避免內(nèi)存溢出(OOM),因?yàn)槔щy的問題及其推理鏈更長(zhǎng)。

實(shí)驗(yàn)方法

我決定探索強(qiáng)化學(xué)習(xí)(尤其是 GRPO)能否讓語(yǔ)言模型變成數(shù)獨(dú)求解器。我實(shí)驗(yàn)了兩種不同的模型大?。?/span>

  • Qwen 2.5 7B Instruct:使用了秩為 16 的 LoRA 進(jìn)行微調(diào)
  • Qwen 2.5 3B Instruct:使用了秩為 32 的 LoRA 進(jìn)行微調(diào)

重要的是,我沒有使用冷啟動(dòng)數(shù)據(jù)或從 DeepSeek R1 等較大模型中蒸餾的數(shù)據(jù)。這里會(huì)從基礎(chǔ)指令微調(diào)版模型開始,單純使用強(qiáng)化學(xué)習(xí)。訓(xùn)練配置包括:

  • 批量大?。?
  • 梯度累積步驟:8
  • 學(xué)習(xí)率:3e-4(Karpathy 常數(shù))
  • 最大部署:500
  • 每 10 步評(píng)估一次
  • 最大序列長(zhǎng)度:3000 token

圖片

Andrej Karpathy 曾表示 3e-4 是 Adam 的最佳學(xué)習(xí)率

獎(jiǎng)勵(lì)系統(tǒng):通過(guò)反饋進(jìn)行教學(xué)

強(qiáng)化學(xué)習(xí)的核心是獎(jiǎng)勵(lì)函數(shù) —— 可以告訴模型它何時(shí)表現(xiàn)良好。我設(shè)計(jì)了一個(gè)多分量獎(jiǎng)勵(lì)系統(tǒng),它具有幾個(gè)專門的功能:

1. 格式合規(guī)性獎(jiǎng)勵(lì)

為了實(shí)現(xiàn)良好的解析,模型應(yīng)該始終記得使用正確的思考和答案標(biāo)簽(分別是 <think></think> 和 <answer></answer> 標(biāo)簽)。這些標(biāo)簽有兩個(gè)關(guān)鍵目的:

  • 將推理過(guò)程與最終答案分開
  • 使提取與評(píng)估模型的解答變得容易

為了強(qiáng)制實(shí)施這種結(jié)構(gòu),我實(shí)現(xiàn)了兩個(gè)互補(bǔ)的獎(jiǎng)勵(lì)函數(shù):

圖片

第一個(gè)函數(shù)(tags_presence_reward_func)為出現(xiàn)的每個(gè)標(biāo)簽提供部分 credit,其作用是鼓勵(lì)模型包含所有必需的標(biāo)簽。第二個(gè)函數(shù)(tags_order_reward_func)則用于確保這些標(biāo)簽以正確的順序出現(xiàn) —— 先思考再回答。它們一起可教會(huì)模型保持將推理與解答分開的一致結(jié)構(gòu)。

2. 網(wǎng)格架構(gòu)獎(jiǎng)勵(lì)

為了讓我們讀懂?dāng)?shù)獨(dú)的解答,必須以特定的網(wǎng)格格式呈現(xiàn)它。該獎(jiǎng)勵(lì)函數(shù)的作用便是評(píng)估模型維持正確網(wǎng)格結(jié)構(gòu)的能力:

圖片

該函數(shù)會(huì)將網(wǎng)格格式分解為多個(gè)部分 —— 正確的行數(shù)、正確的分隔符位置、適當(dāng)使用分隔符。模型每個(gè)方面正確了都會(huì)獲得一些獎(jiǎng)勵(lì)。這種細(xì)粒度的方法有助于模型學(xué)習(xí)數(shù)獨(dú)網(wǎng)格的特定空間結(jié)構(gòu)。

3. 解答準(zhǔn)確度獎(jiǎng)勵(lì)

當(dāng)然,最終目標(biāo)是讓模型正確解答數(shù)獨(dú)。這里使用了兩個(gè)獎(jiǎng)勵(lì)函數(shù)來(lái)評(píng)估解答的準(zhǔn)確度:

圖片

第一個(gè)函數(shù) (exact_answer_reward_func) 會(huì)為完全正確的解答提供大獎(jiǎng)勵(lì) (5.0),從而為模型提供正確解答數(shù)獨(dú)的強(qiáng)大動(dòng)力。

第二個(gè)函數(shù) (simple_robust_partial_reward_function) 會(huì)更微妙一些,會(huì)為部分正確的解答提供部分 credit。它有兩個(gè)關(guān)鍵特性:

  • 嚴(yán)格強(qiáng)制模型保留原始線索(如果任何線索發(fā)生變化,則給予零獎(jiǎng)勵(lì));
  • 對(duì)于模型正確填充的每個(gè)空單元格,都按比例給予獎(jiǎng)勵(lì)。

這種部分獎(jiǎng)勵(lì)對(duì)于學(xué)習(xí)至關(guān)重要,因?yàn)樗転槟P驮谟?xùn)練期間提供更平滑的梯度。

4. 規(guī)則合規(guī)獎(jiǎng)勵(lì)

最后,數(shù)獨(dú)解答必須遵守游戲規(guī)則 —— 任何行、列或 3×3 框中都沒有重復(fù)數(shù)字:

圖片

該函數(shù)會(huì)檢查每行、每列和每 3×3 框是否有重復(fù)項(xiàng),模型滿足每個(gè)約束時(shí)都能獲得一些獎(jiǎng)勵(lì)。這能讓模型學(xué)會(huì)數(shù)獨(dú)的基本規(guī)則,鼓勵(lì)它生成有效的解答,即使它們與預(yù)期答案不完全匹配。

出人意料的結(jié)果:尺寸很重要

實(shí)際訓(xùn)練結(jié)果揭示了一些有趣的事情:模型大小對(duì)學(xué)習(xí)穩(wěn)定性和性能具有巨大的影響。

7B 模型(使用了秩為 16 的 LoRA)結(jié)果優(yōu)良:

  • 保持了穩(wěn)定的完成長(zhǎng)度,約為 1000 token
  • 能生成格式一致的解答
  • 獎(jiǎng)勵(lì)指標(biāo)穩(wěn)步提升
  • 在整個(gè)訓(xùn)練過(guò)程中保持了策略穩(wěn)定性

與之形成鮮明對(duì)比的是,3B 模型(使用了秩為 32 的 LoRA )表現(xiàn)不佳:

  • 訓(xùn)練期間出現(xiàn)災(zāi)難性的不穩(wěn)定性
  • 出現(xiàn)巨大的策略分歧(KL 飆升至 80?。?/span>
  • 未能保持一致的性能
  • 最終崩潰,無(wú)法恢復(fù)

圖表清楚地說(shuō)明了這一點(diǎn):7B 模型(粉色線)保持了穩(wěn)定的性能,而 3B 模型(綠色線)則出現(xiàn)了劇烈波動(dòng),并且最終完全失敗。

訓(xùn)練和測(cè)試的完成長(zhǎng)度情況:

圖片

訓(xùn)練和測(cè)試的凈獎(jiǎng)勵(lì):

圖片

答案格式獎(jiǎng)勵(lì):

圖片

最重要的:最終答案獎(jiǎng)勵(lì)(模型生成完全正確的響應(yīng)網(wǎng)格并完全匹配):

圖片

對(duì)于 7B 模型,精確答案獎(jiǎng)勵(lì)增長(zhǎng)意味著模型能給出完全匹配的答案,但 3B 則出現(xiàn)崩潰情況。這證明 7B 模型學(xué)會(huì)了用很少的數(shù)據(jù)解決數(shù)獨(dú)問題,并且學(xué)習(xí)速度很快!

部分獎(jiǎng)勵(lì):

圖片

我們得到的啟發(fā)

這個(gè)實(shí)驗(yàn)揭示了關(guān)于復(fù)雜推理任務(wù)的語(yǔ)言模型教學(xué)的幾個(gè)重要啟示:

1、Deepseek R1 論文中提到,在沒有冷啟動(dòng)數(shù)據(jù)的情況下,復(fù)雜推理存在一個(gè)最小規(guī)模閾值。

有些任務(wù)需要一定的模型能力才能穩(wěn)定學(xué)習(xí)。3B 模型的失敗表明,數(shù)獨(dú)解題可能就是這樣一種任務(wù)。

2、穩(wěn)定是學(xué)習(xí)的前提

在模型學(xué)會(huì)正確解題之前,它需要保持穩(wěn)定的訓(xùn)練動(dòng)態(tài)。7B 模型始終如一的指標(biāo)使其能夠取得穩(wěn)步進(jìn)展。

3、多成分獎(jiǎng)勵(lì)提供更好的指導(dǎo)

與單一的通過(guò) / 失敗信號(hào)相比,將獎(jiǎng)勵(lì)細(xì)分為格式合規(guī)性、規(guī)則遵守性和解題準(zhǔn)確性有助于更有效地指導(dǎo)學(xué)習(xí)過(guò)程。

4、強(qiáng)化學(xué)習(xí)可以教授結(jié)構(gòu)化思維

盡管困難重重,GRPO 還是成功地教會(huì)了 7B 模型保持正確的格式并開始解題,這些技能并不是語(yǔ)言模型所固有的。

下一步:擴(kuò)大實(shí)驗(yàn)范圍

這在很大程度上是一個(gè)持續(xù)進(jìn)行的項(xiàng)目,計(jì)劃下一步采取幾個(gè)步驟:

  1. 增加難度:引入更具挑戰(zhàn)性的謎題來(lái)測(cè)試模型的推理能力
  2. 擴(kuò)大計(jì)算規(guī)模:使用更多計(jì)算資源,進(jìn)行更長(zhǎng)時(shí)間和更大批次的訓(xùn)練
  3. 探索模型架構(gòu):測(cè)試 7B 模型的 LoRA rank 32,看更高的 rank 是否能提高性能
  4. 蒸餾法:從 DeepSeek R1 等大型模型中提煉出冷啟動(dòng)數(shù)據(jù)集,然后在此基礎(chǔ)上應(yīng)用 GRPO
  5. 高級(jí)獎(jiǎng)勵(lì)函數(shù):實(shí)施我已經(jīng)設(shè)計(jì)好但尚未在訓(xùn)練中部署的更細(xì)致入微的獎(jiǎng)勵(lì)機(jī)制
  6. 評(píng)估框架:開發(fā)更復(fù)雜的評(píng)估指標(biāo),以評(píng)估推理質(zhì)量,而不僅僅是解決方案的準(zhǔn)確性

增強(qiáng)的獎(jiǎng)勵(lì)函數(shù)的重要性

我未來(lái)工作中最重要的一個(gè)方面就是實(shí)現(xiàn)我已經(jīng)設(shè)計(jì)好的更復(fù)雜的獎(jiǎng)勵(lì)函數(shù)。目前的簡(jiǎn)單獎(jiǎng)勵(lì)函數(shù)是有效的,但增強(qiáng)版包含了幾項(xiàng)關(guān)鍵改進(jìn),可以顯著提高學(xué)習(xí)效率。

以下是我設(shè)計(jì)的增強(qiáng)獎(jiǎng)勵(lì)函數(shù),但尚未在訓(xùn)練中實(shí)施:

圖片

這些獎(jiǎng)勵(lì)函數(shù)背后的思維過(guò)程

我的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)理念圍繞幾個(gè)關(guān)鍵原則:

  1. 漸進(jìn)式獎(jiǎng)勵(lì)優(yōu)于二元反饋:我不會(huì)簡(jiǎn)單地將答案標(biāo)記為正確或錯(cuò)誤,而是為部分解答提供部分獎(jiǎng)勵(lì)。這能創(chuàng)造一個(gè)更平滑的學(xué)習(xí)梯度,有助于模型漸進(jìn)式改進(jìn)。
  2. 難度感知型擴(kuò)展:這些增強(qiáng)過(guò)的函數(shù)會(huì)將問題難度作為一個(gè)乘數(shù),這能為解決更難的問題提供更高的獎(jiǎng)勵(lì)。這能鼓勵(lì)模型解決更難的問題,而不僅僅是優(yōu)化簡(jiǎn)單的問題。
  3. 嚴(yán)格的線索保存:所有獎(jiǎng)勵(lì)函數(shù)都執(zhí)行了一條不可協(xié)商的規(guī)則,即必須保留原始問題線索。這可以防止模型通過(guò)更改問題本身來(lái)「作弊」。
  4. 額外獎(jiǎng)勵(lì)閾值:這些經(jīng)過(guò)增強(qiáng)的函數(shù)包括當(dāng)模型超過(guò)某些性能閾值(75%、85%、95% 正確)時(shí)的額外獎(jiǎng)勵(lì)。當(dāng)模型走上正軌時(shí),這些作為激勵(lì)里程碑,可以加速學(xué)習(xí)。
  5. 最低獎(jiǎng)勵(lì)底線(我最關(guān)注的一點(diǎn)):即使是部分正確的解答也會(huì)獲得較小的最低獎(jiǎng)勵(lì)(0.05),確保模型即使進(jìn)展很小,也能獲得一些反饋。

當(dāng)前的簡(jiǎn)單函數(shù)側(cè)重于最關(guān)鍵的方面(線索保存和部分 credit),而這里增強(qiáng)后的版本則通過(guò)難度調(diào)整和漸進(jìn)獎(jiǎng)勵(lì)增加了復(fù)雜性。在未來(lái)的訓(xùn)練中,我計(jì)劃實(shí)現(xiàn)這些更微妙的獎(jiǎng)勵(lì)函數(shù),看看它們能否進(jìn)一步提高學(xué)習(xí)效率和解答質(zhì)量。

我設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)的關(guān)鍵見解是:基于過(guò)程的獎(jiǎng)勵(lì)(獎(jiǎng)勵(lì)旅程,而不僅僅是目的)對(duì)于模型學(xué)習(xí)復(fù)雜的推理任務(wù)至關(guān)重要。通過(guò)提供中間步驟和部分解答的反饋,可創(chuàng)建一個(gè)比二元成功 / 失敗信號(hào)更有效的學(xué)習(xí)環(huán)境。

這很重要,并且不僅是數(shù)獨(dú)

讓語(yǔ)言模型學(xué)會(huì)玩數(shù)獨(dú)不僅僅是為了解謎娛樂,還為了開發(fā)能夠完成以下任務(wù)的 AI 系統(tǒng):

  1. 遵從結(jié)構(gòu)化流程
  2. 逐步應(yīng)用邏輯推理
  3. 保持格式一致性
  4. 根據(jù)已知規(guī)則驗(yàn)證自己的成果
  5. 理解空間關(guān)系

這些功能的應(yīng)用場(chǎng)景遠(yuǎn)不止于游戲:

  1. 編程:教模型編寫遵循嚴(yán)格語(yǔ)法和邏輯約束的代碼
  2. 數(shù)學(xué)問題求解:實(shí)現(xiàn)復(fù)雜數(shù)學(xué)問題的分步解答
  3. 科學(xué)推理:幫助模型理解和應(yīng)用科學(xué)方法和原理
  4. 形式驗(yàn)證:訓(xùn)練模型根據(jù)既定規(guī)則檢查自己的成果

總結(jié):未盡的旅程

這個(gè)實(shí)驗(yàn)只是我通過(guò)強(qiáng)化學(xué)習(xí)讓語(yǔ)言模型學(xué)習(xí)結(jié)構(gòu)化推理的探索的開始。雖然 7B 模型的初步結(jié)果很有希望,但仍有許多需要學(xué)習(xí)和改進(jìn)的地方。

3B 和 7B 模型性能之間的明顯差異凸顯了一個(gè)重要的教訓(xùn):對(duì)于某些任務(wù),要實(shí)現(xiàn)穩(wěn)定學(xué)習(xí),對(duì)基礎(chǔ)模型有最低的尺寸要求。隨著我繼續(xù)使用更多數(shù)據(jù)、更好的獎(jiǎng)勵(lì)函數(shù)和更大的模型來(lái)改進(jìn)方法,我期望看到更出色的結(jié)果。

隨著新發(fā)現(xiàn)的出現(xiàn),我將定期更新這個(gè)項(xiàng)目。教機(jī)器邏輯思考和解決結(jié)構(gòu)化問題的旅程充滿挑戰(zhàn)但又令人著迷 —— 我很期待其未來(lái)走向。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-03-11 01:00:00

GRPO算法模型

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2025-02-17 10:40:20

2025-03-10 01:00:00

2024-07-26 09:33:22

2025-01-06 12:46:16

模型數(shù)據(jù)訓(xùn)練

2025-05-30 04:00:00

IBMRLVRGRPO

2025-02-20 17:19:08

2025-06-27 15:44:35

蘋果AI模型

2024-06-03 10:43:34

2025-03-11 08:37:42

2025-04-03 15:40:41

機(jī)器學(xué)習(xí)大模型DeepSeek

2025-04-07 02:25:00

DeepSeek模型訓(xùn)練GRPO

2025-05-28 02:25:00

2023-06-25 11:30:47

可視化

2024-03-25 08:00:00

2025-06-23 09:07:00

2024-01-26 08:31:49

2023-10-29 22:41:29

模型開源

2025-05-16 09:10:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)