偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

僅靠邏輯題，AI數(shù)學(xué)競賽能力飆升！微軟、九坤投資：7B小模型也能逼近o3-mini

作者：機器之心 2025-02-25 12:30:00

人工智能新聞

繼中國大模型突破硅谷圍堵后，國內(nèi)團(tuán)隊再放大招，揭秘 DeepSeek R1 背后的秘密。他們通過僅五千條合成數(shù)據(jù)進(jìn)行低成本強化學(xué)習(xí)，讓 7B 小模型在邏輯推理測試中的表現(xiàn)超越 OpenAI o1，直逼 o3-mini-high。

本文由微軟亞洲研究院的謝天、洪毓謙、邱凱、武智融、羅翀，九坤投資高梓添、Bryan Dai、Joey Zhou，以及獨立研究員任慶楠、羅浩銘合著完成。

只刷邏輯益智題，竟能讓 AI 數(shù)學(xué)競賽水平大幅提升？

繼中國大模型突破硅谷圍堵后，國內(nèi)團(tuán)隊再放大招，揭秘 DeepSeek R1 背后的秘密。他們通過僅五千條合成數(shù)據(jù)進(jìn)行低成本強化學(xué)習(xí)，讓 7B 小模型在邏輯推理測試中的表現(xiàn)超越 OpenAI o1，直逼 o3-mini-high。更令人驚嘆的是，在完全未見過的美國數(shù)學(xué)奧林匹克（AIME）測試中，該模型的推理性能提升了 125%！

論文標(biāo)題：Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning
論文鏈接：https://arxiv.org/abs/2502.14768
Github 鏈接：https://github.com/Unakar/Logic-RL

這是首個全面深入的類 R1 強化學(xué)習(xí)模型訓(xùn)練動態(tài)過程分析。需要強調(diào)的是，該團(tuán)隊不僅完整開源了全流程代碼，還發(fā)布了詳細(xì)的參數(shù)設(shè)置，訓(xùn)練數(shù)據(jù)和設(shè)計經(jīng)驗。

研究團(tuán)隊開宗明義，提出要探究以下問題：

1.DeepSeek R1 所采用的 GRPO 未必就是最合適的強化學(xué)習(xí)（RL）算法？應(yīng)該如何調(diào)參實現(xiàn)穩(wěn)定訓(xùn)練？由易到難的課程學(xué)習(xí)還有用嗎？

2. 從 Base 模型啟動 RL 與完全冷啟動，究竟有多大差異？哪種方式更優(yōu)？

3. 訓(xùn)練中，模型輸出長度常呈現(xiàn)近似線性增長的 Scaling Law，但這種增長速度是否等同于推理能力的提升？

4. 當(dāng)模型頻繁使用 “verify” “check” 等反思性詞匯時，是否意味著其推理能力增強了？哪些 token 能可靠反映推理性能的提升？

5.RL 是真正掌握了抽象推理能力，還是僅僅依賴問題模板的死記硬背？相比傳統(tǒng)有監(jiān)督微調(diào)（SFT），它的優(yōu)勢究竟體現(xiàn)在哪里？

6. 推理過程中，模型時?；煊弥形暮陀⑽?，這種語言切換現(xiàn)象對性能提升是否有實際幫助，甚至是否可能有害？

隨著強化學(xué)習(xí) (RL) 訓(xùn)練進(jìn)行，各觀測指標(biāo)變化。紅線是模型回答長度，藍(lán)線是驗證集準(zhǔn)確率，黃色散點是兩種域外 (OOD) 的數(shù)學(xué)競賽正確率，三者均保持穩(wěn)定增長趨勢：

測試時的計算量，自然而然地從數(shù)百 token，擴展到了數(shù)千 token，暗示著 RL 訓(xùn)練正在鼓勵模型對思考路徑進(jìn)行不斷的探索和修正。

在經(jīng)過 5K 個邏輯問題的訓(xùn)練后，7B 模型就發(fā)展出了一些在邏輯語料庫中原本不存在的高級推理技能 —— 如自我反思、驗證和總結(jié)能力。在沒見過的數(shù)學(xué)競賽題 (AIME/AMC）上，各自取得了 125% 和 38% 的性能提升。

方法

數(shù)據(jù)設(shè)定

常見的數(shù)學(xué)訓(xùn)練集在問題難度上無明確界限，數(shù)學(xué)問題往往具有不定的邏輯深度、知識背景要求，對可控的分析實驗不友好。于是為了分析推理模型的機制，作者轉(zhuǎn)向了完全由程序合成的的「邏輯謎題」作為訓(xùn)練數(shù)據(jù)。

示例問題：一個非常特殊的島嶼上只住著騎士和騙子。騎士總是說真話，騙子總是說謊。你遇到兩位島民：Zoey 和 Oliver。Zoey 說：「Oliver 不是騎士?！筄liver 說：「Oliver 是騎士且 Zoey 是騙子。」請問，誰是騎士，誰是騙子？

這個「騎士與騙子」謎題，因其合成設(shè)計和邏輯精確性而非常適合進(jìn)一步分析：

1. 謎題對于模型來說都是未見過的數(shù)據(jù)，非常適合用來測試泛化能力

2. 通過改變游戲人數(shù)（2 到 8 個）和邏輯運算的深度（1 到 4 種布爾運算符的組合），可以調(diào)節(jié)難度

3. 每個謎題都有一個單一、明確的正確答案，正確性由生成算法保證。解答需要嚴(yán)格的演繹推理，因此減少了獎勵作弊的風(fēng)險

4. 這消除了自然語言任務(wù)中常見的模糊性，使我們能夠清晰地區(qū)分真正的推理能力和數(shù)據(jù)表面上的記憶能力。

獎勵設(shè)計

模型起初會用作弊 (hack) 的方式來騙取獎勵分：

跳過 <think></think> 過程并直接回答。
將推理過程放在 <answer></answer> 標(biāo)簽內(nèi)。
反復(fù)猜測答案而沒有適當(dāng)?shù)耐评怼?/span>
在提供答案之外包含無關(guān)的廢話。
在已經(jīng)輸出一個 <answer> 后再次進(jìn)入思考階段，因為推理不足。
重復(fù)原始問題或使用諸如 “在此處進(jìn)行思考過程” 之類的短語來避免真正的推理。

多輪迭代改進(jìn)獎勵函數(shù)后，作者設(shè)計出了一種幾乎無法作弊的基于規(guī)則的獎勵系統(tǒng)。僅包含兩種獎勵類型：格式獎勵和答案獎勵。思考標(biāo)簽應(yīng)該嚴(yán)格按照順序出現(xiàn)，且出現(xiàn)次數(shù)唯一，思考過程必須包含真正的推理，答案組織要可提取且可讀。

格式獎勵：按格式正確與否給 + 1 或 - 1 的獎勵。
答案獎勵：答案無法被提取，獎勵為 - 2；答案部分錯誤時，獎勵為 - 1.5，答案正確時，獎勵為 + 2。

為了減少 Base 模型指令跟隨難度（遵守先思考再回答的范式），作者建議直接把 < think > 標(biāo)簽手動加入 prompt 里。

實驗結(jié)果

作者經(jīng)過百組對比實驗，對比了 PPO，GRPO，和 REINFORCE++。最后選擇采用性價比最好的 REINFORCE++ 算法完成主實驗。團(tuán)隊遵循 DeepSeek Math 論文的建議，改動了 REINFORCE++ 算法實現(xiàn)，提出了兩點修正：將 KL 懲罰從 reward 計算提出，放進(jìn) loss 函數(shù)里；并且更換 KL 估計器，采用一種無偏非負(fù)的 KL 估計。

訓(xùn)練方式上，作者嘗試了多組復(fù)雜調(diào)度 (例如高低溫多階段訓(xùn)練)，發(fā)現(xiàn)增益不高，由此決定采用最簡單的訓(xùn)練方式：使用 4e-7 的學(xué)習(xí)率以及 0.7 的溫度一訓(xùn)到底。經(jīng)過 3.6K 步數(shù)的訓(xùn)練之后，模型超越 OpenAI o1 2 倍，直逼 o3-mini-high 的性能。

有趣的發(fā)現(xiàn)與分析

「思考」token 詞頻與推理能力的關(guān)系？

作者檢查了思考相關(guān)的詞匯，在模型輸出的 < think></think > 內(nèi)出現(xiàn)與否，對應(yīng)答案的準(zhǔn)確率：

1. 當(dāng) "wait" "verify" "yet"（稍等，驗證，然而）等等詞出現(xiàn)的時候，推理性能明顯更高。然而也有意想不到的情況：“recheck” 出現(xiàn)的時候，會導(dǎo)致推理分?jǐn)?shù)下降，不是所有人們以為的思考詞都能漲點。recheck 可能表示模型總是舉棋不定，會更大概率犯錯。

2. 說 re-evaluate 和 reevaluate（再次評估）的行為完全不一樣。前者漲，后者跌。作者檢查了原始模型輸出，發(fā)現(xiàn)前者的頻次本身就很高，而后者幾乎不出現(xiàn)，這似乎表明模型使用自己偏好的詞能更順利地完成推理過程。

3. 語言混雜現(xiàn)象 (例如中英夾雜回答問題) 雖然迷人，但會削弱模型性能，增加模型犯錯的幾率。由此作者建議在格式獎勵中加入語言一致性懲罰。不僅能提高用戶的可讀性，還能潛在地增強性能。

突如其來的 Aha Moment 或許根本不存在？

作者統(tǒng)計了訓(xùn)練過程中思考相關(guān)的各詞頻變化。RL 訓(xùn)練自然地提高了與反思相關(guān)詞匯（如 verify, check）以及語氣舒緩詞（let's, yet, now that..）的頻率。

似乎不存在忽然的頓悟時刻 —— 即所謂的 Aha moment。這些思考性詞匯，在訓(xùn)練的前十步就已經(jīng)出現(xiàn)，只是頻次很低。并且在訓(xùn)練過程中，這些詞語的詞頻只是緩慢增長，并不存在突然的頓悟。

SFT 依賴記憶；RL 泛化性更好

在訓(xùn)練數(shù)據(jù)集上進(jìn)行擾動，例如更換邏輯題里的表述（and->or/not），調(diào)換多人進(jìn)行陳述的順序，使得問題答案和解答路徑發(fā)生完全改變。如果模型真的學(xué)會了題目背后的推理技能，應(yīng)該在題目被擾動后還能保持相當(dāng)?shù)恼鹇?。于是定義記憶分?jǐn)?shù) (LiMem) 為：測試集正確率 * 訓(xùn)練集擾動后的出錯率。

為了獲得合理的有監(jiān)督微調(diào)（SFT）思維鏈數(shù)據(jù)，作者用原模型進(jìn)行 50 次拒絕采樣，挑選正確且最短的輸出作為新的 CoT 數(shù)據(jù)集。由此合理對比拒絕采樣微調(diào)（RFT）和強化學(xué)習(xí)（RL）的效率和記憶性。

SFT 是在記憶分?jǐn)?shù) (橫軸) 大幅增長的代價下，換取少量的測試集分?jǐn)?shù)提高的；而 RL 幾乎不增長記憶性 (甚至出現(xiàn)了負(fù)增長)，而縱軸上的測試集分?jǐn)?shù)快速增長。

這暗示著強化學(xué)習(xí)的優(yōu)越性：不依賴于數(shù)據(jù)本身的結(jié)構(gòu)，用極低的數(shù)據(jù)代價就能實現(xiàn)高效進(jìn)化，體現(xiàn)出超越當(dāng)前數(shù)據(jù)領(lǐng)域的強大泛化性。

更長的思考過程是否代表了更好的推理性能？

作者在訓(xùn)練過程中找到幾組反例，有力地駁斥了這種觀點。

雖然訓(xùn)練動態(tài)中模型輸出長度總是自然增長，但其漲幅不能代表推理性能的同步增長。有時候模型會陷入 " 過度思考 “困境，輸出過長的思維鏈，更容易觸發(fā)長度崩壞。最有效率的思考過程，往往來自最短且正確的路徑。

故而，更長的輸出長度不是訓(xùn)練過程里衡量推理性能的有效指標(biāo)，只能當(dāng)成自然產(chǎn)生的副產(chǎn)物看待。對測試集分?jǐn)?shù)與模型輸出的觀察，是更穩(wěn)妥的做法。

其它結(jié)果

除了上述結(jié)果，該研究還有幾個有趣的發(fā)現(xiàn)：

冷啟動自有其好處，但非必需。無論是從 Base 模型還是 Instruct 模型開始，訓(xùn)練動態(tài)都保持驚人的相似性。不過 SFT 后的模型往往擁有略高的準(zhǔn)確率。
對難度遞進(jìn)的課程學(xué)習(xí)仍然重要。在固定的數(shù)據(jù)混合比例下，精心設(shè)計的課程學(xué)習(xí)方法總是優(yōu)于隨機打亂。

更多研究細(xì)節(jié)，請參閱論文原文！

責(zé)任編輯：張燕妮來源：機器之心

AI 模型訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<pre id="v8q9i"><strike id="v8q9i"><th id="v8q9i"></th></strike></pre>