偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

僅靠邏輯題,AI數(shù)學(xué)競賽能力飆升!微軟、九坤投資:7B小模型也能逼近o3-mini

人工智能 新聞
繼中國大模型突破硅谷圍堵后,國內(nèi)團(tuán)隊再放大招,揭秘 DeepSeek R1 背后的秘密。他們通過僅五千條合成數(shù)據(jù)進(jìn)行低成本強化學(xué)習(xí),讓 7B 小模型在邏輯推理測試中的表現(xiàn)超越 OpenAI o1,直逼 o3-mini-high。

本文由微軟亞洲研究院的謝天、洪毓謙、邱凱、武智融、羅翀,九坤投資高梓添、Bryan Dai、Joey Zhou,以及獨立研究員任慶楠、羅浩銘合著完成。

只刷邏輯益智題,竟能讓 AI 數(shù)學(xué)競賽水平大幅提升?

繼中國大模型突破硅谷圍堵后,國內(nèi)團(tuán)隊再放大招,揭秘 DeepSeek R1 背后的秘密。他們通過僅五千條合成數(shù)據(jù)進(jìn)行低成本強化學(xué)習(xí),讓 7B 小模型在邏輯推理測試中的表現(xiàn)超越 OpenAI o1,直逼 o3-mini-high。更令人驚嘆的是,在完全未見過的美國數(shù)學(xué)奧林匹克(AIME)測試中,該模型的推理性能提升了 125%!

  • 論文標(biāo)題:Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning
  • 論文鏈接:https://arxiv.org/abs/2502.14768
  • Github 鏈接:https://github.com/Unakar/Logic-RL

這是首個全面深入的類 R1 強化學(xué)習(xí)模型訓(xùn)練動態(tài)過程分析。需要強調(diào)的是,該團(tuán)隊不僅完整開源了全流程代碼,還發(fā)布了詳細(xì)的參數(shù)設(shè)置,訓(xùn)練數(shù)據(jù)和設(shè)計經(jīng)驗。

研究團(tuán)隊開宗明義,提出要探究以下問題:

1.DeepSeek R1 所采用的 GRPO 未必就是最合適的強化學(xué)習(xí)(RL)算法?應(yīng)該如何調(diào)參實現(xiàn)穩(wěn)定訓(xùn)練?由易到難的課程學(xué)習(xí)還有用嗎?

2. 從 Base 模型啟動 RL 與完全冷啟動,究竟有多大差異?哪種方式更優(yōu)?

3. 訓(xùn)練中,模型輸出長度常呈現(xiàn)近似線性增長的 Scaling Law,但這種增長速度是否等同于推理能力的提升?

4. 當(dāng)模型頻繁使用 “verify” “check” 等反思性詞匯時,是否意味著其推理能力增強了?哪些 token 能可靠反映推理性能的提升?

5.RL 是真正掌握了抽象推理能力,還是僅僅依賴問題模板的死記硬背?相比傳統(tǒng)有監(jiān)督微調(diào)(SFT),它的優(yōu)勢究竟體現(xiàn)在哪里?

6. 推理過程中,模型時?;煊弥形暮陀⑽?,這種語言切換現(xiàn)象對性能提升是否有實際幫助,甚至是否可能有害?

隨著強化學(xué)習(xí) (RL) 訓(xùn)練進(jìn)行,各觀測指標(biāo)變化。紅線是模型回答長度,藍(lán)線是驗證集準(zhǔn)確率,黃色散點是兩種域外 (OOD) 的數(shù)學(xué)競賽正確率,三者均保持穩(wěn)定增長趨勢:

測試時的計算量,自然而然地從數(shù)百 token,擴展到了數(shù)千 token,暗示著 RL 訓(xùn)練正在鼓勵模型對思考路徑進(jìn)行不斷的探索和修正。

在經(jīng)過 5K 個邏輯問題的訓(xùn)練后,7B 模型就發(fā)展出了一些在邏輯語料庫中原本不存在的高級推理技能 —— 如自我反思、驗證和總結(jié)能力。在沒見過的數(shù)學(xué)競賽題 (AIME/AMC)上,各自取得了 125% 和 38% 的性能提升。

方法

數(shù)據(jù)設(shè)定

常見的數(shù)學(xué)訓(xùn)練集在問題難度上無明確界限,數(shù)學(xué)問題往往具有不定的邏輯深度、知識背景要求,對可控的分析實驗不友好。于是為了分析推理模型的機制,作者轉(zhuǎn)向了完全由程序合成的的「邏輯謎題」作為訓(xùn)練數(shù)據(jù)。

示例問題:一個非常特殊的島嶼上只住著騎士和騙子。騎士總是說真話,騙子總是說謊。你遇到兩位島民:Zoey 和 Oliver。Zoey 說:「Oliver 不是騎士?!筄liver 說:「Oliver 是騎士且 Zoey 是騙子。」請問,誰是騎士,誰是騙子?

這個「騎士與騙子」謎題,因其合成設(shè)計和邏輯精確性而非常適合進(jìn)一步分析:

1. 謎題對于模型來說都是未見過的數(shù)據(jù),非常適合用來測試泛化能力

2. 通過改變游戲人數(shù)(2 到 8 個)和邏輯運算的深度(1 到 4 種布爾運算符的組合),可以調(diào)節(jié)難度

3. 每個謎題都有一個單一、明確的正確答案,正確性由生成算法保證。解答需要嚴(yán)格的演繹推理,因此減少了獎勵作弊的風(fēng)險

4. 這消除了自然語言任務(wù)中常見的模糊性,使我們能夠清晰地區(qū)分真正的推理能力和數(shù)據(jù)表面上的記憶能力。

獎勵設(shè)計

模型起初會用作弊 (hack) 的方式來騙取獎勵分:

  • 跳過 <think></think> 過程并直接回答。
  • 將推理過程放在 <answer></answer> 標(biāo)簽內(nèi)。
  • 反復(fù)猜測答案而沒有適當(dāng)?shù)耐评怼?/span>
  • 在提供答案之外包含無關(guān)的廢話。
  • 在已經(jīng)輸出一個 <answer> 后再次進(jìn)入思考階段,因為推理不足。
  • 重復(fù)原始問題或使用諸如 “在此處進(jìn)行思考過程” 之類的短語來避免真正的推理。

多輪迭代改進(jìn)獎勵函數(shù)后,作者設(shè)計出了一種幾乎無法作弊的基于規(guī)則的獎勵系統(tǒng)。僅包含兩種獎勵類型:格式獎勵和答案獎勵。思考標(biāo)簽應(yīng)該嚴(yán)格按照順序出現(xiàn),且出現(xiàn)次數(shù)唯一,思考過程必須包含真正的推理,答案組織要可提取且可讀。

  • 格式獎勵:按格式正確與否給 + 1 或 - 1 的獎勵。
  • 答案獎勵:答案無法被提取,獎勵為 - 2;答案部分錯誤時,獎勵為 - 1.5,答案正確時,獎勵為 + 2。

為了減少 Base 模型指令跟隨難度(遵守先思考再回答的范式),作者建議直接把 < think > 標(biāo)簽手動加入 prompt 里。

實驗結(jié)果

作者經(jīng)過百組對比實驗,對比了 PPO,GRPO,和 REINFORCE++。最后選擇采用性價比最好的 REINFORCE++ 算法完成主實驗。團(tuán)隊遵循 DeepSeek Math 論文的建議,改動了 REINFORCE++ 算法實現(xiàn),提出了兩點修正:將 KL 懲罰從 reward 計算提出,放進(jìn) loss 函數(shù)里;并且更換 KL 估計器,采用一種無偏非負(fù)的 KL 估計。

訓(xùn)練方式上,作者嘗試了多組復(fù)雜調(diào)度 (例如高低溫多階段訓(xùn)練),發(fā)現(xiàn)增益不高,由此決定采用最簡單的訓(xùn)練方式:使用 4e-7 的學(xué)習(xí)率以及 0.7 的溫度一訓(xùn)到底。經(jīng)過 3.6K 步數(shù)的訓(xùn)練之后,模型超越 OpenAI o1 2 倍,直逼 o3-mini-high 的性能。

有趣的發(fā)現(xiàn)與分析

「思考」token 詞頻與推理能力的關(guān)系?

作者檢查了思考相關(guān)的詞匯,在模型輸出的 < think></think > 內(nèi)出現(xiàn)與否,對應(yīng)答案的準(zhǔn)確率:

1. 當(dāng) "wait" "verify" "yet"(稍等,驗證,然而)等等詞出現(xiàn)的時候,推理性能明顯更高。然而也有意想不到的情況:“recheck” 出現(xiàn)的時候,會導(dǎo)致推理分?jǐn)?shù)下降,不是所有人們以為的思考詞都能漲點。recheck 可能表示模型總是舉棋不定,會更大概率犯錯。

2. 說 re-evaluate 和 reevaluate(再次評估)的行為完全不一樣。前者漲,后者跌。作者檢查了原始模型輸出,發(fā)現(xiàn)前者的頻次本身就很高,而后者幾乎不出現(xiàn),這似乎表明模型使用自己偏好的詞能更順利地完成推理過程。

3. 語言混雜現(xiàn)象 (例如中英夾雜回答問題) 雖然迷人,但會削弱模型性能,增加模型犯錯的幾率。由此作者建議在格式獎勵中加入語言一致性懲罰。不僅能提高用戶的可讀性,還能潛在地增強性能。

突如其來的 Aha Moment 或許根本不存在?

作者統(tǒng)計了訓(xùn)練過程中思考相關(guān)的各詞頻變化。RL 訓(xùn)練自然地提高了與反思相關(guān)詞匯(如 verify, check)以及語氣舒緩詞(let's, yet, now that..)的頻率。

似乎不存在忽然的頓悟時刻 —— 即所謂的 Aha moment。這些思考性詞匯,在訓(xùn)練的前十步就已經(jīng)出現(xiàn),只是頻次很低。并且在訓(xùn)練過程中,這些詞語的詞頻只是緩慢增長,并不存在突然的頓悟。

SFT 依賴記憶;RL 泛化性更好

在訓(xùn)練數(shù)據(jù)集上進(jìn)行擾動,例如更換邏輯題里的表述(and->or/not),調(diào)換多人進(jìn)行陳述的順序,使得問題答案和解答路徑發(fā)生完全改變。如果模型真的學(xué)會了題目背后的推理技能,應(yīng)該在題目被擾動后還能保持相當(dāng)?shù)恼鹇?。于是定義記憶分?jǐn)?shù) (LiMem) 為:測試集正確率 * 訓(xùn)練集擾動后的出錯率。

為了獲得合理的有監(jiān)督微調(diào)(SFT)思維鏈數(shù)據(jù),作者用原模型進(jìn)行 50 次拒絕采樣,挑選正確且最短的輸出作為新的 CoT 數(shù)據(jù)集。由此合理對比拒絕采樣微調(diào)(RFT)和強化學(xué)習(xí)(RL)的效率和記憶性。

SFT 是在記憶分?jǐn)?shù) (橫軸) 大幅增長的代價下,換取少量的測試集分?jǐn)?shù)提高的;而 RL 幾乎不增長記憶性 (甚至出現(xiàn)了負(fù)增長),而縱軸上的測試集分?jǐn)?shù)快速增長。

這暗示著強化學(xué)習(xí)的優(yōu)越性:不依賴于數(shù)據(jù)本身的結(jié)構(gòu),用極低的數(shù)據(jù)代價就能實現(xiàn)高效進(jìn)化,體現(xiàn)出超越當(dāng)前數(shù)據(jù)領(lǐng)域的強大泛化性。

更長的思考過程是否代表了更好的推理性能?

作者在訓(xùn)練過程中找到幾組反例,有力地駁斥了這種觀點。

雖然訓(xùn)練動態(tài)中模型輸出長度總是自然增長,但其漲幅不能代表推理性能的同步增長。有時候模型會陷入 " 過度思考 “困境,輸出過長的思維鏈,更容易觸發(fā)長度崩壞。最有效率的思考過程,往往來自最短且正確的路徑。

故而,更長的輸出長度不是訓(xùn)練過程里衡量推理性能的有效指標(biāo),只能當(dāng)成自然產(chǎn)生的副產(chǎn)物看待。對測試集分?jǐn)?shù)與模型輸出的觀察,是更穩(wěn)妥的做法。

其它結(jié)果

除了上述結(jié)果,該研究還有幾個有趣的發(fā)現(xiàn):

  • 冷啟動自有其好處,但非必需。無論是從 Base 模型還是 Instruct 模型開始,訓(xùn)練動態(tài)都保持驚人的相似性。不過 SFT 后的模型往往擁有略高的準(zhǔn)確率。
  • 對難度遞進(jìn)的課程學(xué)習(xí)仍然重要。在固定的數(shù)據(jù)混合比例下,精心設(shè)計的課程學(xué)習(xí)方法總是優(yōu)于隨機打亂。

更多研究細(xì)節(jié),請參閱論文原文!

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-01-20 19:52:50

2024-12-24 16:15:04

2025-02-08 17:00:11

2025-02-18 09:00:00

2020-10-05 21:47:30

AI 數(shù)據(jù)人工智能

2025-01-10 11:42:40

2025-03-04 10:15:00

2025-03-13 06:34:49

2024-02-04 08:00:00

Zephyr 7B大語言模型算法

2025-02-03 00:15:00

DeepSeek?o3-mini?資源

2025-06-25 08:54:03

模型訓(xùn)練AI

2024-05-09 08:33:33

2025-01-10 12:58:37

2024-05-07 09:33:03

模型手機

2025-05-26 08:52:00

2025-03-13 09:12:35

2025-02-08 11:44:03

2023-08-14 13:29:37

2025-02-14 10:47:40

2024-07-17 12:13:11

點贊
收藏

51CTO技術(shù)棧公眾號