僅靠5000+樣本,全新強化學習范式讓30B輕松擊敗671B的DeepSeek V3
傳統(tǒng)強化學習(RL)在有標準答案的指令遵循任務(如數學、代碼)上已趨成熟,但在開放式的創(chuàng)意寫作領域卻因缺乏客觀對錯而舉步維艱。如何讓 RL 突破「可驗證獎勵」的邊界?螞蟻技術研究院聯(lián)合浙江大學開源全新強化學習范式 Rubicon,通過構建業(yè)界最大規(guī)模的 10,000+ 條「評分標尺」,成功將強化學習的應用范圍拓展至更廣闊的主觀任務領域。用 5000 樣本即超越 671B 模型,讓 AI 告別「機械味」。
自 OpenAI o1 系列模型問世以來,基于「可驗證獎勵」的強化學習(RLVR)已成為提升大模型推理能力的主流。通過海量的數學題、代碼題進行訓練,AI 在客觀對錯分明的領域取得了巨大成功。
然而,這也暴露了當前技術路線的瓶頸:當面對沒有標準答案的開放性、主觀性任務時,AI 怎么辦?
如何讓 AI 寫出情感充沛的文字,而不是「AI 味」十足的模板?如何讓它進行有深度的創(chuàng)意構思,而不是簡單的信息羅列?這正是當前 AI 邁向更高層次智能需要破解的「靈魂難題」。
基于此,螞蟻技術研究院聯(lián)合浙江大學,正式開源其最新研究成果 ——Rubicon-preview 模型,并推出一套名為「基于評分標尺的強化學習(Rubric-based Reinforcement Learning)」的全新范式,為 AI 的主觀創(chuàng)造力提升開辟了一條新路。

- 論文標題:Reinforcement Learning with Rubric Anchors
- 論文地址:https://arxiv.org/pdf/2508.12790
- 項目地址: https://huggingface.co/inclusionAI/Rubicon-Preview
Rubicon:為 AI 裝上「萬能標尺」,量化主觀世界
傳統(tǒng)強化學習依賴非黑即白的獎勵信號,而團隊方法 Rubicon 的核心思想是:放棄尋找客觀的「標準答案」,轉而教會 AI 理解主觀的「評分標準(Rubric)」。「Rubicon」一名源自 RUBrIC aNchOrs (評分標尺構成的錨點),意在為模型在主觀世界中提供穩(wěn)定、可靠的航向。
為了將這一理念落地,尤其是在人文、社科等實用領域的復雜主觀任務上,團隊構建了業(yè)界已知最大規(guī)模的 Rubric 知識庫,包含了超過 10,000 條精細化評分標準,首次大規(guī)模地將人類在創(chuàng)意寫作、情感對話中的微妙偏好,轉化為 AI 可學習的指導信號。
這不僅是數據量的提升,更是為強化學習范式開辟了全新的獎勵(Reward)來源,從根本上拓展了其應用邊界。

Rubicon-preview 模型亮點
1. 四兩撥千斤:5000 樣本超越 671B 模型,訓練效率驚人
實驗證明,僅用 5000+ 訓練樣本,團隊訓練的 30B 模型 Rubicon-preview 在多項開放性、人文類任務上實現了 +5.2% 的絕對性能提升,甚至超越了 671B 參數的 DeepSeek-V3 模型。
這一成果揭示了「規(guī)?;u分標準 (Scaling Rubrics)」的巨大潛力,有望在一定程度上緩解 AI 對海量訓練數據的依賴。

2. 告別「AI 味」:精準的風格控制,更具人性的表達
Rubric 的深度指導賦予了模型前所未有的風格掌控力。
面對同一個情感類問題,傳統(tǒng)模型往往會給出「作為 AI,我沒有感情」的機械式回答,而基于 rubrics RL 訓練的模型則能生成充滿共情和故事性的內容。
3. 破解「蹺蹺板效應」:創(chuàng)意與推理能力兼得
在 AI 訓練中,提升創(chuàng)意能力往往會犧牲邏輯推理能力,形成「蹺蹺板效應」。Rubicon 框架通過巧妙的多階段訓練策略,成功破解了這一難題。
模型在主觀任務性能大幅提升的同時,在 AIME 等數學推理基準上仍有穩(wěn)定提升,實現了感性與理性的協(xié)同進化。

寫在最后
螞蟻技術研究院與浙江大學團隊表示,此次開源不僅是分享一個模型,更是希望將這套全新的、行之有效的強化學習范式與核心基礎設施貢獻給全球開發(fā)者。團隊相信,一個能更好地理解人類情感與創(chuàng)造力的 AI 時代正加速到來,并期待與社區(qū)共同探索其無限可能。



































