偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

僅靠5000+樣本,全新強化學習范式讓30B輕松擊敗671B的DeepSeek V3

人工智能 新聞
螞蟻技術研究院聯(lián)合浙江大學,正式開源其最新研究成果 ——Rubicon-preview 模型,并推出一套名為「基于評分標尺的強化學習(Rubric-based Reinforcement Learning)」的全新范式,為 AI 的主觀創(chuàng)造力提升開辟了一條新路。

傳統(tǒng)強化學習(RL)在有標準答案的指令遵循任務(如數學、代碼)上已趨成熟,但在開放式的創(chuàng)意寫作領域卻因缺乏客觀對錯而舉步維艱。如何讓 RL 突破「可驗證獎勵」的邊界?螞蟻技術研究院聯(lián)合浙江大學開源全新強化學習范式 Rubicon,通過構建業(yè)界最大規(guī)模的 10,000+ 條「評分標尺」,成功將強化學習的應用范圍拓展至更廣闊的主觀任務領域。用 5000 樣本即超越 671B 模型,讓 AI 告別「機械味」。

自 OpenAI o1 系列模型問世以來,基于「可驗證獎勵」的強化學習(RLVR)已成為提升大模型推理能力的主流。通過海量的數學題、代碼題進行訓練,AI 在客觀對錯分明的領域取得了巨大成功。

然而,這也暴露了當前技術路線的瓶頸:當面對沒有標準答案的開放性、主觀性任務時,AI 怎么辦?

如何讓 AI 寫出情感充沛的文字,而不是「AI 味」十足的模板?如何讓它進行有深度的創(chuàng)意構思,而不是簡單的信息羅列?這正是當前 AI 邁向更高層次智能需要破解的「靈魂難題」。

基于此,螞蟻技術研究院聯(lián)合浙江大學,正式開源其最新研究成果 ——Rubicon-preview 模型,并推出一套名為「基于評分標尺的強化學習(Rubric-based Reinforcement Learning)」的全新范式,為 AI 的主觀創(chuàng)造力提升開辟了一條新路。

  • 論文標題:Reinforcement Learning with Rubric Anchors
  • 論文地址:https://arxiv.org/pdf/2508.12790
  • 項目地址: https://huggingface.co/inclusionAI/Rubicon-Preview

Rubicon:為 AI 裝上「萬能標尺」,量化主觀世界

傳統(tǒng)強化學習依賴非黑即白的獎勵信號,而團隊方法 Rubicon 的核心思想是:放棄尋找客觀的「標準答案」,轉而教會 AI 理解主觀的「評分標準(Rubric)」。「Rubicon」一名源自 RUBrIC aNchOrs (評分標尺構成的錨點),意在為模型在主觀世界中提供穩(wěn)定、可靠的航向。 

為了將這一理念落地,尤其是在人文、社科等實用領域的復雜主觀任務上,團隊構建了業(yè)界已知最大規(guī)模的 Rubric 知識庫,包含了超過 10,000 條精細化評分標準,首次大規(guī)模地將人類在創(chuàng)意寫作、情感對話中的微妙偏好,轉化為 AI 可學習的指導信號。

這不僅是數據量的提升,更是為強化學習范式開辟了全新的獎勵(Reward)來源,從根本上拓展了其應用邊界。

Rubicon-preview 模型亮點

1. 四兩撥千斤:5000 樣本超越 671B 模型,訓練效率驚人

實驗證明,僅用 5000+ 訓練樣本,團隊訓練的 30B 模型 Rubicon-preview 在多項開放性、人文類任務上實現了 +5.2% 的絕對性能提升,甚至超越了 671B 參數的 DeepSeek-V3 模型。

這一成果揭示了「規(guī)?;u分標準 (Scaling Rubrics)」的巨大潛力,有望在一定程度上緩解 AI 對海量訓練數據的依賴。

2. 告別「AI 味」:精準的風格控制,更具人性的表達

Rubric 的深度指導賦予了模型前所未有的風格掌控力。

面對同一個情感類問題,傳統(tǒng)模型往往會給出「作為 AI,我沒有感情」的機械式回答,而基于 rubrics RL 訓練的模型則能生成充滿共情和故事性的內容。

3. 破解「蹺蹺板效應」:創(chuàng)意與推理能力兼得

在 AI 訓練中,提升創(chuàng)意能力往往會犧牲邏輯推理能力,形成「蹺蹺板效應」。Rubicon 框架通過巧妙的多階段訓練策略,成功破解了這一難題。

模型在主觀任務性能大幅提升的同時,在 AIME 等數學推理基準上仍有穩(wěn)定提升,實現了感性與理性的協(xié)同進化。

寫在最后

螞蟻技術研究院與浙江大學團隊表示,此次開源不僅是分享一個模型,更是希望將這套全新的、行之有效的強化學習范式與核心基礎設施貢獻給全球開發(fā)者。團隊相信,一個能更好地理解人類情感與創(chuàng)造力的 AI 時代正加速到來,并期待與社區(qū)共同探索其無限可能。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-04-07 08:50:00

模型AI數據

2025-09-23 09:42:58

2025-06-17 08:45:00

模型智能工具

2025-08-04 08:51:00

2025-05-01 10:33:59

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-03-13 06:34:49

2025-04-03 06:30:00

2024-12-20 12:30:00

模型AI數據

2025-04-11 12:10:33

2024-12-27 11:13:16

2023-06-25 11:30:47

可視化

2025-07-18 10:12:00

2025-09-02 10:20:10

2024-12-30 20:32:36

2025-03-11 13:07:58

2025-02-05 12:53:21

2025-04-03 15:57:48

點贊
收藏

51CTO技術棧公眾號