偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<var id="rx57k"></var>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

僅靠5000+樣本，全新強化學習范式讓30B輕松擊敗671B的DeepSeek V3

2025-08-25 09:03:00

人工智能新聞

螞蟻技術研究院聯(lián)合浙江大學，正式開源其最新研究成果 ——Rubicon-preview 模型，并推出一套名為「基于評分標尺的強化學習（Rubric-based Reinforcement Learning）」的全新范式，為 AI 的主觀創(chuàng)造力提升開辟了一條新路。

傳統(tǒng)強化學習（RL）在有標準答案的指令遵循任務（如數學、代碼）上已趨成熟，但在開放式的創(chuàng)意寫作領域卻因缺乏客觀對錯而舉步維艱。如何讓 RL 突破「可驗證獎勵」的邊界？螞蟻技術研究院聯(lián)合浙江大學開源全新強化學習范式 Rubicon，通過構建業(yè)界最大規(guī)模的 10,000+ 條「評分標尺」，成功將強化學習的應用范圍拓展至更廣闊的主觀任務領域。用 5000 樣本即超越 671B 模型，讓 AI 告別「機械味」。

自 OpenAI o1 系列模型問世以來，基于「可驗證獎勵」的強化學習（RLVR）已成為提升大模型推理能力的主流。通過海量的數學題、代碼題進行訓練，AI 在客觀對錯分明的領域取得了巨大成功。

然而，這也暴露了當前技術路線的瓶頸：當面對沒有標準答案的開放性、主觀性任務時，AI 怎么辦？

如何讓 AI 寫出情感充沛的文字，而不是「AI 味」十足的模板？如何讓它進行有深度的創(chuàng)意構思，而不是簡單的信息羅列？這正是當前 AI 邁向更高層次智能需要破解的「靈魂難題」。

基于此，螞蟻技術研究院聯(lián)合浙江大學，正式開源其最新研究成果 ——Rubicon-preview 模型，并推出一套名為「基于評分標尺的強化學習（Rubric-based Reinforcement Learning）」的全新范式，為 AI 的主觀創(chuàng)造力提升開辟了一條新路。

論文標題：Reinforcement Learning with Rubric Anchors
論文地址：https://arxiv.org/pdf/2508.12790
項目地址： https://huggingface.co/inclusionAI/Rubicon-Preview

Rubicon：為 AI 裝上「萬能標尺」，量化主觀世界

傳統(tǒng)強化學習依賴非黑即白的獎勵信號，而團隊方法 Rubicon 的核心思想是：放棄尋找客觀的「標準答案」，轉而教會 AI 理解主觀的「評分標準（Rubric）」。「Rubicon」一名源自 RUBrIC aNchOrs (評分標尺構成的錨點)，意在為模型在主觀世界中提供穩(wěn)定、可靠的航向。

為了將這一理念落地，尤其是在人文、社科等實用領域的復雜主觀任務上，團隊構建了業(yè)界已知最大規(guī)模的 Rubric 知識庫，包含了超過 10,000 條精細化評分標準，首次大規(guī)模地將人類在創(chuàng)意寫作、情感對話中的微妙偏好，轉化為 AI 可學習的指導信號。

這不僅是數據量的提升，更是為強化學習范式開辟了全新的獎勵（Reward）來源，從根本上拓展了其應用邊界。

Rubicon-preview 模型亮點

1. 四兩撥千斤：5000 樣本超越 671B 模型，訓練效率驚人

實驗證明，僅用 5000+ 訓練樣本，團隊訓練的 30B 模型 Rubicon-preview 在多項開放性、人文類任務上實現了 +5.2% 的絕對性能提升，甚至超越了 671B 參數的 DeepSeek-V3 模型。

這一成果揭示了「規(guī)?；u分標準 (Scaling Rubrics)」的巨大潛力，有望在一定程度上緩解 AI 對海量訓練數據的依賴。

2. 告別「AI 味」：精準的風格控制，更具人性的表達

Rubric 的深度指導賦予了模型前所未有的風格掌控力。

面對同一個情感類問題，傳統(tǒng)模型往往會給出「作為 AI，我沒有感情」的機械式回答，而基于 rubrics RL 訓練的模型則能生成充滿共情和故事性的內容。

3. 破解「蹺蹺板效應」：創(chuàng)意與推理能力兼得

在 AI 訓練中，提升創(chuàng)意能力往往會犧牲邏輯推理能力，形成「蹺蹺板效應」。Rubicon 框架通過巧妙的多階段訓練策略，成功破解了這一難題。

模型在主觀任務性能大幅提升的同時，在 AIME 等數學推理基準上仍有穩(wěn)定提升，實現了感性與理性的協(xié)同進化。

寫在最后

螞蟻技術研究院與浙江大學團隊表示，此次開源不僅是分享一個模型，更是希望將這套全新的、行之有效的強化學習范式與核心基礎設施貢獻給全球開發(fā)者。團隊相信，一個能更好地理解人類情感與創(chuàng)造力的 AI 時代正加速到來，并期待與社區(qū)共同探索其無限可能。

責任編輯：張燕妮來源：機器之心

AI 模型開源

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<acronym id="ly572"></acronym>