偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

上海AI Lab、浙大EagleLab等提出RRVF:利用「驗(yàn)證非對稱性」,只輸入圖片學(xué)習(xí)視覺推理

人工智能 新聞
一個(gè)任務(wù)有多容易被 AI 解決?最終可能只取決于一個(gè)簡單的問題:它的答案有多容易被驗(yàn)證?

本本研究由上海AI Lab前沿探索中心石博天老師帶領(lǐng)的數(shù)據(jù)前沿團(tuán)隊(duì)、浙江大學(xué)EagleLab和上海創(chuàng)智學(xué)院等單位聯(lián)合完成。第一作者陳楊是浙江大學(xué)碩士生,研究方向?yàn)槎嗄B(tài)大模型和推理,本工作完成于她在上海AI Lab實(shí)習(xí)期間,實(shí)習(xí)所在團(tuán)隊(duì)以Agent-Ready的知識為核心,實(shí)現(xiàn)「提取->結(jié)構(gòu)化->推理」全鏈路,包括基于MLLM的文檔理解、基于異質(zhì)圖網(wǎng)絡(luò)的多模態(tài)知識表征、自主終身學(xué)習(xí)智能體等。論文共同第一作者、通訊作者沈宇帆就職于上海AI Lab,正在全身心探索下一代 MLLM 學(xué)習(xí)范式和高效的多模態(tài)智能體。論文的共同通訊作者于智是浙江大學(xué) EagleLab 副教授,曾任浙大 ACM 教練并執(zhí)教獲世界總冠軍。功成身退之后,長期致力于用 AI 改善殘障人群生活,在信息無障礙和人工智能領(lǐng)域有深厚造詣。

一個(gè)任務(wù)有多容易被 AI 解決?最終可能只取決于一個(gè)簡單的問題:它的答案有多容易被驗(yàn)證?

這,就是驗(yàn)證非對稱性(Asymmetry of Verification)—— 一個(gè)古老但正在重塑 AI 未來的深刻原則。它的核心思想是:對很多任務(wù)而言,驗(yàn)證一個(gè)解的好壞,遠(yuǎn)比從頭創(chuàng)造一個(gè)解要容易得多。

這一思想,正是近期從 OpenAI 跳槽至 Meta 的思維鏈(CoT)開山作者 Jason Wei 在其最新博客中提出的「驗(yàn)證者法則」(Verifier's Law)的基石。他斷言:「所有可能被解決且易于驗(yàn)證的任務(wù),都將被 AI 解決?!?/span>

為什么?因?yàn)橐粋€(gè)任務(wù)如果具備客觀真理、可快速驗(yàn)證、可規(guī)?;?yàn)證、低噪音、連續(xù)獎(jiǎng)勵(lì)等特性,就相當(dāng)于為強(qiáng)化學(xué)習(xí)(RL)創(chuàng)造了一個(gè)完美的訓(xùn)練場。AI 可以在這個(gè)場中進(jìn)行海量的、高效率的「猜測 - 檢驗(yàn)」(guess-and-check),通過不斷的迭代優(yōu)化,最終逼近最優(yōu)解。

而這一法則的最佳實(shí)踐,已經(jīng)悄然出現(xiàn)在了多模態(tài)領(lǐng)域。上海AILAB和浙江大學(xué)EagleLab的最新研究RRVF(Reasoning-Rendering-Visual-Feedback),就完美詮釋了如何利用「驗(yàn)證的非對稱性」來攻克復(fù)雜的視覺推理難題。

圖片


  • 論文標(biāo)題:Learning Only with Images: Visual Reinforcement Learning with Reasoning,Rendering,and Visual Feedback
  • 論文地址:https://arxiv.org/pdf/2507.20766

RRVF:Image2code 的「驗(yàn)證者法則」訓(xùn)練場

在傳統(tǒng) AI 訓(xùn)練中,我們依賴昂貴的「圖像 - 文本」配對數(shù)據(jù)來教模型進(jìn)行視覺推理。這不僅成本高昂,而且很多時(shí)候限制了 AI 的創(chuàng)造力,例如使用特定的 code 來訓(xùn)練還原 image。

圖片

圖 1: RRVF vs 通用訓(xùn)練方法,只需輸入圖片,利用推理、渲染、反饋進(jìn)行強(qiáng)化學(xué)習(xí)

RRVF 框架則另辟蹊徑,它沒有去教模型「怎么做」,而是構(gòu)建了一個(gè)讓模型可以自我驗(yàn)證的環(huán)境。RRVF 的全稱是「Reasoning-Rendering-Visual-Feedback」(推理 - 渲染 - 視覺反饋),這三個(gè)詞精準(zhǔn)地概括了其核心工作流。它構(gòu)建了一個(gè)端到端優(yōu)化的閉環(huán)系統(tǒng),讓模型在「自我糾正」中學(xué)習(xí)。

圖片

圖2: RRVF框架圖

第一步:迭代式視覺推理 (Iterative Visual Reasoning)

  • 面對一張目標(biāo)圖像(如數(shù)據(jù)圖表),它會(huì)進(jìn)行迭代式多輪思考。在每一輪,模型都會(huì)在 < think > 中先寫下自己的思考過程,然后調(diào)用外部工具進(jìn)行渲染和獲取反饋,在后續(xù)輪次中根據(jù)反饋修正自己的代碼。

圖片

圖 3: 迭代視覺推理算法

第二步:視覺反饋 (Visual Feedback)

  • 外部工具(如 Matplotlib 或 Playwright 瀏覽器)執(zhí)行代碼后,會(huì)渲染生成圖片。此時(shí),一個(gè)更強(qiáng)大的「視覺裁判」模型(論文中使用了 72B 的 Qwen2.5-VL)會(huì)介入,對比渲染圖和原圖,并生成定性的、結(jié)構(gòu)化的自然語言反饋,例如:「圖表類型正確,但顏色不匹配」、「網(wǎng)頁布局基本正確,但缺少了一個(gè)按鈕」。這些反饋會(huì)作為新的輸入,指導(dǎo)模型進(jìn)行下一輪的代碼修正。

第三步:視覺裁判 (Visual Judge) & 混合獎(jiǎng)勵(lì)

  • 在整個(gè)迭代過程結(jié)束后,模型會(huì)輸出最終的代碼。此時(shí),「視覺裁判」會(huì)再次出場,但這次它扮演的是「法官」角色,給出一個(gè)定量的視覺相似度分?jǐn)?shù) R_vision。
  • 但僅僅有視覺分是不夠的。為了讓模型學(xué)得更好,研究者設(shè)計(jì)了混合獎(jiǎng)勵(lì)函數(shù) (Hybrid Reward Design):
  • 視覺相似度獎(jiǎng)勵(lì) (R_vision):核心獎(jiǎng)勵(lì),分?jǐn)?shù)越高獎(jiǎng)勵(lì)越大。
  • 格式正確性獎(jiǎng)勵(lì) (R_format):代碼能否跑通?思考和工具調(diào)用的格式對不對?如果出錯(cuò),直接給予懲罰。
  • 工具使用獎(jiǎng)勵(lì) (R_tool):為了鼓勵(lì)模型探索和使用反饋循環(huán),每次成功的工具調(diào)用都會(huì)獲得少量獎(jiǎng)勵(lì),直到模型表現(xiàn)得足夠好(視覺分超過 0.95)或達(dá)到最大次數(shù)。

這三個(gè)獎(jiǎng)勵(lì)通過加權(quán)組合(R = w_v * R_vision + w_f * R_format + w_t * R_tool),構(gòu)成最終的驅(qū)動(dòng)力。

最后一步:GRPO 算法優(yōu)化

  • 有了精確的獎(jiǎng)勵(lì)信號,如何高效地更新模型?RRVF 采用了 GRPO(Group Relative Policy Optimization)算法。相比傳統(tǒng)的 PPO,GRPO 更高效,它不需要一個(gè)獨(dú)立的價(jià)值函數(shù),而是通過對一組(論文中是 8 個(gè))候選答案進(jìn)行比較和打分,直接優(yōu)化策略。

這個(gè)設(shè)計(jì),完美地將一個(gè)復(fù)雜的「代碼生成」任務(wù),轉(zhuǎn)化成了一個(gè)極易被驗(yàn)證(視覺相似度)和優(yōu)化(混合獎(jiǎng)勵(lì) + GRPO)的工程問題。

圖片

圖 4:迭代推理的 case,模型一步步學(xué)會(huì)如何準(zhǔn)確重建一張餅圖

實(shí)驗(yàn)結(jié)果:驗(yàn)證的力量,讓 7B 模型超越 72B 老師

RRVF 的實(shí)驗(yàn)結(jié)果,有力地證明了「驗(yàn)證者法則」的力量。模型基于 Qwen2.5-VL-7B 進(jìn)行訓(xùn)練,并在圖表生成(ChartMimic, Plot2Code)和網(wǎng)頁生成(WebSight)三個(gè)數(shù)據(jù)集上進(jìn)行了全面評測。

圖片

圖片

圖片

1. 性能碾壓:SFT 學(xué)的是「模仿」,RRVF 學(xué)的是「理解」

在 ChartMimic 上,傳統(tǒng)的監(jiān)督微調(diào)(SFT)雖然有標(biāo)準(zhǔn)代碼答案,但執(zhí)行率只有 69.00%。而 RRVF 在沒有任何代碼答案的情況下,代碼執(zhí)行率達(dá)到了 97.83%,在其他各項(xiàng)指標(biāo)上均有明顯提升。這證明了 RRVF 真正理解了圖像的結(jié)構(gòu),而非死記硬背。

2. 「學(xué)生」超越「老師」:自學(xué)習(xí)效應(yīng)的驚人體現(xiàn)

出乎意料的是,通過 RRVF 訓(xùn)練的 7B 模型,最終的綜合得分(64.36)不僅遠(yuǎn)超其基礎(chǔ)模型(38.17),甚至超越了在訓(xùn)練中為它提供反饋和評分的、更強(qiáng)大的 72B 模型(47.30)。這證明 RRVF 不是簡單的知識蒸餾,而是讓模型在自我探索中發(fā)現(xiàn)了比「老師」更優(yōu)的策略,實(shí)現(xiàn)了能力的「進(jìn)化」。

3. 泛化能力:真學(xué)霸從不畏懼新考卷

為了考驗(yàn)?zāi)P褪欠裾娴膶W(xué)到了通用能力,研究者在未訓(xùn)練的 Plot2Code 數(shù)據(jù)集上進(jìn)行了零樣本測試。結(jié)果顯示,SFT 模型性能急劇下降(例如執(zhí)行率從 69% 暴跌至 49%),暴露出其「偏科」和「過擬合」的本質(zhì)。

相比之下,RRVF 模型的執(zhí)行率幾乎沒有衰減(例如執(zhí)行率從 97.83% 穩(wěn)定在 96.21%)。這強(qiáng)有力地證明,通過視覺反饋學(xué)習(xí)到的,是可遷移的、底層的視覺到代碼的生成邏輯。

這項(xiàng)研究是「驗(yàn)證者法則」的一次響亮宣告。它告訴我們,未來 AI 發(fā)展的瓶頸,可能不在于模型本身有多大,而在于我們能否為 AI 想解決的任務(wù),設(shè)計(jì)出足夠簡單、高效的「驗(yàn)證環(huán)境」。

一旦我們學(xué)會(huì)了如何將復(fù)雜問題轉(zhuǎn)化為易于驗(yàn)證的問題,那么正如 Jason Wei 所預(yù)言的,一個(gè)智能的「鋸齒狀前沿」將會(huì)出現(xiàn):在所有可被清晰驗(yàn)證的領(lǐng)域,AI 將展現(xiàn)出超乎想象的強(qiáng)大能力。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-03-31 09:32:00

視覺生產(chǎn)AI模型

2025-05-09 08:19:00

2024-08-30 12:58:43

AI多模態(tài)技術(shù)

2025-02-10 14:05:00

訓(xùn)練模型AI

2022-09-30 15:15:41

模型框架

2025-09-15 08:53:00

AI模型推理

2025-02-19 11:28:00

2024-03-07 12:51:08

模型訓(xùn)練

2021-04-30 15:16:59

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2021-12-14 15:59:38

數(shù)據(jù)模型推理

2024-08-08 13:04:28

2023-06-20 13:44:49

清華推理

2020-05-27 10:10:56

對稱加密Hash算法數(shù)字簽名

2025-04-10 09:38:37

2023-07-03 09:55:01

2025-08-15 09:00:00

AI編輯強(qiáng)化學(xué)習(xí)

2021-04-21 10:18:25

人工智能機(jī)器學(xué)習(xí)技術(shù)

2023-11-20 08:52:46

模型訓(xùn)練

2025-06-25 09:02:05

2025-07-21 08:47:00

AI框架模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號