偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

首個(gè)多模態(tài)統(tǒng)一CoT獎(jiǎng)勵(lì)模型來(lái)了,模型、數(shù)據(jù)集、訓(xùn)練腳本全開(kāi)源

人工智能 新聞
UnifiedReward-Think 展示了獎(jiǎng)勵(lì)模型的未來(lái)方向 —— 不僅僅是一個(gè) “打分器”,而是一個(gè)具備認(rèn)知理解、邏輯推理與可解釋輸出能力的智能評(píng)估系統(tǒng)。

在多模態(tài)大模型快速發(fā)展的當(dāng)下,如何精準(zhǔn)評(píng)估其生成內(nèi)容的質(zhì)量,正成為多模態(tài)大模型與人類偏好對(duì)齊的核心挑戰(zhàn)。然而,當(dāng)前主流多模態(tài)獎(jiǎng)勵(lì)模型往往只能直接給出評(píng)分決策,或僅具備淺層推理能力,缺乏對(duì)復(fù)雜獎(jiǎng)勵(lì)任務(wù)的深入理解與解釋能力,在高復(fù)雜度場(chǎng)景中常出現(xiàn) “失真失準(zhǔn)”。

那么,獎(jiǎng)勵(lì)模型是否也能具備像人類一樣的深度思考能力?

近日,騰訊混元與上海 AI Lab、復(fù)旦大學(xué)、上海創(chuàng)智學(xué)院聯(lián)合提出全新研究工作 UnifiedReward-Think,構(gòu)建出首個(gè)具備長(zhǎng)鏈?zhǔn)酵评砟芰Φ慕y(tǒng)一多模態(tài)獎(jiǎng)勵(lì)模型,首次讓獎(jiǎng)勵(lì)模型在各視覺(jué)任務(wù)上真正 “學(xué)會(huì)思考”,實(shí)現(xiàn)對(duì)復(fù)雜視覺(jué)生成與理解任務(wù)的準(zhǔn)確評(píng)估、跨任務(wù)泛化與推理可解釋性的大幅提升。

圖片


  • 論文題目: Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning
  • 項(xiàng)目主頁(yè):https://codegoat24.github.io/UnifiedReward/think
  • 論文鏈接:https://arxiv.org/pdf/2505.03318
  • GitHub:https://github.com/CodeGoat24/UnifiedReward
  • 模型:https://huggingface.co/collections/CodeGoat24/unifiedreward-models-67c3008148c3a380d15ac63a
  • 數(shù)據(jù)集:https://huggingface.co/collections/CodeGoat24/unifiedreward-training-data-67c300d4fd5eff00fa7f1ede

一、背景與動(dòng)機(jī):獎(jiǎng)勵(lì)模型也需要 “思考”

當(dāng)前的多模態(tài)獎(jiǎng)勵(lì)模型大多只能對(duì)結(jié)果進(jìn)行 “表面判斷”,缺乏深度推理與可解釋的決策依據(jù),難以支撐對(duì)復(fù)雜視覺(jué)任務(wù)的精準(zhǔn)評(píng)估。

該工作研究團(tuán)隊(duì)提出關(guān)鍵問(wèn)題:是否可以引入 “長(zhǎng)鏈?zhǔn)剿伎肌保–hain-of-Thought, CoT)機(jī)制,賦予獎(jiǎng)勵(lì)模型更強(qiáng)的推理能力?

挑戰(zhàn)在于,當(dāng)前缺乏高質(zhì)量的多模態(tài) CoT 獎(jiǎng)勵(lì)推理數(shù)據(jù),傳統(tǒng) SFT 等訓(xùn)練范式難以直接教會(huì)模型掌握推理過(guò)程。

他們認(rèn)為,多模態(tài)大模型本身具備深層、多維度的推理潛力,關(guān)鍵在于設(shè)計(jì)一套高效訓(xùn)練范式去激發(fā)并強(qiáng)化獎(jiǎng)勵(lì)模型的 “思考能力”。

圖片

二、解決方案:三階段訓(xùn)練范式,逐步進(jìn)化獎(jiǎng)勵(lì)模型推理能力

該研究提出一套新穎的 “三階段” 訓(xùn)練框架,分為 “激發(fā) → 鞏固 → 強(qiáng)化”,層層推進(jìn)模型的推理進(jìn)化:

階段一:冷啟動(dòng)激發(fā)(Cold Start)

使用僅 5K 圖像生成任務(wù)的高質(zhì)量 CoT 獎(jiǎng)勵(lì)推理數(shù)據(jù),讓模型學(xué)會(huì)基本的推理格式與結(jié)構(gòu)。實(shí)驗(yàn)表明,這一階段就能激發(fā)模型在多個(gè)視覺(jué)任務(wù)中的推理能力。

階段二:拒絕采樣鞏固(Rejection Sampling)

利用冷啟動(dòng)后的模型在各視覺(jué)任務(wù)的泛化能力,對(duì)大規(guī)模多模態(tài)偏好數(shù)據(jù)進(jìn)行推理,通過(guò)拒絕采樣剔除邏輯錯(cuò)誤樣本,強(qiáng)化模型對(duì)正確思維鏈的推理模式。

階段三:GRPO 強(qiáng)化(Group Relative Policy Optimization)

針對(duì)推理錯(cuò)誤樣本,引入 GRPO 強(qiáng)化學(xué)習(xí)機(jī)制,引導(dǎo)模型探索多樣化推理路徑,從錯(cuò)誤中學(xué)習(xí),逐步收斂到正確邏輯思考。

三、實(shí)驗(yàn)亮點(diǎn):獎(jiǎng)勵(lì)模型不僅能 “顯示長(zhǎng)鏈推理”,還能 “隱式邏輯思考”

UnifiedReward-Think 在多個(gè)圖像生成與理解任務(wù)中進(jìn)行了系統(tǒng)評(píng)估,結(jié)果表明該模型具備多項(xiàng)突破性能力:

  • 更強(qiáng)可解釋性:能夠生成清晰、結(jié)構(gòu)化的獎(jiǎng)勵(lì)推理過(guò)程;
  • 更高可靠性與泛化能力:各視覺(jué)任務(wù)均表現(xiàn)出顯著性能提升;
  • 出現(xiàn)隱式推理能力:即使不顯式輸出思維鏈,模型也能作出高質(zhì)量判斷,表明推理邏輯已 “內(nèi)化” 為模型能力的一部分。

定量實(shí)驗(yàn):長(zhǎng)鏈推理帶來(lái)全面性能飛躍

圖片

定量結(jié)果表明

  • 在圖像與視頻生成獎(jiǎng)勵(lì)任務(wù)中,全面優(yōu)于現(xiàn)有方法;
  • 在圖像理解類獎(jiǎng)勵(lì)任務(wù)上,長(zhǎng)鏈思維鏈推理帶來(lái)顯著性能提升,驗(yàn)證了復(fù)雜視覺(jué)理解對(duì)深度推理能力的高度依賴;
  • 即便在不顯式輸出思維鏈的情況下,模型仍能通過(guò)隱式邏輯推理保持領(lǐng)先表現(xiàn),相比顯式 CoT 推理僅有輕微下降,展現(xiàn)出強(qiáng)大的 “內(nèi)化邏輯” 能力;
  • 與基礎(chǔ)版本 UnifiedReward 相比,加入多維度、多步驟推理帶來(lái)了多任務(wù)的全面性能躍升,驗(yàn)證了 “獎(jiǎng)勵(lì)模型也能深度思考” 的價(jià)值。

消融實(shí)驗(yàn):三階段訓(xùn)練策略缺一不可

該工作進(jìn)行了系統(tǒng)的消融實(shí)驗(yàn),驗(yàn)證三階段訓(xùn)練范式中每一步的獨(dú)立貢獻(xiàn):

  • 冷啟動(dòng)階段:模型學(xué)會(huì)了 CoT 推理的結(jié)構(gòu),但對(duì)獎(jiǎng)勵(lì)預(yù)測(cè)的準(zhǔn)確性仍較有限;
  • 拒絕采樣階段:通過(guò)篩除推理錯(cuò)誤樣本,顯著提升了模型對(duì) “正確思維鏈” 的偏好,有效增強(qiáng)了模型的穩(wěn)定性與泛化性;
  • GRPO 階段:提升幅度最大,模型聚焦于錯(cuò)誤推理樣本,通過(guò)多路徑推理探索,逐步收斂至更精確的推理過(guò)程,體現(xiàn)出該階段對(duì) “推理糾錯(cuò)” 的關(guān)鍵作用。
  • 無(wú)推理路徑的 GRPO 版本效果顯著下降。我們進(jìn)一步驗(yàn)證:若去除 CoT 推理、讓獎(jiǎng)勵(lì)模型僅對(duì)最終答案進(jìn)行 GRPO 強(qiáng)化,雖然略優(yōu)于 baseline,但提升比較有限。說(shuō)明僅優(yōu)化結(jié)果遠(yuǎn)不足以驅(qū)動(dòng)深層推理能力的形成。

結(jié)論:顯式建模思維鏈推理路徑,是強(qiáng)化獎(jiǎng)勵(lì)模型泛化與魯棒性的關(guān)鍵。GRPO 訓(xùn)練階段之所以有效,根源在于 “強(qiáng)化正確推理過(guò)程”,而非僅僅是 “強(qiáng)化正確答案”。

圖片

圖片

定性效果展示

該工作在多種視覺(jué)任務(wù)中對(duì)模型進(jìn)行了案例測(cè)試,展現(xiàn)出其按任務(wù)定制評(píng)估維度的能力。通過(guò)對(duì)圖像、視頻或答案進(jìn)行細(xì)粒度、多維度打分,并基于各維度總分進(jìn)行整體判斷。此設(shè)計(jì)有效緩解了多模態(tài)模型中常見(jiàn)的 “推理過(guò)程與最終評(píng)分語(yǔ)義脫節(jié)” 問(wèn)題,顯著提升了評(píng)估的一致性與可信度。

圖片

圖片

圖片

圖片

圖片

圖片

四:總結(jié)

UnifiedReward-Think 展示了獎(jiǎng)勵(lì)模型的未來(lái)方向 —— 不僅僅是一個(gè) “打分器”,而是一個(gè)具備認(rèn)知理解、邏輯推理與可解釋輸出能力的智能評(píng)估系統(tǒng)。

目前,該項(xiàng)目已全面開(kāi)源:包括模型、數(shù)據(jù)集、訓(xùn)練腳本與評(píng)測(cè)工具,歡迎社區(qū)研究者探索、復(fù)現(xiàn)與應(yīng)用。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-06-06 14:09:32

模型開(kāi)源

2025-06-13 08:45:00

數(shù)據(jù)模型可視化

2024-04-08 12:19:19

AI數(shù)據(jù)

2025-04-07 00:00:00

多模態(tài)大模型

2024-03-25 12:30:18

AI訓(xùn)練開(kāi)源

2023-12-10 15:21:39

2024-12-18 18:57:58

2024-07-22 07:10:00

小模型機(jī)器學(xué)習(xí)蘋(píng)果

2025-01-06 10:00:00

模型視覺(jué)生成

2023-09-13 13:21:52

模型數(shù)據(jù)

2025-07-31 08:45:00

模型AI開(kāi)源

2024-07-04 10:13:18

2025-09-19 09:05:18

AI模型訓(xùn)練

2022-01-21 15:33:56

架構(gòu)模型AI

2024-09-23 08:20:00

模型訓(xùn)練

2022-08-08 09:47:09

AI算法模型

2025-07-24 11:38:40

2025-04-10 09:15:00

模型AI數(shù)據(jù)

2025-07-09 08:57:55

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)