偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

3B Image Captioning小鋼炮重磅來襲,性能比肩Qwen2.5-VL-72B

人工智能 新聞
今天推薦一個 Dense Image Captioning 的最新技術(shù) —— CapRL (Captioning Reinforcement Learning)。CapRL 首次成功將 DeepSeek-R1 的強(qiáng)化學(xué)習(xí)方法應(yīng)用到 image captioning 這種開放視覺任務(wù),創(chuàng)新的以實(shí)用性重新定義 image captioning 的 reward。

邢龍和董瀟逸為本篇文章共同第一作者。邢龍是中國科學(xué)技術(shù)大學(xué)博士生,師從林達(dá)華教授和吳楓教授,研究興趣主要集中在 multi-modal LLMs 和 efficient AI。董瀟逸是香港中文大學(xué) MMLab 的博士后研究員,同時在上海人工智能實(shí)驗(yàn)室擔(dān)任兼職顧問研究員,已在頂級會議和期刊(如 CVPR、ICCV、ECCV 等)上發(fā)表了 50 余篇論文,Google Scholar 上獲得超過 10000 次引用。

今天推薦一個 Dense Image Captioning 的最新技術(shù) —— CapRL (Captioning Reinforcement Learning)。CapRL 首次成功將 DeepSeek-R1 的強(qiáng)化學(xué)習(xí)方法應(yīng)用到 image captioning 這種開放視覺任務(wù),創(chuàng)新的以實(shí)用性重新定義 image captioning 的 reward。訓(xùn)練得到的 CapRL-3B 模型,可以成功達(dá)到與 Qwen2.5-VL-72B 相當(dāng)?shù)?captioning 水平!這是 image captioning 領(lǐng)域的一大進(jìn)展,更是為 GRPO 策略應(yīng)用于開放任務(wù)提供了重要思路!

目前 Huggingface model&dataset 總下載量已經(jīng)突破 6k,并且正在迭代更強(qiáng)的基座模型以及升級 training recipe,歡迎使用!

  • 論文鏈接:  https://arxiv.org/abs/2509.22647
  • 倉庫鏈接: https://github.com/InternLM/CapRL
  • 模型鏈接: https://huggingface.co/internlm/CapRL-3B
  • 數(shù)據(jù)鏈接: https://huggingface.co/datasets/internlm/CapRL-2M

圖 1. CapRL 解決了為 image captioning 這種主觀任務(wù)設(shè)計 reward 的重大挑戰(zhàn),巧妙的以實(shí)用性定義了客觀 verifiable reward,避免了使用 LVLM-as-a-Judge 帶來的 reward hacking,顯著提升了描述的質(zhì)量

從 SFT captioner 到 RL captioner:Reward 設(shè)計重大難點(diǎn)

Image Captioning 旨在為給定圖像生成自然語言描述,彌合視覺與語言世界之間的鴻溝,是目前 ViT 訓(xùn)練以及 LVLM 預(yù)訓(xùn)練重要的訓(xùn)練語料。目前大多數(shù) Image Captioning 模型都是基于 LVLMs 并采用監(jiān)督微調(diào)(SFT)方法進(jìn)行訓(xùn)練,但是這種訓(xùn)練方式有兩大問題,數(shù)據(jù)方面依賴大量由人工或閉源模型標(biāo)注的數(shù)據(jù)集,成本高昂且難以擴(kuò)展,效果方面因?yàn)樗烙浻脖车挠?xùn)練方式導(dǎo)致泛化與多樣性不足。

SFT 的局限性促使研究者轉(zhuǎn)向一種新的范式 —— 基于可驗(yàn)證獎勵的強(qiáng)化學(xué)習(xí)(RLVR)。RLVR 這種訓(xùn)練范式在 visual grounding,detection 這種包含標(biāo)準(zhǔn)答案的視覺任務(wù)上已經(jīng)得到廣泛應(yīng)用,然而,將 RLVR 應(yīng)用于 Image Captioning 等開放性任務(wù)仍然非常具有挑戰(zhàn)性,其關(guān)鍵在于如何設(shè)計一個客觀可靠的 reward 函數(shù)?!笆裁词且粋€好的圖片描述?”,這個問題帶有很強(qiáng)的主觀性,大家往往看法不一,同一張圖片可能會存在多種不同的合理描述,這就給 verifiable reward 設(shè)計帶來很大的困難。

現(xiàn)有的一些方法嘗試使用獎勵模型(reward models)或 LVLM-as-a-judge 來提供 reward,如圖 1(a)所示,但是這種方法非常容易受到獎勵欺騙(reward hacking)的影響。模型可能學(xué)會利用獎勵模型的漏洞(偏好冗長或簡短的輸出形式)來獲得更高分?jǐn)?shù),而非真正生成高質(zhì)量的描述,這種不可靠的獎勵信號很容易導(dǎo)致在 GRPO 訓(xùn)練過程中出現(xiàn)異常,圖 1(c)中展示了訓(xùn)練過程中出現(xiàn)了 caption 過長以及過短的情況,最終導(dǎo)致模型的表現(xiàn)不及預(yù)期甚至出現(xiàn)訓(xùn)練崩潰。

圖 2. CapRL 框架。 我們的 CapRL 采用了解耦的兩階段流程,首先 LVLM 生成圖像描述,然后讓一個 LLM 基于該圖像描述回答視覺多選題,而 LLM 的回答準(zhǔn)確率則作為 LVLM 的客觀獎勵信號

Reward 設(shè)計新思路:好的 caption 應(yīng)當(dāng)能讓純語言模型正確回答視覺問題

為了解決主觀圖像描述任務(wù)中 RLVR 獎勵函數(shù)缺乏客觀性的難題,我們提出了一種全新的視角:caption quality 與其實(shí)用性成正比。當(dāng)圖像描述足夠詳細(xì)且準(zhǔn)確時,即使一個純語言模型無法直接 “看到” 圖像,也能回答與圖像相關(guān)的視覺問答。例如圖二中,對于問題 “圖片里面誰在大笑?”,當(dāng)描述中包含 “兔子警官 Judy 正在開懷大笑”,LLM 即可正確回答 “Judy”。

基于這一動機(jī),我們提出了一個高效的兩階段解耦式訓(xùn)練框架,稱為 CapRL(Captioning Reinforcement Learning)。在 CapRL 框架中,我們讓一個純語言模型根據(jù) caption 去回答與原圖像相關(guān)的多項(xiàng)選擇題,LLM 的回答準(zhǔn)確率即作為 RLVR 訓(xùn)練的客觀獎勵信號?;?CapRL 訓(xùn)練之后,輸出的描述如圖 3 所示,會在準(zhǔn)確率,細(xì)節(jié)覆蓋等方面大幅度提升

圖 3. CapRL 效果展示。Qwen2.5-VL-3B 經(jīng)過 CapRL 訓(xùn)練之后描述的準(zhǔn)確性更高,圖片信息覆蓋更全,含有更少幻覺。

CapRL 實(shí)驗(yàn)結(jié)果

我們對 CapRL 框架帶來的優(yōu)勢進(jìn)行了全面評估。

(i)我們使用 CapRL-3B 標(biāo)注圖片產(chǎn)生了 CapRL-5M 數(shù)據(jù)集,并在該數(shù)據(jù)集上對 LVLM 進(jìn)行預(yù)訓(xùn)練,在全部 12 項(xiàng)基準(zhǔn)測試中均取得了顯著性能提升,與以往的 ShareGPT4V,DenseFusion dataset 的對比中展示出了巨大優(yōu)勢,效果如圖 4 所示;(ii)此外,借助 Prism Framework 對描述質(zhì)量進(jìn)行直接的評估,我們觀察到 CapRL-3B 的性能與 72B 模型相當(dāng),并在平均水平上超越基線模型 8.4%。

圖 4. 使用不同預(yù)訓(xùn)練數(shù)據(jù)集的性能比較結(jié)果顯示:CapRL-1M 在全部三個設(shè)置中均顯著優(yōu)于其他數(shù)據(jù)集,并且當(dāng)數(shù)據(jù)規(guī)模擴(kuò)展至 5M 時,模型性能進(jìn)一步得到提升。

圖 5. 在 Prism 框架下的圖像描述能力對比中,CapRL-3B 的表現(xiàn)可與 Qwen2.5-VL-72B 相媲美,并且顯著優(yōu)于以 LVLM-as-a-Judge 作為獎勵信號的現(xiàn)有方法。

圖 6. 我們針對 CapRL 進(jìn)行了豐富的探究實(shí)驗(yàn),具體實(shí)驗(yàn)設(shè)置可查看原論文

我們目前已經(jīng)開源了論文中的模型,數(shù)據(jù)集和 QA 構(gòu)造的代碼,我們還在持續(xù)迭代中,歡迎使用!

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-09-29 09:01:36

2025-03-25 12:11:08

2025-07-10 09:03:27

2025-08-11 08:35:00

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-02-24 08:10:00

2024-09-19 14:00:00

模型開源代碼

2024-08-01 13:30:00

2025-08-06 00:00:11

開源多模態(tài)大模型

2025-02-17 12:30:00

2024-07-18 12:53:13

2025-10-17 09:08:05

2025-03-27 12:30:36

2024-10-17 18:52:41

2024-12-25 09:30:00

2025-09-12 10:02:21

AI模型開源

2024-12-25 20:13:35

2024-02-19 14:09:00

模型Eagle 7BRNN

2025-03-25 09:24:05

2024-03-27 09:09:57

模型AI開源
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號