偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DeepSeek-R1的風(fēng)吹到了多模態(tài),Visual-RFT發(fā)布,視覺任務(wù)性能飆升20%

發(fā)布于 2025-3-14 00:29
瀏覽
0收藏

盡管DeepSeek-R1風(fēng)格的模型在語言模型中已經(jīng)取得了成功,但其在多模態(tài)領(lǐng)域的應(yīng)用仍然有待深入探索。

上交大等提出并開源 Visual-RFT,將 RFT 擴(kuò)展到視覺任務(wù),通過設(shè)計(jì)針對不同視覺任務(wù)的可驗(yàn)證獎(jiǎng)勵(lì)函數(shù),提升 LVLMs 在視覺感知和推理任務(wù)中的性能。

視覺強(qiáng)化微調(diào)(Visual-RFT)的概述。與(a)數(shù)據(jù)驅(qū)動(dòng)的視覺指令微調(diào)相比,(b)視覺強(qiáng)化微調(diào)(Visual-RFT)在有限數(shù)據(jù)下更具數(shù)據(jù)效率。(c)成功地將RFT應(yīng)用于一系列多模態(tài)任務(wù),并在底部展示了模型的推理過程示例。

DeepSeek-R1的風(fēng)吹到了多模態(tài),Visual-RFT發(fā)布,視覺任務(wù)性能飆升20%-AI.x社區(qū)

Visual-RFT 的核心在于利用 LVLMs 生成多個(gè)包含推理過程和最終答案的響應(yīng),并通過可驗(yàn)證獎(jiǎng)勵(lì)函數(shù)對模型進(jìn)行策略優(yōu)化。具體步驟如下:

  • 任務(wù)輸入:模型接收圖像和問題作為輸入。
  • 響應(yīng)生成:LVLMs 生成多個(gè)可能的響應(yīng),每個(gè)響應(yīng)包含推理過程和最終答案。
  • 獎(jiǎng)勵(lì)計(jì)算:針對不同任務(wù)(如目標(biāo)檢測、分類等),設(shè)計(jì)特定的可驗(yàn)證獎(jiǎng)勵(lì)函數(shù),如 IoU 獎(jiǎng)勵(lì)(用于目標(biāo)檢測)和分類準(zhǔn)確率獎(jiǎng)勵(lì)。
  • 策略優(yōu)化:使用 GRPO 等策略優(yōu)化算法,根據(jù)獎(jiǎng)勵(lì)函數(shù)更新模型參數(shù)。

可驗(yàn)證獎(jiǎng)勵(lì)函數(shù)

  • IoU 獎(jiǎng)勵(lì)(目標(biāo)檢測):通過計(jì)算預(yù)測邊界框與真實(shí)邊界框的交并比(IoU)來評估檢測任務(wù)的獎(jiǎng)勵(lì)。
  • 分類準(zhǔn)確率獎(jiǎng)勵(lì)(分類任務(wù)):通過比較模型輸出類別與真實(shí)類別來評估獎(jiǎng)勵(lì)。

視覺強(qiáng)化微調(diào)(Visual-RFT)的框架。給定問題和視覺圖像輸入后,策略模型會生成多個(gè)包含推理步驟的響應(yīng)。然后,使用可驗(yàn)證獎(jiǎng)勵(lì)(如IoU獎(jiǎng)勵(lì)和分類獎(jiǎng)勵(lì))與策略梯度優(yōu)化算法來更新策略模型。

DeepSeek-R1的風(fēng)吹到了多模態(tài),Visual-RFT發(fā)布,視覺任務(wù)性能飆升20%-AI.x社區(qū)

在細(xì)粒度圖像分類、少樣本目標(biāo)檢測、推理定位以及開放詞匯目標(biāo)檢測基準(zhǔn)測試中的實(shí)驗(yàn)結(jié)果表明,與監(jiān)督微調(diào)(SFT)相比,Visual-RFT具有競爭力的性能和先進(jìn)的泛化能力:

  • 在大約100個(gè)樣本的單樣本細(xì)粒度圖像分類中,Visual-RFT的準(zhǔn)確率比基線提高了24.3%。
  • 在少樣本目標(biāo)檢測中,Visual-RFT在COCO的兩樣本設(shè)置中超過了基線21.9,在LVIS上超過了15.4。

Visual-RFT代表了對LVLMs微調(diào)范式的一種轉(zhuǎn)變,提供了一種數(shù)據(jù)高效、由獎(jiǎng)勵(lì)驅(qū)動(dòng)的方法,增強(qiáng)了對特定領(lǐng)域任務(wù)的推理能力和適應(yīng)性。

DeepSeek-R1的風(fēng)吹到了多模態(tài),Visual-RFT發(fā)布,視覺任務(wù)性能飆升20%-AI.x社區(qū)

DeepSeek-R1的風(fēng)吹到了多模態(tài),Visual-RFT發(fā)布,視覺任務(wù)性能飆升20%-AI.x社區(qū)

DeepSeek-R1的風(fēng)吹到了多模態(tài),Visual-RFT發(fā)布,視覺任務(wù)性能飆升20%-AI.x社區(qū)

細(xì)粒度圖像分類的定性結(jié)果。推理過程顯著提升了大型視覺語言模型(LVLMs)的推理能力,從而提高了圖像分類的性能。

DeepSeek-R1的風(fēng)吹到了多模態(tài),Visual-RFT發(fā)布,視覺任務(wù)性能飆升20%-AI.x社區(qū)

在LISA [11] 數(shù)據(jù)集上的推理定位任務(wù)的定性結(jié)果。通過Visual-RFT,推理過程顯著提升了模型的推理定位能力。

DeepSeek-R1的風(fēng)吹到了多模態(tài),Visual-RFT發(fā)布,視覺任務(wù)性能飆升20%-AI.x社區(qū)

https://arxiv.org/pdf/2503.01785
Visual-RFT: Visual Reinforcement Fine-Tuning
https://github.com/Liuziyu77/Visual-RFT

本文轉(zhuǎn)載自??PaperAgent??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦