偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<blockquote id="f0o0z"><samp id="f0o0z"></samp></blockquote>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

DeepSeek-R1的風(fēng)吹到了多模態(tài)，Visual-RFT發(fā)布，視覺任務(wù)性能飆升20%

發(fā)布于 2025-3-14 00:29

瀏覽

0收藏

盡管DeepSeek-R1風(fēng)格的模型在語(yǔ)言模型中已經(jīng)取得了成功，但其在多模態(tài)領(lǐng)域的應(yīng)用仍然有待深入探索。

上交大等提出并開源 Visual-RFT，將 RFT 擴(kuò)展到視覺任務(wù)，通過設(shè)計(jì)針對(duì)不同視覺任務(wù)的可驗(yàn)證獎(jiǎng)勵(lì)函數(shù)，提升 LVLMs 在視覺感知和推理任務(wù)中的性能。

視覺強(qiáng)化微調(diào)（Visual-RFT）的概述。與（a）數(shù)據(jù)驅(qū)動(dòng)的視覺指令微調(diào)相比，（b）視覺強(qiáng)化微調(diào)（Visual-RFT）在有限數(shù)據(jù)下更具數(shù)據(jù)效率。（c）成功地將RFT應(yīng)用于一系列多模態(tài)任務(wù)，并在底部展示了模型的推理過程示例。

DeepSeek-R1的風(fēng)吹到了多模態(tài)，Visual-RFT發(fā)布，視覺任務(wù)性能飆升20%-AI.x社區(qū)

Visual-RFT 的核心在于利用 LVLMs 生成多個(gè)包含推理過程和最終答案的響應(yīng)，并通過可驗(yàn)證獎(jiǎng)勵(lì)函數(shù)對(duì)模型進(jìn)行策略優(yōu)化。具體步驟如下：

任務(wù)輸入：模型接收?qǐng)D像和問題作為輸入。
響應(yīng)生成：LVLMs 生成多個(gè)可能的響應(yīng)，每個(gè)響應(yīng)包含推理過程和最終答案。
獎(jiǎng)勵(lì)計(jì)算：針對(duì)不同任務(wù)（如目標(biāo)檢測(cè)、分類等），設(shè)計(jì)特定的可驗(yàn)證獎(jiǎng)勵(lì)函數(shù)，如 IoU 獎(jiǎng)勵(lì)（用于目標(biāo)檢測(cè)）和分類準(zhǔn)確率獎(jiǎng)勵(lì)。
策略優(yōu)化：使用 GRPO 等策略優(yōu)化算法，根據(jù)獎(jiǎng)勵(lì)函數(shù)更新模型參數(shù)。

可驗(yàn)證獎(jiǎng)勵(lì)函數(shù)

IoU 獎(jiǎng)勵(lì)（目標(biāo)檢測(cè)）：通過計(jì)算預(yù)測(cè)邊界框與真實(shí)邊界框的交并比（IoU）來(lái)評(píng)估檢測(cè)任務(wù)的獎(jiǎng)勵(lì)。
分類準(zhǔn)確率獎(jiǎng)勵(lì)（分類任務(wù)）：通過比較模型輸出類別與真實(shí)類別來(lái)評(píng)估獎(jiǎng)勵(lì)。

視覺強(qiáng)化微調(diào)（Visual-RFT）的框架。給定問題和視覺圖像輸入后，策略模型會(huì)生成多個(gè)包含推理步驟的響應(yīng)。然后，使用可驗(yàn)證獎(jiǎng)勵(lì)（如IoU獎(jiǎng)勵(lì)和分類獎(jiǎng)勵(lì)）與策略梯度優(yōu)化算法來(lái)更新策略模型。

DeepSeek-R1的風(fēng)吹到了多模態(tài)，Visual-RFT發(fā)布，視覺任務(wù)性能飆升20%-AI.x社區(qū)

在細(xì)粒度圖像分類、少樣本目標(biāo)檢測(cè)、推理定位以及開放詞匯目標(biāo)檢測(cè)基準(zhǔn)測(cè)試中的實(shí)驗(yàn)結(jié)果表明，與監(jiān)督微調(diào)（SFT）相比，Visual-RFT具有競(jìng)爭(zhēng)力的性能和先進(jìn)的泛化能力：

在大約100個(gè)樣本的單樣本細(xì)粒度圖像分類中，Visual-RFT的準(zhǔn)確率比基線提高了24.3%。
在少樣本目標(biāo)檢測(cè)中，Visual-RFT在COCO的兩樣本設(shè)置中超過了基線21.9，在LVIS上超過了15.4。

Visual-RFT代表了對(duì)LVLMs微調(diào)范式的一種轉(zhuǎn)變，提供了一種數(shù)據(jù)高效、由獎(jiǎng)勵(lì)驅(qū)動(dòng)的方法，增強(qiáng)了對(duì)特定領(lǐng)域任務(wù)的推理能力和適應(yīng)性。

DeepSeek-R1的風(fēng)吹到了多模態(tài)，Visual-RFT發(fā)布，視覺任務(wù)性能飆升20%-AI.x社區(qū)

DeepSeek-R1的風(fēng)吹到了多模態(tài)，Visual-RFT發(fā)布，視覺任務(wù)性能飆升20%-AI.x社區(qū)

DeepSeek-R1的風(fēng)吹到了多模態(tài)，Visual-RFT發(fā)布，視覺任務(wù)性能飆升20%-AI.x社區(qū)

細(xì)粒度圖像分類的定性結(jié)果。推理過程顯著提升了大型視覺語(yǔ)言模型（LVLMs）的推理能力，從而提高了圖像分類的性能。

DeepSeek-R1的風(fēng)吹到了多模態(tài)，Visual-RFT發(fā)布，視覺任務(wù)性能飆升20%-AI.x社區(qū)

在LISA [11] 數(shù)據(jù)集上的推理定位任務(wù)的定性結(jié)果。通過Visual-RFT，推理過程顯著提升了模型的推理定位能力。

DeepSeek-R1的風(fēng)吹到了多模態(tài)，Visual-RFT發(fā)布，視覺任務(wù)性能飆升20%-AI.x社區(qū)

https://arxiv.org/pdf/2503.01785
Visual-RFT: Visual Reinforcement Fine-Tuning
https://github.com/Liuziyu77/Visual-RFT

本文轉(zhuǎn)載自??PaperAgent??

標(biāo)簽

視覺任務(wù)

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

o1推理擴(kuò)展的風(fēng)吹到了RAG，性能飆升58.9%！

PaperAgent ? 3770瀏覽 ? 0回復(fù)
o1快慢思考的風(fēng)又吹到了Agent！

PaperAgent ? 4324瀏覽 ? 0回復(fù)
DeepSeek-AI 發(fā)布 DeepSeek-R1-Zero 和 DeepSeek-R1

Halo咯咯 ? 5822瀏覽 ? 0回復(fù)
圖文詳解：帶你讀懂 DeepSeek-R1 的核心原理

Baihai_IDP ? 7835瀏覽 ? 0回復(fù)
Unsloth：僅需7GB顯存就能訓(xùn)練自己的DeepSeek-R1！

PyTorch研習(xí)社 ? 5390瀏覽 ? 0回復(fù)
7G顯存，訓(xùn)練自己的 DeepSeek-R1：GRPO 資源下降80%

鴻煊的學(xué)習(xí)筆記 ? 5919瀏覽 ? 0回復(fù)
Deepseek AI模型本地部署步驟簡(jiǎn)記：ollama + deepseek-r1 + 本地AI模型的Web UI

lintoms ? 4675瀏覽 ? 0回復(fù)
DeepSeek-R1技術(shù)大揭秘：論文核心原理拆解與模型性能突破關(guān)鍵

arnoldzhw ? 5744瀏覽 ? 0回復(fù)
滿血DeepSeek-R1免費(fèi)用！附帶數(shù)據(jù)蒸餾的一些想法！

NLP工作站 ? 4319瀏覽 ? 0回復(fù)
Deepseek AI模型本地部署步驟簡(jiǎn)記：ollama + deepseek-r1 + 本地AI模型的Web UI

parson2000 ? 4245瀏覽 ? 0回復(fù)
Grok 3 與 DeepSeek-R1 是怎么學(xué)會(huì)思考的？

機(jī)器學(xué)習(xí)與數(shù)學(xué) ? 4948瀏覽 ? 0回復(fù)
在消費(fèi)級(jí)硬件上微調(diào) DeepSeek-R1

AIGC前沿技術(shù)追蹤 ? 4114瀏覽 ? 0回復(fù)
Vision-R1：多模態(tài)領(lǐng)域的DeepSeek R1-Zero，7B參數(shù)比肩OpenAI O1

Syrupup ? 3927瀏覽 ? 0回復(fù)
DeepSeek-R1的方法遷移到多模態(tài)大模型-開源Vision-R1實(shí)現(xiàn)方法思路

大模型自然語(yǔ)言處理 ? 3589瀏覽 ? 0回復(fù)
多模態(tài)獎(jiǎng)勵(lì)大一統(tǒng)！UNIFIEDREWARD突破任務(wù)邊界，圖像視頻雙域性能飆升的秘密

angel ? 3929瀏覽 ? 0回復(fù)
DeepSeek-R1關(guān)鍵創(chuàng)新技術(shù)再總結(jié)

大模型自然語(yǔ)言處理 ? 5922瀏覽 ? 0回復(fù)
Deepseek-R1，論文番外篇!

NLP前沿1 ? 2603瀏覽 ? 0回復(fù)
一文讀懂 DeepSeek-R1 的 “最強(qiáng)外掛” GRPO 算法

鴻煊的學(xué)習(xí)筆記 ? 6494瀏覽 ? 0回復(fù)
端到端視覺Tokenizer調(diào)優(yōu)讓多模態(tài)任務(wù)性能飆升！智源&盧湖川團(tuán)隊(duì)等發(fā)布ETT

angel ? 2309瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

DeepAgent：能夠自主找工具的深度思考智能體，工具&任務(wù)隨心配 2天前發(fā)布
國(guó)產(chǎn)開源LLM大爆發(fā)，Qwen、Minimax、美團(tuán)、騰訊~ 2天前發(fā)布

熱門推薦

一篇大模型Agentic框架到應(yīng)用最新綜述 0回復(fù)

阿里新一代企業(yè)級(jí)多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

別再怪AI“聽不懂人話”了，90%的返工和錯(cuò)誤，都錯(cuò)在你下達(dá)指令的第一句話 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測(cè)中展現(xiàn)出驚人效率，僅用15秒便將百頁(yè)P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對(duì)比，你的選擇是？ 0回復(fù)

上一篇：重磅，微軟LazyGraphRAG正式開源及實(shí)現(xiàn)細(xì)節(jié)剖析！

下一篇： DeepSeek與Qwen組團(tuán)開源了模型，沖!

社區(qū)精華內(nèi)容

目錄

<blockquote id="hgogr"></blockquote>