偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DeepSeek-R1的方法遷移到多模態(tài)大模型-開(kāi)源Vision-R1實(shí)現(xiàn)方法思路

人工智能
從未經(jīng)專(zhuān)門(mén)推理優(yōu)化的原始 MLLM(例如 Qwen-2.5VL-7B-Instruct)開(kāi)始,直接應(yīng)用 RL 訓(xùn)練。使用與 Vision-R1 相同的獎(jiǎng)勵(lì)函數(shù),即硬格式結(jié)果獎(jiǎng)勵(lì)函數(shù)(HFRRF):如果輸出格式正確且答案正確,獎(jiǎng)勵(lì)為 1,否則為 0。訓(xùn)練目標(biāo)是激勵(lì)模型生成多模態(tài) CoT,解決數(shù)學(xué)推理任務(wù)。

剛開(kāi)始琢磨使用DeepSeek-R1風(fēng)格訓(xùn)練多模態(tài)R1模型,就看到這個(gè)工作,本文一起看看,供參考。

先提出問(wèn)題,僅靠 RL 是否足以激勵(lì) MLLM 的推理能力?

結(jié)論:不能,因?yàn)槿绻?RL 能有效激勵(lì)推理能力,Vision-R1-Zero 應(yīng)該表現(xiàn)出生成復(fù)雜 CoT 的能力,并在基準(zhǔn)測(cè)試中提升準(zhǔn)確率。如下圖D和E所示:

圖片圖片

方法:從未經(jīng)專(zhuān)門(mén)推理優(yōu)化的原始 MLLM(例如 Qwen-2.5VL-7B-Instruct)開(kāi)始,直接應(yīng)用 RL 訓(xùn)練。使用與 Vision-R1 相同的獎(jiǎng)勵(lì)函數(shù),即硬格式結(jié)果獎(jiǎng)勵(lì)函數(shù)(HFRRF):如果輸出格式正確且答案正確,獎(jiǎng)勵(lì)為 1,否則為 0。訓(xùn)練目標(biāo)是激勵(lì)模型生成多模態(tài) CoT,解決數(shù)學(xué)推理任務(wù)。

系統(tǒng)提示與獎(jiǎng)勵(lì)格式和Deepseek相似:

  • 系統(tǒng)提示:
A conversation between User and
Assistant. ... first thinks about
the reasoning process ... provides
the user with the answer. The
reasoning process and answer are
enclosed within <think> </think> and
<answer> </answer> tags ...
  • 獎(jiǎng)勵(lì)格式:
<think> </think><answer></answer>

方法架構(gòu)

僅靠強(qiáng)化學(xué)習(xí)(RL)無(wú)法有效激勵(lì)多模態(tài)大型語(yǔ)言模型(MLLM)的推理能力,主要原因是缺乏高質(zhì)量初始數(shù)據(jù)和優(yōu)化策略。

因此,可以知道Vision-R1 的目標(biāo)是:

  • 生成高質(zhì)量的多模態(tài)推理鏈(CoT)數(shù)據(jù)集,無(wú)需人工標(biāo)注。
  • 通過(guò) RL 優(yōu)化模型,使其生成邏輯清晰、長(zhǎng)度適中的 CoT,避免過(guò)度思考(Overthinking)。

基于此,Vision-R1 提出了一種兩階段方法,通過(guò)冷啟動(dòng)初始化和漸進(jìn)式 RL 訓(xùn)練。

Vision-R1流程Vision-R1流程

1. 冷啟動(dòng)初始化

冷啟動(dòng)初始化是通過(guò)構(gòu)建一個(gè)高質(zhì)量的多模態(tài)鏈?zhǔn)酵评恚–oT)數(shù)據(jù)集來(lái)實(shí)現(xiàn)的。目的是為模型提供一個(gè)初始的、高質(zhì)量的推理示例,以便在后續(xù)的強(qiáng)化學(xué)習(xí)過(guò)程中更好地學(xué)習(xí)和改進(jìn)推理能力。

冷啟動(dòng)初始化的核心在于如何從多模態(tài)數(shù)據(jù)中提取出高質(zhì)量的推理過(guò)程。由于多模態(tài)大型語(yǔ)言模型(MLLMs)通常難以直接處理多模態(tài)輸入,提出了一種稱為“模態(tài)橋接”(Modality Bridging)的方法來(lái)實(shí)現(xiàn)這一目標(biāo)。

整體數(shù)據(jù)生成流程整體數(shù)據(jù)生成流程

實(shí)現(xiàn)細(xì)節(jié)

步驟

作用

方法

1. 偽 CoT 生成

MLLM 處理圖像-文本對(duì),生成初步推理步驟

使用 Qwen-2.5VL-72B

2. 詳細(xì)描述獲取

通過(guò)提示獲取支持回答問(wèn)題的詳細(xì)圖像描述

提示模板見(jiàn)論文

3. CoT 提取與優(yōu)化

DeepSeek-R1 提取并優(yōu)化 CoT

DeepSeek-R1 見(jiàn)

4. 數(shù)據(jù)過(guò)濾

規(guī)則過(guò)濾確保數(shù)據(jù)質(zhì)量

200K Vision-R1-cold 數(shù)據(jù)集

  • 偽CoT生成:首先,使用現(xiàn)有的多模態(tài)大型語(yǔ)言模型(MLLM)來(lái)生成“偽CoT”(Pseudo-CoT)。具體的,輸入一個(gè)圖像-問(wèn)題-答案對(duì)和一個(gè)提示到一個(gè)MLLM中,模型會(huì)生成一個(gè)包含圖像描述和推理過(guò)程的文本。這個(gè)“偽CoT”不僅包含了圖像的描述,還嘗試進(jìn)行初步的推理,但可能缺乏深度和復(fù)雜性。

通過(guò)帶有和不帶“偽CoT”的描述生成的CoT過(guò)程比較。通過(guò)帶有和不帶“偽CoT”的描述生成的CoT過(guò)程比較。

  • 文本描述生成:將生成的“偽CoT”與原始的圖像-問(wèn)題對(duì)以及一個(gè)新的提示一起輸入到同一個(gè)MLLM中,以獲取更詳細(xì)的圖像描述。這一步驟的目的是通過(guò)MLLM的文本生成能力,將圖像中的視覺(jué)信息轉(zhuǎn)化為更詳細(xì)的文本描述,從而為后續(xù)的推理提供更多的上下文信息。
  • 推理生成:將經(jīng)過(guò)文本化的圖像-問(wèn)題對(duì)輸入到一個(gè)專(zhuān)門(mén)的推理大型語(yǔ)言模型(如DeepSeek-R1)中,以生成高質(zhì)量的CoT推理過(guò)程。DeepSeek-R1能夠生成包含自然認(rèn)知過(guò)程的推理過(guò)程,如質(zhì)疑、反思和檢查等。
  • 數(shù)據(jù)過(guò)濾:從生成的CoT數(shù)據(jù)中保留那些最終答案與真實(shí)值一致的樣本。使用規(guī)則進(jìn)行數(shù)據(jù)過(guò)濾,去除邏輯不一致的樣本,并替換一些詞匯以提高語(yǔ)義連貫性。

冷啟動(dòng)數(shù)據(jù)源:

圖片圖片

小結(jié):冷啟動(dòng)初始化的主要目的是為模型提供一個(gè)高質(zhì)量的起點(diǎn),使得模型在后續(xù)的強(qiáng)化學(xué)習(xí)過(guò)程中能夠更快地學(xué)習(xí)和改進(jìn)其推理能力

2 漸進(jìn)式思維抑制訓(xùn)練(PTST)

圖片圖片

為了解決冷啟動(dòng)后的過(guò)度思考問(wèn)題,Vision-R1 采用漸進(jìn)式思維抑制訓(xùn)練(PTST),通過(guò) RL 進(jìn)一步優(yōu)化模型的推理能力。

  • 分組相對(duì)策略優(yōu)化(GRPO): GRPO 是一種 RL 算法,通過(guò)分組類(lèi)似狀態(tài)或動(dòng)作來(lái)優(yōu)化策略,提高學(xué)習(xí)效率。  詳細(xì)的可參考往期《DeepSeek采用的GRPO算法數(shù)學(xué)原理及算法過(guò)程淺析
  • 硬格式結(jié)果獎(jiǎng)勵(lì)函數(shù)(HFRRF): 獎(jiǎng)勵(lì)函數(shù)簡(jiǎn)單:如果輸出格式正確且答案正確,則獎(jiǎng)勵(lì)為 1,否則為 0。
  • 分階段訓(xùn)練: 訓(xùn)練分為多個(gè)階段,逐步增加序列長(zhǎng)度(如 4K、8K、16K 標(biāo)記)和調(diào)整組大小(如 16、8、4)。

a.每個(gè)階段訓(xùn)練 100 步,使用 64 個(gè) NVIDIA H800 80G GPU,約 2 天,使用 Verl 框架。

b.與固定長(zhǎng)度 16K、300 步訓(xùn)練的 Vision-R1-Long 相比,PTST 表現(xiàn)更好,平均長(zhǎng)度 2057,平均準(zhǔn)確率 55.4%。

圖片圖片

效果與實(shí)驗(yàn)

出現(xiàn)“頓悟時(shí)刻”:

圖片圖片

圖片圖片

圖片圖片

數(shù)學(xué)評(píng)測(cè):

圖片圖片

參考文獻(xiàn):Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models, https://arxiv.org/abs/2503.06749) code:https://github.com/Osilly/Vision-R1

責(zé)任編輯:武曉燕 來(lái)源: 大模型自然語(yǔ)言處理
相關(guān)推薦

2025-04-09 09:15:00

數(shù)據(jù)模型AI

2025-03-04 17:27:05

2025-03-05 10:21:04

DeepSeekLVLM

2025-02-19 08:00:00

2025-02-03 14:17:27

2025-02-13 08:51:23

DeepSeek大模型

2025-02-20 17:19:08

2025-03-05 03:00:00

DeepSeek大模型調(diào)優(yōu)

2025-05-19 08:41:00

AI模型開(kāi)發(fā)者

2025-02-06 10:18:45

2025-09-08 09:06:16

2025-02-19 08:33:18

2025-02-25 10:03:20

2025-03-19 09:20:00

2025-03-27 09:34:42

2025-02-12 12:45:59

2025-03-27 10:28:32

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)