偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

重磅發(fā)現(xiàn)!DeepSeek R1方法成功遷移到視覺領(lǐng)域,多模態(tài)AI迎來新突破!

人工智能
這個項目的靈感來自去年 DeepSeek 開源的那個 R1 方法,靠著 GRPO(Group Relative Policy Optimization)強(qiáng)化學(xué)習(xí)方法,在純文本大模型上取得了驚人的效果。

嘿,各位開發(fā)小伙伴,今天要給大家安利一個全新的開源項目 ——VLM-R1!它將 DeepSeek 的 R1 方法從純文本領(lǐng)域成功遷移到了視覺語言領(lǐng)域,這意味著打開了對于多模態(tài)領(lǐng)域的想象空間!

這個項目的靈感來自去年 DeepSeek 開源的那個 R1 方法,靠著 GRPO(Group Relative Policy Optimization)強(qiáng)化學(xué)習(xí)方法,在純文本大模型上取得了驚人的效果。

現(xiàn)在,VLM-R1 團(tuán)隊直接把它應(yīng)用到了視覺語言模型上,打開了一扇新的大門!

VLM-R1 驗證結(jié)果驚艷

這個項目的團(tuán)隊在 Qwen2.5-VL 的基礎(chǔ)上,同時對比了 R1 和傳統(tǒng)的 SFT 方法。結(jié)果相當(dāng)驚艷:

(1) 穩(wěn)定性拉滿:R1 方法在各種復(fù)雜場景下都能保持穩(wěn)定的高性能,這在實際應(yīng)用至關(guān)重要!

(2) 泛化能力卓越:更讓人震驚的是,在領(lǐng)域外的測試數(shù)據(jù)上,隨著訓(xùn)練步數(shù)增加,傳統(tǒng) SFT 模型的性能開始下滑,而 R1 模型卻能持續(xù)提升!這意味著 R1 方法幫助模型真正 “學(xué)會” 了理解視覺內(nèi)容,而不是簡單地記憶!

(訓(xùn)練和測試領(lǐng)域的差異對比)

(泛化性對比,綠線是 VLM-R1,在領(lǐng)域外泛化性顯著更優(yōu))

(3) 上手超簡單:VLM-R1 項目團(tuán)隊還貼心地提供了完整的訓(xùn)練和評估流程,四步就能開始訓(xùn)練,對開發(fā)者十分友好。

小編親測之后,在此分享一個實際案例,結(jié)果讓人意外。

圖片里展示了一桌子豐盛的美食,包括各種蔬菜、面餅和點心。針對圖片,我們向模型提出了一個問題:“在圖片中找出蛋白質(zhì)含量最高的食物”。

模型不僅回答得準(zhǔn)確:

“圖片中展示了桌上的各種菜品,包括蔬菜、面餅和點心。從蛋白質(zhì)含量來看,面餅或面點可能含量最高,因為它們通常由全谷物制成,面粉中含有蛋白質(zhì)。雖然蔬菜也含有蛋白質(zhì),但比起這些主食來說含量較少。”

更厲害的是,它還精準(zhǔn)地在圖片中框選出了那個蛋白質(zhì)含量最高的雞蛋餅!

這種精確的視覺理解能力和推理能力,讓人印象深刻!

完美展示了 VLM-R1 在實際應(yīng)用中的優(yōu)勢:

  • 準(zhǔn)確的視覺識別能力
  • 專業(yè)的知識推理能力
  • 清晰的文本表達(dá)能力

全新思路

作為一個 AI 領(lǐng)域的觀察者,VLM-R1 的出現(xiàn)也為開發(fā)者和行業(yè)提供了許多新的思路,比如:

  • 證明了 R1 方法的通用性,不止文本領(lǐng)域玩得轉(zhuǎn);
  • 為多模態(tài)模型的訓(xùn)練提供了新思路;
  • 或許能夠引領(lǐng)一種全新的視覺語言模型訓(xùn)練潮流;

完全開源

最棒的是,這個優(yōu)秀的項目完全開源!

項目地址:[VLM-R1](https://github.com/om-ai-lab/VLM-R1)

對視覺語言模型感興趣的同學(xué),強(qiáng)烈建議去看看這個項目。說不定你的下一個突破性研究就從這里開始!

責(zé)任編輯:趙寧寧 來源: 機(jī)器之心
相關(guān)推薦

2025-03-04 17:27:05

2025-03-13 08:13:47

DeepSeekMLLMVision-R1

2025-01-27 12:30:07

2025-02-12 12:12:59

2025-02-20 15:32:28

2025-02-20 11:12:11

2025-02-17 09:33:00

AI算法模型

2025-04-09 09:15:00

數(shù)據(jù)模型AI

2025-03-06 09:55:49

2025-04-21 08:42:00

模型開源AI

2025-02-11 08:35:30

2025-02-25 08:20:50

AI程序員DeepSeek

2025-02-08 11:31:17

DeepseekR1模型

2025-03-05 09:10:00

AI生成模型

2025-04-15 09:22:00

AI訓(xùn)練模型

2025-02-07 13:10:06

2025-02-07 15:52:20

2025-03-11 02:00:00

AI工具Token-AI

2025-02-03 06:00:00

2025-01-21 11:53:53

點贊
收藏

51CTO技術(shù)棧公眾號