偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

全球首個工業(yè)界多模態(tài)推理模型開源!38B硬剛DeepSeek-R1,訓(xùn)練秘籍全公開

人工智能 新聞
全球首個開源多模態(tài)推理大模型來了!38B參數(shù)模型性能直逼DeepSeek-R1,同尺寸上橫掃多項SOTA 。而這家中國公司之所以選擇無償將技術(shù)思路開源,正是希望同DeepSeek一樣,打造開源界的技術(shù)影響力。

剛剛,昆侖萬維正式開源了全球首個工業(yè)界多模態(tài)推理模型Skywork R1V(以下簡稱「R1V」)!

R1V高效地將DeepSeek-R1這種強(qiáng)大的文本推理能力無縫scaling到了視覺模態(tài),實現(xiàn)了多模態(tài)領(lǐng)域的領(lǐng)先表現(xiàn),并以開源方式推動了技術(shù)進(jìn)步。

由此,多模態(tài)推理的新時代即將開啟。

圖片

R1V的實力,究竟有多強(qiáng)?

在視覺問答任務(wù)中,R1V直接對標(biāo)Claude 3.5 Sonnet、GPT-4o等閉源模型,同時還保留了頂級文本推理能力。

在MMMU基準(zhǔn)測試中,R1V以69分創(chuàng)下同等規(guī)模新高,在MathVista上拿下67.5分,達(dá)到領(lǐng)先的開源模型水平。

無論是復(fù)雜的數(shù)學(xué)推理,還是圖像中的邏輯分析等,R1V都能輕松駕馭,堪稱多模態(tài)領(lǐng)域的「全能戰(zhàn)士」。

總結(jié)來說,R1V有以下三大亮點。

1. 全球第一個工業(yè)界開源多模態(tài)+推理模型
2. 性能接近甚至超越了規(guī)模大兩倍的開源模型
3. 通過開源讓技術(shù)可以惠及到更多人

這背后的締造者,就是中國的AI科技公司——昆侖萬維。

R1V的問世,更以開放的姿態(tài)為全球AI開源社區(qū)注入了全新活力。

即日起,模型權(quán)重、推理代碼、技術(shù)報告全盤開源。

圖片

GitHub:https://github.com/SkyworkAI/Skywork-R1V

Hugging Face:https://huggingface.co/Skywork/Skywork-R1V-38B

技術(shù)報告:https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V.pdf

這標(biāo)志著,昆侖萬維成為全球首家開源多模態(tài)思考模型的公司,朝著AGI落地邁出重要的一步。

而選擇開源R1V視覺思考模型,也正是昆侖萬維為了更堅定地貫徹AGI的夢想,推動開源社區(qū)的技術(shù)進(jìn)步。

R1V:全球首款開源多模態(tài)推理模型

此前,OpenAI o1和DeepSeek-R1在全球帶來了長思考模型的熱潮,讓大模型領(lǐng)域進(jìn)入了全新的技術(shù)范式。

而不同于長思考模型專注于多步推理的特點,視覺思考模型則專注于從圖像或視頻中提取信息、進(jìn)行邏輯推理。

如果要給它下個定義的話,什么是視覺思考模型?

簡單來說,視覺思考模型是一種,能在文本、視覺復(fù)雜任務(wù)中,展現(xiàn)驚人推理能力的AI。

它不僅能「讀懂」文字,還能「看懂」圖像,并基于此進(jìn)行深度分析和邏輯推理。

首先來一道數(shù)學(xué)題:「用圓心角為120°,半徑為6cm的扇形紙片卷成一個圓錐形無底紙帽,則這個紙帽的高是?」

R1V經(jīng)過短暫糾錯后,給出了清晰完整的解題過程,并得出正確答案,表現(xiàn)出了較強(qiáng)的邏輯推理能力。

圖片圖片

接下來再來一道更難一些的:「函數(shù)f(x)=∣2x?3∣+1在x=2和x=5處的導(dǎo)數(shù)關(guān)系是?」

可以看到,R1V先找到了絕對值部分∣2x?3∣的零點:令2x-3=0得x=1.5。

然后得出,當(dāng)x≥1.5時,f(x)=2x-3+1=2x-2,導(dǎo)數(shù)f?'(x)=2;當(dāng)x<1.5時,f(x)=-(2x-3)+1=-2x+4,導(dǎo)數(shù)f?'(x)=-2。

由于題目中的x=2和x=5均大于1.5,所以都屬于f(x)=2x-2部分。因此,f?'(2)=2,f?'(5)=2,即兩點處的導(dǎo)數(shù)相等。

最后,R1V給出了答案:(B)等于。

圖片圖片

以上案例中不難看出,R1V在視覺+推理上表現(xiàn)驚艷,所以,它是如何逆襲成功的?

煉丹之道,細(xì)節(jié)全公開

最新公開的技術(shù)報告中,揭秘了三大殺招。

跨模態(tài)遷移學(xué)習(xí)

昆侖萬維的研究者,首次發(fā)現(xiàn)了跨模態(tài)的遷移學(xué)習(xí)。

R1V首次實現(xiàn)了將大模型的文本推理能力高效遷移至視覺模態(tài),通過Skywork-VL視覺投影器的有效訓(xùn)練,顯著保留了原有的推理能力。

整個過程無需從頭重新訓(xùn)練基座語言模型和視覺編碼器,且有效保留了原有的文本推理能力。

具體來說,研究者提出了一種高效的多模態(tài)遷移方法,通過MLP結(jié)構(gòu),有效地將具有推理能力的語言模型與視覺骨干對齊。

這樣,就大幅減少了對大量多模態(tài)推理數(shù)據(jù)的需求。

這種方法背后的關(guān)鍵洞察,就在于將視覺-語言表示的對齊與推理能力的保留解耦。

直接將具有推理能力的語言模型(fl)連接到視覺骨干(fv),會需要大量的 R1風(fēng)格格式的多模態(tài)推理數(shù)據(jù),以同時實現(xiàn)這兩個目標(biāo)。

然而這種做法成本太高,不切實際。因此,研究者采用了一種相反的分階段策略。

首先,他們訓(xùn)練一個MLP適配器,將fv與具有相同架構(gòu)但無推理能力的替代語言模型(圖片)對齊;隨后,他們利用圖片和fl之間的潛在相似性,將預(yù)訓(xùn)練的MLP轉(zhuǎn)移,以使fv與原始的推理能力模型fl對齊。

這樣,所需數(shù)據(jù)量就大幅減少。

所導(dǎo)致的結(jié)果就是,正如前文提到的,R1V在權(quán)威的數(shù)學(xué)推理基準(zhǔn)測試AIME和MATH500中,分別取得72.0和94.0的高分,展現(xiàn)了強(qiáng)大的推理競爭力。

在同等規(guī)模大小模型中的推理能力遙遙領(lǐng)先,并且與閉源模型以及大尺寸模型相比,仍有很強(qiáng)的競爭力。

這樣的優(yōu)異的文本推理能力,直接「搬家」視覺領(lǐng)域,效率直接拉滿。

圖片

混合式訓(xùn)練策略

R1V還采用了迭代監(jiān)督微調(diào)(Iterative SFT)和 GRPO強(qiáng)化學(xué)習(xí)相結(jié)合的混合訓(xùn)練方法,能夠動態(tài)調(diào)整思維鏈長度。

這個過程,一共分為三個階段。

階段1:使用完整數(shù)據(jù)集,進(jìn)行初始訓(xùn)練;

階段2:使用定制數(shù)據(jù),進(jìn)行迭代訓(xùn)練;

階段3:強(qiáng)化學(xué)習(xí)。

圖片

混合式訓(xùn)練策略

具體而言,在SFT階段,研究人員迭代訓(xùn)練一系列模型M?, ..., M?,其中每個后續(xù)模型M???,都在獎勵模型選擇的高質(zhì)量數(shù)據(jù)和前一迭代中處理不正確的樣本上進(jìn)行訓(xùn)練。

在RL階段,遵循了DeepSeek R1提出的方法,利用基于規(guī)則的獎勵系統(tǒng)GRPO,進(jìn)一步提升模型的泛化能力。

強(qiáng)化學(xué)習(xí)訓(xùn)練完成后,研究人員選擇一個在性能和推理合理性之間達(dá)到最佳平衡的模型作為最終模型。

經(jīng)此訓(xùn)練后的模型,不僅提升了推理效率,還在開源模型中,率先實現(xiàn)SOTA。

經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練,R1V在MMMU基準(zhǔn)上達(dá)到69分的高分,同時在MathVista上取得67.5分,接近更大規(guī)模閉源模型的表現(xiàn)。

自適應(yīng)長度思維鏈蒸餾

此外,研究團(tuán)隊還提出了一個自適應(yīng)長度的思維鏈蒸餾(AL-CoTD)框架。

像o1這樣的推理模型之所以表現(xiàn)出色,很大程度上歸功于,它們在推理時能模擬人類長時間的思考過程。

然而,一個關(guān)鍵問題來了——推理模型有時會「過度思考」。

或許你也感同身受:輸入一個問題后,AI有時會反復(fù)思考很多遍。

圖片

最近,來自UC伯克利CMU、UMass Amherst、上交大等國內(nèi)外機(jī)構(gòu)也通過研究實證,推理模型「過度思考」會導(dǎo)致計算資源浪費,甚至損害模型本身的性能。

某些情況下, AI生成的序列可能長達(dá)數(shù)萬個token,收益卻微乎其微。

昆侖萬維提出的AL-CoTD框架,可根據(jù)需求動態(tài)調(diào)整思維鏈長度,有效緩解推理模型「過度思考」的問題,并顯著提升了推理效率。

它一共包含三大核心組件:質(zhì)量與難度評估模塊(QDAM)、視覺-文本集成分析器(VTIA)、動態(tài)推理長度控制器(DRLC)。

圖片

自適應(yīng)長度思維鏈蒸餾

· QDAM

質(zhì)量與難度評估模塊利用GPT-4o系統(tǒng)性地評估圖文查詢對,從視覺得分(Sv)和文本得分(St)兩個主要維度進(jìn)行分析。

視覺得分(Sv)會量化圖像的視覺特征,具體包括圖像清晰度和圖像必要性。文本得分(St)則會分析語言特性,主要涵蓋問題質(zhì)量、難度級別和推理需求。

這個綜合評估框架能夠捕捉多模態(tài)查詢中的感知復(fù)雜性和認(rèn)知復(fù)雜性,從而能更準(zhǔn)確地評估多模態(tài)任務(wù)的難度。

· VTIA

視覺-文本融合分析器(VTIA) 通過句法分析和語義分析確定跨模態(tài)融合的必要深度,并計算融合評分(SI)。

VTIA依靠GPT-4o識別圖文查詢中的模式,并根據(jù)查詢的復(fù)雜程度動態(tài)調(diào)整融合需求。

高融合模式常見于科學(xué)解釋類問題,涉及多個視覺對象的空間關(guān)系理解,需要高階視覺推理能力。低融合模式主要出現(xiàn)在物體識別任務(wù),側(cè)重于直接物體識別,不需要復(fù)雜推理。

這樣,VTIA就實現(xiàn)了針對查詢復(fù)雜度的自適應(yīng)跨模態(tài)融合,確保模型合理分配計算資源。

· DRLC

動態(tài)推理長度控制器(DRLC) 通過歸一化的視覺得分(圖片)、文本得分(圖片)和融合評分(圖片)來動態(tài)調(diào)節(jié)推理鏈的長度。

這些歸一化得分通過最小-最大縮放歸一化到區(qū)間 [0,1]。

推理鏈長度的調(diào)節(jié)遵循以下兩大原則:

  1. 降低重復(fù)懲罰(促進(jìn)深入推理):當(dāng)圖文質(zhì)量高、認(rèn)知難度大、視覺場景復(fù)雜時,降低重復(fù)懲罰,以允許更長的推理鏈。
  2. 高重復(fù)懲罰(減少冗余推理):當(dāng)查詢涉及低難度任務(wù)、簡單視覺識別,且文本-圖像的融合需求較低時,提高重復(fù)懲罰,從而縮短推理鏈,避免不必要的復(fù)雜推理。

· 多階段自蒸餾管線

在DRLC模塊的基礎(chǔ)上,研究者進(jìn)一步引入漸進(jìn)式自蒸餾策略,以提高推理數(shù)據(jù)的質(zhì)量。

總結(jié)來說,這篇論文的發(fā)表,也意味著相較于其他不開源或不免費的模型,昆侖萬維無償把上述技術(shù)思路給開源了。

這也就充分體現(xiàn)出R1V和DeepSeek的思路一樣,希望通過開源持續(xù)打造技術(shù)影響力。

進(jìn)化全模態(tài)

值得一提的是,當(dāng)前想要打造一個全模態(tài)的模型,不僅需要在特定領(lǐng)域獨立訓(xùn)練多個專業(yè)模型,而且還會面臨跨模態(tài)協(xié)同的算力挑戰(zhàn)。

為實現(xiàn)多模態(tài)到全模態(tài)的跨越,團(tuán)隊設(shè)計了一種全新的全模態(tài)擴(kuò)展技術(shù),使得R1V在單個模型中具備同時處理圖像、視頻、語音等多種模態(tài)信息的能力。

結(jié)果顯示,「進(jìn)化」后的R1V不僅能夠在單個模型中同時實現(xiàn)圖像、視頻、語音的全模態(tài)思考能力,而且還能在語音和視覺理解評測中均斬獲多項SOTA成績。

敢為人先,中國AI企業(yè)硬核擔(dān)當(dāng)

作為中國AI領(lǐng)軍企業(yè),昆侖萬維始終秉持著——實現(xiàn)AGI,讓每個人更好塑造和表達(dá)自我,持續(xù)深耕AI前沿技術(shù)。

過去3年,這家公司在音樂大模型、文本大模型、視頻模型等領(lǐng)域,取得了一系列突破,并構(gòu)建起了完整的AI產(chǎn)品矩陣:

  • 天工AI搜索
  • 全球首個AI音樂創(chuàng)作平臺Mureka
  • AI短劇平臺SkyReels

更值得一提的是,上個月,團(tuán)隊還發(fā)布了世界模型系列Matrix-Zero。

當(dāng)世界模型能夠模擬物理世界時,虛擬實驗、仿真和影視創(chuàng)作都將迎來爆發(fā)式增長。

從AI前沿基礎(chǔ)研究,到基座模型,再到AI矩陣產(chǎn)品/應(yīng)用的完整布局,昆侖萬維正一步步將技術(shù)愿景變?yōu)楝F(xiàn)實。

下一步,他們還將陸續(xù)開源具有空間推理能力和世界理解能力的視覺思考模型,以及全模態(tài)思考模型。

而R1V的誕生,是中國AI向世界發(fā)出的洪亮聲音。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-03-06 17:29:21

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-03-19 08:30:00

AI模型數(shù)據(jù)

2025-03-06 01:00:00

2025-02-25 09:13:16

2025-03-27 10:28:32

2025-03-07 08:30:00

2025-03-13 08:13:47

DeepSeekMLLMVision-R1

2025-02-08 14:03:25

2025-02-03 14:17:27

2025-06-10 03:30:00

2025-04-27 09:19:00

強(qiáng)化學(xué)習(xí)模型AI

2025-04-11 12:04:58

2025-04-11 14:54:44

2025-03-05 03:00:00

DeepSeek大模型調(diào)優(yōu)

2025-02-12 14:09:31

DeepSeekChatGPTAPI

2025-05-06 09:09:37

2025-06-27 08:40:00

模型推理AI
點贊
收藏

51CTO技術(shù)棧公眾號