偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ICCV25 Highlight|格靈深瞳RICE模型狂刷榜單,讓AI「看懂」圖片的每個細節(jié)

人工智能 新聞
RICE 作為 MVT 系列的新模型,繼續(xù)延續(xù)前作 Unicom(MVT v1.0)和 MLCD(MVT v1.1)的視覺預(yù)訓練理念,秉持著 margin 表征代表語義的核心觀點,在頂級學術(shù)會議 ICCV25 上獲得 Highlight 榮譽。

最近,格靈深瞳公司靈感團隊自研的視覺模型基座RICE(MVT v1.5)再次驚艷全場,刷榜多項視覺任務(wù)。

RICE 作為 MVT 系列的新模型,繼續(xù)延續(xù)前作 Unicom(MVT v1.0)和 MLCD(MVT v1.1)的視覺預(yù)訓練理念,秉持著 margin 表征代表語義的核心觀點,在頂級學術(shù)會議 ICCV25 上獲得 Highlight 榮譽。

  • 代碼地址:https://github.com/deepglint/MVT
  • 論文地址:https://arxiv.org/abs/2507.20025
  • 模型地址:https://huggingface.co/DeepGlint-AI/rice-vit-large-patch14-560

MVT 系列作為靈感團隊自研的視覺基座預(yù)訓練方法,從 1.0 開始,就聚焦于如何讓視覺模型利用海量的數(shù)據(jù)集進行更加準確的視覺語義表征。MVT 系列靈感來自于格靈深瞳公司的頂尖技術(shù) —— 人臉識別算法,得益于在人臉識別領(lǐng)域積累的大量訓練經(jīng)驗和視覺表征認知。

團隊深刻認識到,視覺知識就像不同的人臉一樣,名字只是賦予的人為語義,只要能充分做到不同語義之間的差異化表征,即可做到讓各種下游任務(wù)以及 LLM 輕松識別這些差異化表征與人類認知之間的對應(yīng)關(guān)系。

基于此思路,MVT v1.0 成功站在巨人的肩膀上,利用當時最先進的 CLIP 預(yù)訓練模型為海量圖文數(shù)據(jù)進行特征提取。再利用 kmeans 算法,將所有的特征聚類為一百萬個不同類別,并為圖片進行打標。MVT v1.0 在圖片分類、檢索等不同領(lǐng)域均獲得了 SOTA 級別的表現(xiàn)。

MVT v1.0 方法中的每個樣本的學習其實是基于超大規(guī)模的數(shù)據(jù)集總結(jié)出來的,超越了 CLIP 這類方法的 batch 類差異化學習的限制。

靈感團隊繼續(xù)研究發(fā)現(xiàn)對圖像賦予單一的標簽,可能會將一些其他正確的標簽被當成負樣本學習 —— 人類對于事物的認知是多樣的。基于此思想,團隊推出 MVT v1.1 的工作,給每張圖像分配 top-k 個軟標簽,進一步提高視覺基座對圖像編碼的語義豐富性。

新一代視覺模型基座 ——RICE

本次的 MVT v1.5——RICE 是沿著前作思想,并進一步洞悉圖像語義組成方式的又一力作。

團隊研究發(fā)現(xiàn)一張圖片的信息往往是多種無 / 弱關(guān)聯(lián)視覺元素拼接而成,直接對圖片內(nèi)的不同視覺元素進行監(jiān)督可能更加符合人類對于圖片信息的處理,也能進一步成為目標檢測、分割等下游任務(wù)更好的基座視覺模型。除此之外,圖片中存在的字符塊也被此框架所兼容,其字符本身即為該區(qū)域圖片的語義信息。

為此,團隊使用 SAM 對潛在的區(qū)域級對象進行了搜索,并對整個數(shù)據(jù)集中的區(qū)域級對象進行特征提取和聚類,最終從 400M 的圖像中得到 2B 個圖像區(qū)域級對象,并聚類為一百萬個區(qū)域級語義類別標簽。針對圖像字符塊,團隊使用 PaddleOCR 從 50M 圖片中提取出 400M 的字符級別候選區(qū)域,使用字符直接作為類別標簽。

在訓練過程中,每張圖片有大約 10 個區(qū)域級對象需要進行學習,團隊提出一種 Region Attention Layer 模塊用于加速模型訓練。模型主體部分 ——Encoder 使用經(jīng)典的 ViT 結(jié)構(gòu),對于最后一層的視覺特征圖則使用 mask 機制對屬于同一對象的視覺特征進行提取,完整圖片的 class embedding 作為 Q 對區(qū)域級別的視覺特征進行 QKV 注意力計算,得到該區(qū)域的 Region Class Embedding 作為區(qū)域類別語義進行分類損失計算。

相比于 MVT v1.1 這類以全圖語義信息編碼的訓練方法,RICE 在訓練過程中,圖片內(nèi)部的視覺特征差異性得到了有效的提升。這表明隨著訓練的進行,視覺編碼器對于圖片內(nèi)部元素的語義表征變得更加豐富。

完備實驗驗證

RICE 作為新的視覺基座,在多種不同的下游任務(wù)上進行了充分的實驗驗證。

檢測任務(wù)

RICE 不僅在經(jīng)典的 COCO 和 LVIS 任務(wù)上驗證了檢測任務(wù)上的 Linear Prob 能力,還在包含了 100 種不同場景檢測任務(wù)的 Roboflow100 上進行了與其他先進的視覺基座進行了公平比較。針對區(qū)域級別語義學習的預(yù)訓練方法,讓 RICE 在這類任務(wù)上有著得天獨厚的優(yōu)勢,在幾乎所有指標上獲得了最好的結(jié)果。

多模態(tài)分割任務(wù)

多模態(tài)分割任務(wù)作為多模態(tài)領(lǐng)域重要的方向之一,RICE 使用經(jīng)典的 LLaVA 系列多模態(tài)框架,使用 LISA 方法進行訓練,在 refCOCO 系列的所有子集上均獲得了顯著的提升。

視頻追蹤任務(wù)

盡管 RICE 是基于圖片進行訓練的,但其 ROPE 的位置編碼方式以及跨圖片的區(qū)域級對象聚類方法,使得 RICE 可以接收不同尺寸的視頻輸入,并對于不同視頻幀中的相同目標進行持續(xù)追蹤。RICE 在 4 個不同的視頻追蹤相關(guān)任務(wù)上均獲得了領(lǐng)先表現(xiàn),從特征降采樣后的可視化效果來看,模型能夠很好的對不同幀中的同一類別物體進行持續(xù)追蹤。

多模態(tài)問答任務(wù)

多模態(tài)模型是現(xiàn)在視覺基座模型的兵家必爭之地。在 LLaVA 系列的主流訓練架構(gòu)中,使用 RICE 作為視覺編碼器在多個基準測試上獲得了更好的效果。尤其是得益于其在預(yù)訓練方法可以無縫兼容光學字符識別,使得基于 RICE 視覺基座的多模態(tài)模型在 OCR 相關(guān)任務(wù)上獲得了顯著的優(yōu)勢。下表源自 LLaVA- OneVision-1.5 技術(shù)報告:

最近,RICE 被作為 LLaVA-OneVision-1.5 的視覺編碼器,助力其成為和 Qwen2.5-VL 系列可比的全開源的卓越工作。

結(jié)論

RICE 作為格靈深瞳公司 MVT 系列的又一力作,在多個層面上展現(xiàn)了他們對于視覺預(yù)訓練的深刻理解與洞察。RICE 的成功證明了:視覺語義信息在學習時應(yīng)當注重差異化,可以保證不同下游任務(wù)輕松區(qū)分并快速識別不同的語義信息;圖片中的視覺元素很多的時候是無 / 弱關(guān)聯(lián),因此區(qū)域內(nèi)的視覺元素學習能夠更好的完整表征圖片信息。

下一步,MVT 系列即將開啟 v2.0—— 視頻編碼工作,圖像是對當前場景的一個靜態(tài)幀,視頻則是對真實世界的直接記錄。視頻中有大量的信息可以挖掘,是通往 AGI 之路的金礦山。MVT 將繼續(xù)沿著前作的差異化語義表征的路線,開啟視頻編碼時代的下一個新 SOTA!

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2014-12-10 14:38:17

格靈深瞳智能監(jiān)控

2024-09-09 13:50:00

2016-07-21 16:48:48

2025-04-28 09:14:00

2025-07-14 08:40:00

模型AI推理

2021-02-03 11:26:20

人工智能人臉識別

2024-12-18 15:02:48

2025-04-15 19:29:34

2025-05-08 09:31:50

2025-09-25 09:00:00

2013-07-18 16:40:12

App Store榜單

2024-01-31 12:49:48

模型數(shù)據(jù)

2018-03-07 14:06:23

區(qū)塊鏈數(shù)字貨幣比特幣

2023-05-24 09:59:16

2021-08-07 05:05:30

接口Redis項目
點贊
收藏

51CTO技術(shù)棧公眾號