ICCV25 Highlight|格靈深瞳RICE模型狂刷榜單,讓AI「看懂」圖片的每個細節(jié)
最近,格靈深瞳公司靈感團隊自研的視覺模型基座RICE(MVT v1.5)再次驚艷全場,刷榜多項視覺任務(wù)。
RICE 作為 MVT 系列的新模型,繼續(xù)延續(xù)前作 Unicom(MVT v1.0)和 MLCD(MVT v1.1)的視覺預(yù)訓練理念,秉持著 margin 表征代表語義的核心觀點,在頂級學術(shù)會議 ICCV25 上獲得 Highlight 榮譽。

- 代碼地址:https://github.com/deepglint/MVT
- 論文地址:https://arxiv.org/abs/2507.20025
- 模型地址:https://huggingface.co/DeepGlint-AI/rice-vit-large-patch14-560
MVT 系列作為靈感團隊自研的視覺基座預(yù)訓練方法,從 1.0 開始,就聚焦于如何讓視覺模型利用海量的數(shù)據(jù)集進行更加準確的視覺語義表征。MVT 系列靈感來自于格靈深瞳公司的頂尖技術(shù) —— 人臉識別算法,得益于在人臉識別領(lǐng)域積累的大量訓練經(jīng)驗和視覺表征認知。
團隊深刻認識到,視覺知識就像不同的人臉一樣,名字只是賦予的人為語義,只要能充分做到不同語義之間的差異化表征,即可做到讓各種下游任務(wù)以及 LLM 輕松識別這些差異化表征與人類認知之間的對應(yīng)關(guān)系。
基于此思路,MVT v1.0 成功站在巨人的肩膀上,利用當時最先進的 CLIP 預(yù)訓練模型為海量圖文數(shù)據(jù)進行特征提取。再利用 kmeans 算法,將所有的特征聚類為一百萬個不同類別,并為圖片進行打標。MVT v1.0 在圖片分類、檢索等不同領(lǐng)域均獲得了 SOTA 級別的表現(xiàn)。

MVT v1.0 方法中的每個樣本的學習其實是基于超大規(guī)模的數(shù)據(jù)集總結(jié)出來的,超越了 CLIP 這類方法的 batch 類差異化學習的限制。
靈感團隊繼續(xù)研究發(fā)現(xiàn)對圖像賦予單一的標簽,可能會將一些其他正確的標簽被當成負樣本學習 —— 人類對于事物的認知是多樣的。基于此思想,團隊推出 MVT v1.1 的工作,給每張圖像分配 top-k 個軟標簽,進一步提高視覺基座對圖像編碼的語義豐富性。

新一代視覺模型基座 ——RICE
本次的 MVT v1.5——RICE 是沿著前作思想,并進一步洞悉圖像語義組成方式的又一力作。
團隊研究發(fā)現(xiàn)一張圖片的信息往往是多種無 / 弱關(guān)聯(lián)視覺元素拼接而成,直接對圖片內(nèi)的不同視覺元素進行監(jiān)督可能更加符合人類對于圖片信息的處理,也能進一步成為目標檢測、分割等下游任務(wù)更好的基座視覺模型。除此之外,圖片中存在的字符塊也被此框架所兼容,其字符本身即為該區(qū)域圖片的語義信息。
為此,團隊使用 SAM 對潛在的區(qū)域級對象進行了搜索,并對整個數(shù)據(jù)集中的區(qū)域級對象進行特征提取和聚類,最終從 400M 的圖像中得到 2B 個圖像區(qū)域級對象,并聚類為一百萬個區(qū)域級語義類別標簽。針對圖像字符塊,團隊使用 PaddleOCR 從 50M 圖片中提取出 400M 的字符級別候選區(qū)域,使用字符直接作為類別標簽。

在訓練過程中,每張圖片有大約 10 個區(qū)域級對象需要進行學習,團隊提出一種 Region Attention Layer 模塊用于加速模型訓練。模型主體部分 ——Encoder 使用經(jīng)典的 ViT 結(jié)構(gòu),對于最后一層的視覺特征圖則使用 mask 機制對屬于同一對象的視覺特征進行提取,完整圖片的 class embedding 作為 Q 對區(qū)域級別的視覺特征進行 QKV 注意力計算,得到該區(qū)域的 Region Class Embedding 作為區(qū)域類別語義進行分類損失計算。

相比于 MVT v1.1 這類以全圖語義信息編碼的訓練方法,RICE 在訓練過程中,圖片內(nèi)部的視覺特征差異性得到了有效的提升。這表明隨著訓練的進行,視覺編碼器對于圖片內(nèi)部元素的語義表征變得更加豐富。
完備實驗驗證
RICE 作為新的視覺基座,在多種不同的下游任務(wù)上進行了充分的實驗驗證。
檢測任務(wù)
RICE 不僅在經(jīng)典的 COCO 和 LVIS 任務(wù)上驗證了檢測任務(wù)上的 Linear Prob 能力,還在包含了 100 種不同場景檢測任務(wù)的 Roboflow100 上進行了與其他先進的視覺基座進行了公平比較。針對區(qū)域級別語義學習的預(yù)訓練方法,讓 RICE 在這類任務(wù)上有著得天獨厚的優(yōu)勢,在幾乎所有指標上獲得了最好的結(jié)果。

多模態(tài)分割任務(wù)
多模態(tài)分割任務(wù)作為多模態(tài)領(lǐng)域重要的方向之一,RICE 使用經(jīng)典的 LLaVA 系列多模態(tài)框架,使用 LISA 方法進行訓練,在 refCOCO 系列的所有子集上均獲得了顯著的提升。

視頻追蹤任務(wù)
盡管 RICE 是基于圖片進行訓練的,但其 ROPE 的位置編碼方式以及跨圖片的區(qū)域級對象聚類方法,使得 RICE 可以接收不同尺寸的視頻輸入,并對于不同視頻幀中的相同目標進行持續(xù)追蹤。RICE 在 4 個不同的視頻追蹤相關(guān)任務(wù)上均獲得了領(lǐng)先表現(xiàn),從特征降采樣后的可視化效果來看,模型能夠很好的對不同幀中的同一類別物體進行持續(xù)追蹤。

多模態(tài)問答任務(wù)
多模態(tài)模型是現(xiàn)在視覺基座模型的兵家必爭之地。在 LLaVA 系列的主流訓練架構(gòu)中,使用 RICE 作為視覺編碼器在多個基準測試上獲得了更好的效果。尤其是得益于其在預(yù)訓練方法可以無縫兼容光學字符識別,使得基于 RICE 視覺基座的多模態(tài)模型在 OCR 相關(guān)任務(wù)上獲得了顯著的優(yōu)勢。下表源自 LLaVA- OneVision-1.5 技術(shù)報告:

最近,RICE 被作為 LLaVA-OneVision-1.5 的視覺編碼器,助力其成為和 Qwen2.5-VL 系列可比的全開源的卓越工作。

結(jié)論
RICE 作為格靈深瞳公司 MVT 系列的又一力作,在多個層面上展現(xiàn)了他們對于視覺預(yù)訓練的深刻理解與洞察。RICE 的成功證明了:視覺語義信息在學習時應(yīng)當注重差異化,可以保證不同下游任務(wù)輕松區(qū)分并快速識別不同的語義信息;圖片中的視覺元素很多的時候是無 / 弱關(guān)聯(lián),因此區(qū)域內(nèi)的視覺元素學習能夠更好的完整表征圖片信息。
下一步,MVT 系列即將開啟 v2.0—— 視頻編碼工作,圖像是對當前場景的一個靜態(tài)幀,視頻則是對真實世界的直接記錄。視頻中有大量的信息可以挖掘,是通往 AGI 之路的金礦山。MVT 將繼續(xù)沿著前作的差異化語義表征的路線,開啟視頻編碼時代的下一個新 SOTA!



























