Meta剛剛開源DINOv3,橫掃60+任務(wù),無標(biāo)注封神!
今天凌晨,全球社交、科技巨頭Meta開源了,最新視覺大模型DINOv3。
DINOv3的主要創(chuàng)新使用了自我監(jiān)督學(xué)習(xí),無需標(biāo)注數(shù)據(jù)就能大幅度降低訓(xùn)練所需要的時(shí)間和算力資源。并且與前一代相比,DINOv3的訓(xùn)練數(shù)據(jù)大12倍擴(kuò)大至17億張圖像以及大7倍的70億參數(shù)。
根據(jù)測試數(shù)據(jù)顯示,DINOv3在圖像分類、語義分割、單目深度估計(jì)、3D理解、實(shí)例識別、視頻分割跟蹤、視頻分類等10大類,60多個子集測試中全部都非常出色,超越了同類開、閉源模型??蓭椭t(yī)療保健、環(huán)境監(jiān)測、自動駕駛汽車、航空航天等解鎖更多的用例。

開源地址:https://huggingface.co/collections/facebook/dinov3-68924841bd6b561778e31009
https://github.com/facebookresearch/dinov3
網(wǎng)友表示,這么優(yōu)秀的視覺模型應(yīng)該集成在Llama大語言模型中,因?yàn)樗F(xiàn)在視覺能力有點(diǎn)糟糕啊。

DINOv3憑借70億參數(shù)橫掃視覺模型領(lǐng)域。

萬萬沒想到 DINOv2 模型還能出后續(xù)版本。但它的出現(xiàn)無疑是受歡迎的。

DINOv3就像一個統(tǒng)領(lǐng)所有任務(wù)的視覺模型,強(qiáng)大、通用,且無需微調(diào)。

這看起來增強(qiáng)了單目深度估計(jì)能力。這對我的野火管理項(xiàng)目非常有用!
希望這些改進(jìn)能增強(qiáng) Marigold 模型,或者催生一個更出色的模型。

我覺得現(xiàn)在我終于可以讓我的算法僅通過觀察屏幕就開始玩游戲了。不必再去尋找能提供特征狀態(tài)空間的環(huán)境了。

看起來好太多了,Meta的AI團(tuán)隊(duì)已經(jīng)沉寂了一段時(shí)間,希望這能成為他們的一款翻身之作。

DINOv3簡單介紹
DINOv3在模型架構(gòu)上采用定制化的Vision Transformer,擁有70億參數(shù)。相比DINOv2的ViT-giant,其嵌入維度從1536提升至4096,注意力頭數(shù)從24增至32,前饋網(wǎng)絡(luò)隱藏維度從4096擴(kuò)展到8192,并采用旋轉(zhuǎn)位置嵌入替代可學(xué)習(xí)嵌入,使模型能自適應(yīng)不同分辨率輸入。
同時(shí),取消余弦調(diào)度,改用恒定超參數(shù)調(diào)度,解決了大規(guī)模訓(xùn)練中優(yōu)化周期難以預(yù)估的問題。

針對長時(shí)間訓(xùn)練中密集特征圖退化的問題,DINOv3創(chuàng)新提出Gram錨定技術(shù)。該技術(shù)的核心原理是強(qiáng)制學(xué)生模型的特征Gram矩陣與早期訓(xùn)練階段的“教師模型”保持一致,通過計(jì)算兩者差異作為損失,確保特征間的相似性結(jié)構(gòu)穩(wěn)定,而非強(qiáng)制特征值本身一致。
為進(jìn)一步優(yōu)化,DINOv3將高分辨率圖像(512×512)輸入教師模型,通過雙三次插值下采樣至學(xué)生模型輸出尺寸,使平滑后的特征保留更精細(xì)的空間信息。

在訓(xùn)練階段設(shè)計(jì)上,于100萬次迭代后啟動Gram錨定優(yōu)化,每10k次迭代更新一次教師模型。結(jié)果顯示,密集任務(wù)性能在引入該技術(shù)后10k次迭代內(nèi)即顯著提升,有效解決了密集特征退化難題。
為提升模型的實(shí)用性與部署靈活性,DINOv3引入了三大后處理優(yōu)化策略。高分辨率適配通過混合分辨率訓(xùn)練,全局crop尺寸512/768,局部crop尺寸112/168等,使模型在4096×4096等高分辨率輸入下仍保持特征穩(wěn)定性。測試顯示,適配后模型在1024×1024分辨率下的語義分割性能提升15%。

知識蒸餾將70億參數(shù)模型的知識蒸餾到更小的變體中,形成包含ViT-S、ViT-B、ViT-L及ConvNeXt(T/S/B/L)的模型家族,其中ViT-H+(8.4億參數(shù))性能接近70億參數(shù)模型,而ConvNeXt-L在資源受限場景下效率提升3倍。
文本對齊方面,凍結(jié)視覺主干網(wǎng)絡(luò),訓(xùn)練文本編碼器與視覺特征對齊,支持零樣本任務(wù),在COCO圖像-文本檢索任務(wù)中,圖像到文本的Recall@1達(dá)到84.7%。
這些后處理策略極大地?cái)U(kuò)展了DINOv3的應(yīng)用場景,使其能適應(yīng)從邊緣設(shè)備到高性能服務(wù)器的多種部署環(huán)境。
DINOv3在60多個視覺任務(wù)測試中表現(xiàn)非常出色,大幅度超越了同類模型。以語義分割任務(wù)來說,在 ADE20k 數(shù)據(jù)集里,其線性探針的mIoU達(dá)到了55.9,遠(yuǎn)超DINOv2的49.5以及SigLIP 2的42.7。

在Cityscapes數(shù)據(jù)集的測試中,DINOv3的mIoU達(dá)到81.1,超過了AM-RADIOv2.5的78.4和PEspatial的73.2。在深度估計(jì)任務(wù)中,面對NYUv2數(shù)據(jù)集,DINOv3的RMSE低至0.309,優(yōu)于DINOv2的0.372和PEspatial的0.362;在KITTI數(shù)據(jù)集中,RMSE為2.346,相較于DINOv2降低了0.278,與專門的深度估計(jì)模型Depth Anything V2的性能差距極小。
在3D關(guān)鍵點(diǎn)匹配任務(wù)方面,在NAVI數(shù)據(jù)集中,DINOv3的召回率達(dá)到64.4%,超過DINOv2的60.1%和AM-RADIOv2.5的59.4%;在SPair數(shù)據(jù)集中,其召回率為58.7%,領(lǐng)先同類模型2–5個百分點(diǎn)。
在全局任務(wù)領(lǐng)域,DINOv3同樣打破了自監(jiān)督模型之前的性能瓶頸。在圖像分類任務(wù)中,于ImageNet1k數(shù)據(jù)集上,線性探針準(zhǔn)確率達(dá)到88.4%,與PEcore的89.3%和SigLIP 2的89.1%相差無幾;在跨分布泛化測試中,ObjectNet數(shù)據(jù)集準(zhǔn)確率為79.0%,略低于PEcore的80.2%,但遠(yuǎn)超DINOv2的66.4%。

在細(xì)粒度分類任務(wù)中,iNaturalist 2021數(shù)據(jù)集(物種識別)上,其準(zhǔn)確率高達(dá)89.8%,超過PEcore的87.0%和DINOv2的86.1%;在Fine-S數(shù)據(jù)集(12個細(xì)粒度任務(wù)平均)中,準(zhǔn)確率為93.0%,已達(dá)到弱監(jiān)督模型的水平。
在實(shí)例檢索任務(wù)中,Oxford-Hard數(shù)據(jù)集的mAP為60.7,顯著高于DINOv2的58.2和SigLIP 2的25.1;在阿姆斯特丹歷史影像匹配任務(wù)中,mAP達(dá)到56.5,相較DINOv2提升了7.6個百分點(diǎn)。
DINOv3在視頻與3D任務(wù)中也展現(xiàn)出強(qiáng)大的遷移能力。在視頻分割跟蹤任務(wù)中,DAVIS 2017數(shù)據(jù)集上,DINOv3達(dá)到83.3(高分辨率),遠(yuǎn)超DINOv2的76.6和PEspatial的70.5。從多分辨率測試結(jié)果看,其性能隨輸入分辨率提升而穩(wěn)定增長,而對比模型在高分辨率下性能反而下降。
在3D理解任務(wù)中,結(jié)合VGGT框架,在DTU多視圖深度估計(jì)中,整體誤差為0.368,優(yōu)于原始VGGT的0.382;在ScanNet視圖匹配任務(wù)中,AUC@10達(dá)到56.1,超過SuperGlue的33.8和Roma的53.4。

在遙感與地理空間任務(wù)方面,DINOv3表現(xiàn)同樣亮眼。在樹冠高度估計(jì)任務(wù)中,Open-Canopy數(shù)據(jù)集,其MAE為2.02米,優(yōu)于Tolan et al.的2.42米和DINOv2的2.17米;在肯尼亞地區(qū)的實(shí)際應(yīng)用中,樹冠高度測量誤差從DINOv2的4.1米大幅降至1.2米。
在地理語義任務(wù)中,GEO-Bench數(shù)據(jù)集(包含12個遙感分類/分割任務(wù))的平均準(zhǔn)確率為81.6%,超過Prithvi-v2的79.6%和DOFA的79.9%;在LoveDA土地覆蓋分割任務(wù)中,mIoU達(dá)到56.2,刷新了此前由BillionFM保持的54.4紀(jì)錄。




































