偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

Meta視覺基座DINOv3王者歸來：自監(jiān)督首次全面超越弱監(jiān)督，商用開源

2025-08-15 12:36:04

人工智能新聞

在人工智能領域，自監(jiān)督學習（SSL）代表了 AI 模型無需人工監(jiān)督即可自主學習，它已成為現(xiàn)代機器學習中的主流范式。自監(jiān)督學習推動了大語言模型的崛起，通過在海量文本語料上的預訓練，獲得了通用表示能力。

計算機視覺領域的大部分下游任務都是從二維圖像理解（特征提取）開始的。

在特征提取、語義理解、圖像分割等 CV 基本任務中的模型三幻神分別是 SAM、CLIP 和 DINO，分別代表了全監(jiān)督、弱監(jiān)督和自監(jiān)督三大數(shù)據(jù)訓練范式。

在人工智能領域，自監(jiān)督學習（SSL）代表了 AI 模型無需人工監(jiān)督即可自主學習，它已成為現(xiàn)代機器學習中的主流范式。自監(jiān)督學習推動了大語言模型的崛起，通過在海量文本語料上的預訓練，獲得了通用表示能力。

相比于需要標注數(shù)據(jù)的 SAM 模型和依賴圖像 - 文本對進行訓練的 CLIP 模型，基于自監(jiān)督學習的 DINO 具備有直接從圖像本身生成學習信號的優(yōu)勢，數(shù)據(jù)準備門檻更低，更容易實現(xiàn)更大規(guī)模的數(shù)據(jù)學習以達到更精細的圖像特征，泛化性更強。

2021 年，Meta 發(fā)布 DINO，它基于 ViT 構建，在無需標注的情況下可以學習到語義分割、對象檢測等任務中高可用的特征，填補了 SAM 模型在計算機視覺下游任務的空白。

2023 年，DINOv2 發(fā)布并開源，是 DINO 模型的改進版本。它采用了更大規(guī)模的數(shù)據(jù)，強調訓練穩(wěn)定性和通用性，支持線性分類、深度估計、圖像檢索等下游任務，效果逼近或超越弱監(jiān)督方法。

DINOv2 不僅被 Meta 用作 ImageBind 等多模態(tài)模型的視覺表征基礎，也在各類視覺相關研究工作中作為經(jīng)典模型廣泛使用。

DINOv2 數(shù)據(jù)處理管線圖

雖然 DINOv2 已經(jīng)存在兩年之久，它仍然是 CV 領域最優(yōu)秀的前沿圖像模型之一，具有完善可擴展的 ViT 結構，但遺憾就遺憾在訓練數(shù)據(jù)量不夠大，在高分辨率圖像密集特征的任務中仍不夠理想。

今天，DINOv2 的兩大遺憾徹底被補足了。Meta 正式推出并開源了 DINOv3，一款通用的、SOTA 級的視覺基礎模型，同樣采用了自監(jiān)督學習訓練，能夠生成更高質量的高分辨率視覺特征。

DINOv3 首次實現(xiàn)：一個單一的凍結視覺骨干網(wǎng)絡在多個長期存在的密集預測任務（如目標檢測和語義分割）中超越了專業(yè)解決方案。

DINOv3 取得突破性性能的核心在于其創(chuàng)新的自監(jiān)督學習技術，這些技術徹底擺脫了對標注數(shù)據(jù)的依賴，大幅降低了訓練所需的時間與資源，使得訓練數(shù)據(jù)擴展至 17 億張圖像，模型參數(shù)規(guī)模擴展至 70 億。這種無標簽方法適用于標簽稀缺、標注成本高昂甚至不可能獲取標注的應用場景。

從 DINO、DINO v2 到 DINOv3。

Meta 表示，其正以商業(yè)許可方式開源 DINOv3 的一整套骨干網(wǎng)絡，其中包括基于 MAXAR 衛(wèi)星圖像訓練的衛(wèi)星圖像骨干網(wǎng)絡。同時，Meta 還開放了部分下游任務的評估頭（task head），以便社區(qū)復現(xiàn)其結果并在此基礎上拓展研究。此外還提供了示例筆記本，幫助開發(fā)者快速上手，立即開始構建基于 DINOv3 的應用。

對于 Meta 此次的新模型，網(wǎng)友調侃道，「我還以為 Meta 已經(jīng)不行了，終于又搞出了點新東西?！?/span>

自監(jiān)督學習模型的全新里程碑

DINOv3 實現(xiàn)了一個新的里程碑：首次證明自監(jiān)督學習（SSL）模型在廣泛任務上能夠超越弱監(jiān)督模型。盡管前代 DINO 模型已在語義分割、單目深度估計等密集預測任務中取得顯著領先，DINOv3 的表現(xiàn)更勝一籌。

DINOv3 在多個圖像分類基準上達到了與最新強大模型（如 SigLIP 2 和 Perception Encoder）相當或更優(yōu)的性能，同時在密集預測任務中顯著擴大了性能差距。

DINOv3 基于突破性的 DINO 算法構建而成，無需任何元數(shù)據(jù)輸入，所需訓練計算量僅為以往方法的一小部分，卻依然能夠產出表現(xiàn)卓越的視覺基礎模型。

DINOv3 中引入的一系列新改進，包括全新的 Gram Anchoring 策略，有效緩解了密集特征的坍縮問題，相比 DINOv2 擁有更出色、更加干凈的高分辨率密集特征圖；引入了旋轉位置編碼 RoPE，避免了固定位置編碼的限制，能夠天然適應不同分辨率的輸入等。

這些新的改進使其在多個高競爭性的下游任務中（如目標檢測）取得了當前 SOTA 性能，即使在「凍結權重」這一嚴苛限制條件下也是如此。這意味著研究人員和開發(fā)者無需對模型進行針對性的微調，從而大大提高了模型在更廣泛場景中的可用性和應用效率。

從數(shù)據(jù)整理（無標簽原始圖像、平衡的圖像數(shù)據(jù)）、預訓練（大規(guī)模自監(jiān)督學習模型）、Gram Anchoring（改進的局部特征）、高分辨率微調（適用于高分辨率推理）和模型蒸餾（涵蓋多種模型規(guī)模）。

DINOv3 作為通用視覺特征提取器的工作流程，以及它在不同下游任務中的應用方式。

高分辨率、密集特征與高精度

DINOv3 的一大亮點，是相比于已有模型在高分辨率圖像以及密集圖像特征上的進步，顯著改善了 DINOv2 時期的痛點。

比如說這張圖，是一張分辨率為 4096×4096 的水果攤圖像。要從這里找出某種特定的水果，就算是肉眼看都有點暈…

而 Meta 可視化了 DINOv3 輸出特征所生成的余弦相似度圖，展示了圖像中某個被紅色叉標記的 patch 與所有其他 patch 之間的相似度關系。

放大看看，是不是還挺準確的？

關于密集特征部分，Meta 通過以下方式可視化 DINOv3 的密集特征：對其特征空間執(zhí)行主成分分析（PCA），然后將前三個主成分映射為 RGB 顏色通道。為使 PCA 聚焦于主體區(qū)域，Meta 對特征圖進行了背景剔除處理。

隨著圖像分辨率的提升，DINOv3 能夠生成清晰銳利且語義一致的特征圖。

Meta 稱，盡管自監(jiān)督學習出現(xiàn)較晚，但其發(fā)展迅速，如今已追趕上近年來 ImageNet 上的精度上限。

可擴展、高效且無需微調

DINOv3 是在其前代 DINOv2 的基礎上構建的，模型規(guī)模擴大了 7 倍，訓練數(shù)據(jù)集擴大了 12 倍。為展現(xiàn)模型的通用性，Meta 在 15 個不同的視覺任務和超過 60 個基準測試上進行了評估。DINOv3 的視覺骨干模型在所有密集預測任務中表現(xiàn)尤為出色，展現(xiàn)出對場景布局與物理結構的深刻理解能力。

視頻目標分割與跟蹤評估結果

分割與跟蹤示例

模型輸出的豐富密集特征，能夠捕捉圖像中每一個像素的可量化屬性或特征，并以浮點數(shù)向量的形式表示。這些特征能夠將物體解析為更細粒度的組成部分，甚至能在不同實例和類別間進行泛化。

憑借這種強大的密集表示能力，Meta 可以在 DINOv3 上方僅用極少的標注訓練輕量化的適配器 —— 只需少量標注和一個線性模型，就能獲得穩(wěn)健的密集預測結果。

進一步地，結合更復雜的解碼器，Meta 展示了：無需對骨干網(wǎng)絡進行微調，也能在長期存在的核心視覺任務上取得最先進的性能，包括目標檢測、語義分割和相對深度估計。

由于在無需微調骨干網(wǎng)絡的前提下也能實現(xiàn) SOTA（最先進）性能，單次前向傳播就可以同時服務多個任務，從而顯著降低推理成本。這一點對邊緣應用場景尤為關鍵，這些場景往往需要同時執(zhí)行多項視覺預測任務。

易于部署的系列模型

將 DINOv3 擴展至 70 億參數(shù)規(guī)模，展現(xiàn)了自監(jiān)督學習（SSL）的全部潛力。然而，對于許多下游應用而言，70 億參數(shù)的模型并不現(xiàn)實?；谏鐓^(qū)反饋，Meta 構建了一個涵蓋不同推理計算需求的模型家族，以便支持研究人員和開發(fā)者在各種使用場景中進行部署。

通過將 ViT-7B 模型進行蒸餾，Meta 得到了一系列更小但性能依舊出色的模型變體，如 ViT-B 和 ViT-L，使得 DINOv3 在多個評估任務中全面超越了同類的基于 CLIP 的模型。

此外，Meta 還推出了一系列蒸餾自 ViT-7B 的 ConvNeXt 架構模型（T、S、B、L 版本），它們能夠滿足不同的計算資源約束需求。與此同時，Meta 也將完整的蒸餾流程管線開源，以便社區(qū)在此基礎上進一步開發(fā)與創(chuàng)新。

Meta「改變世界」的嘗試

Meta 稱，DINOv2 已經(jīng)通過利用大量未標注數(shù)據(jù)，為組織在組織病理學、內窺鏡檢查和醫(yī)學影像等領域的診斷和研究工作提供支持。

在衛(wèi)星與航空影像領域，數(shù)據(jù)體量龐大且結構復雜，人工標注幾乎不可行。借助 DINOv3，Meta 使這些高價值數(shù)據(jù)集能夠用于訓練統(tǒng)一的視覺骨干模型，進而可廣泛應用于環(huán)境監(jiān)測、城市規(guī)劃和災害響應等領域。

DINOv3 的通用性與高效性使其成為此類部署的理想選擇 —— 正如 NASA 噴氣推進實驗室（JPL）所展示的那樣，其已經(jīng)在使用 DINOv2 構建火星探索機器人，實現(xiàn)多個視覺任務的輕量執(zhí)行。

DINOv3 已經(jīng)開始在現(xiàn)實世界中產生實際影響。世界資源研究所（WRI）正在使用 DINOv3 分析衛(wèi)星圖像，檢測森林損失和土地利用變化。DINOv3 帶來的精度提升使其能夠自動化氣候金融支付流程，通過更精確地驗證修復成果來降低交易成本、加速資金發(fā)放，特別是支持小型本地組織。

例如，與 DINOv2 相比，DINOv3 在使用衛(wèi)星與航空影像進行訓練后，將肯尼亞某地區(qū)樹冠高度測量的平均誤差從 4.1 米降低至 1.2 米。這使得 WRI 能夠更高效地擴大對數(shù)千名農戶與自然保護項目的支持規(guī)模。

想要了解更多 DINOv3 細節(jié)的讀者，請移步原論文。

論文地址：https://ai.meta.com/research/publications/dinov3/
Hugging Face 地址：https://huggingface.co/docs/transformers/main/en/model_doc/dinov3
博客地址：https://ai.meta.com/blog/dinov3-self-supervised-vision-model/

責任編輯：張燕妮來源：機器之心

AI 模型訓練

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<strike id="rqqi8"></strike>

<u id="rqqi8"></u>

<em id="rqqi8"><ul id="rqqi8"></ul></em>