偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

YOLO已經(jīng)悄悄來到v12,首個以Attention為核心的YOLO框架問世

人工智能 新聞
YOLO 系列模型的結構創(chuàng)新一直圍繞 CNN 展開,而讓 transformer 具有統(tǒng)治優(yōu)勢的 attention 機制一直不是 YOLO 系列網(wǎng)絡結構改進的重點。

本文由紐約州立大學布法羅分校的田運杰,David Doermann和中國科學院大學的葉齊祥合作完成。田運杰是布法羅大學博士后,David Doermann是布法羅大學教授、IEEE Fellow, 葉齊祥是中國科學院大學教授。三位作者長期從事計算機視覺、機器感知等方向的研究。

YOLO 系列模型的結構創(chuàng)新一直圍繞 CNN 展開,而讓 transformer 具有統(tǒng)治優(yōu)勢的 attention 機制一直不是 YOLO 系列網(wǎng)絡結構改進的重點。這主要的原因是 attention 機制的速度無法滿足 YOLO 實時性的要求。本周三放出的 YOLOv12 著力改變這一現(xiàn)狀并取得具有優(yōu)勢的性能。

  • 論文標題:YOLOv12: Attention-Centric Real-Time Object Detectors
  • 論文地址:https://arxiv.org/pdf/2502.12524
  • 代碼地址:https://github.com/sunsmarterjie/yolov12

介紹

造成 attention(注意力機制)不能作為核心模塊用于 yolo 框架的主要原因在于其本身的低效性,這主要源于兩個因素:(1)attention 的計算復雜度呈二次增長;(2)attention 的內存訪問操作低效(后者是 FlashAttention 主要解決的問題)。在相同的計算預算下,基于 CNN 的架構比基于 attention 的架構快約 2-3 倍,這極大限制了 attention 在 YOLO 系統(tǒng)中的應用,由于 YOLO 體系高度依賴高推理速度。

首先,作者提出了一種簡單而高效的區(qū)域注意力模塊(area attention, A2),該模塊在保持大感受野的同時,以最簡單直接的方式降低了 attention 的計算復雜度,從而提升了計算速度。

其次,作者引入了殘差高效層聚合網(wǎng)絡(R-ELAN),以解決 attention(主要是大規(guī)模模型)帶來的優(yōu)化難題。

R-ELAN 在原始的基礎上進行了兩項改進:1)block 級殘差設計,結合縮放技術以優(yōu)化梯度流動;2)重新設計的特征聚合方法,以提升模型的優(yōu)化效率。

最后,作者針對 YOLO 體系對 attention 進行了一系列架構改進,優(yōu)化了傳統(tǒng)的 attention 主導架構,包括:1)引入 FlashAttention 以解決注意力機制的顯存訪問問題;2)移除位置編碼等設計,使模型更加高效簡潔;3)調整 MLP ratio(從 4 降至 1.2),以平衡注意力機制和前饋網(wǎng)絡的計算開銷,從而提升整體性能;4)減少堆疊塊的深度,以簡化優(yōu)化過程等。

Area Attention

首先介紹 area attention 機制,其目的在于降低傳統(tǒng) attention 的計算代價,同時克服線性注意力和局部注意力在全局依賴性、穩(wěn)定性及感受野方面的局限性。為此,作者提出了一種簡單高效的區(qū)域注意力(A2)模塊。

不同于局部注意力的顯式窗口劃分,A2 采用最簡單的方式將特征圖劃分為縱向或橫向的區(qū)域(每個區(qū)域大小為,這僅需簡單的 reshape 操作,避免了額外的復雜計算帶來的開銷,從而提升計算效率。

在實驗中,作者將默認分割數(shù)設為 4,使感受野縮小至原來的,仍能覆蓋足夠的信息范圍。在計算復雜度方面,A2 將注意力機制的計算量從  降低至  。盡管仍保持二次復雜度,但在 token 數(shù)量 n 不是特別大的情況下(如 YOLO:640x640),此優(yōu)化方案在實際應用中仍足夠高效,滿足了實時推理的需求。最終,實驗表明,A2 僅對性能產(chǎn)生輕微影響,但顯著提升了計算速度,為 YOLO 等對速度要求極高的任務提供了一種更優(yōu)的注意力機制替代方案。

R-ELAN

R-ELAN 的主要動機是優(yōu)化 ELAN 結構,以提升特征聚合效率并解決其帶來的優(yōu)化不穩(wěn)定性問題,尤其是在引入注意力機制后,參數(shù)量較大的模型(如 YOLOv12-L 和 YOLOv12-X)容易發(fā)生梯度阻塞或收斂困難。為此,作者提出了殘差高效層聚合網(wǎng)絡(R-ELAN)。

與原始 ELAN 不同,R-ELAN 在整個 block 內引入從輸入到輸出的殘差連接,并結合縮放因子(默認 0.01),以穩(wěn)定訓練并優(yōu)化梯度流動。

此外,作者重新設計了特征聚合方式,使其采用瓶頸結構(如上圖所示),通過調整通道維度并簡化計算流程,以減少計算成本和顯存占用,同時保持高效的特征融合能力。最終,R-ELAN 顯著提升了模型的優(yōu)化穩(wěn)定性和計算效率,使 YOLOv12 的大規(guī)模模型能夠更好地收斂,并在保證性能的同時提升推理速度。

結構改進

另外,作者還提出一些優(yōu)化技術,使注意力機制更適應實時目標檢測任務,同時降低計算開銷并提升優(yōu)化穩(wěn)定性。

首先,作者保留了 YOLO 主干網(wǎng)絡的分層設計,不同于很多基于 attention 的架構采用的平鋪結構的視覺 Transformer。

此外,作者減少了主干網(wǎng)絡(Backbone)最后階段的堆疊的 block 數(shù)量,僅保留單個 R-ELAN block,以減少計算量并優(yōu)化訓練收斂性。主干網(wǎng)絡的前兩階段繼承自 YOLOv11,未使用 R-ELAN,以保持輕量級設計。

同時,作者對基礎注意力機制進行了一系列優(yōu)化,包括:調整 MLP ratio(從 4 降至 1.2 或 2)以更合理地分配計算資源,用 Conv2d+BN 替換 Linear+LN 以充分利用卷積算子的計算效率,移除位置編碼并引入 7x7 可分離卷積(Position Perceiver) 以幫助區(qū)域注意力感知位置信息。

最終,這些改進提升了模型的優(yōu)化穩(wěn)定性和計算效率,使其更適用于 YOLO 系統(tǒng),同時保持具有競爭力的性能。

實驗結果

YOLOv12 在 COCO 上取得的效果如下表所示:

  • N-scale 模型:YOLOv12-N 比 YOLOv6-3.0-N、YOLOv8-N、YOLOv10-N 和 YOLOv11-N 分別提升 3.6%、3.3%、2.1%、1.2%,同時計算量和參數(shù)規(guī)模相近或更少,推理速度達到具有競爭力的 1.64 ms / 圖像。
  • S-scale 模型:YOLOv12-S 在 21.4G FLOPs 和 9.3M 參數(shù)的情況下,實現(xiàn) 48.0% mAP,比 YOLOv8-S、YOLOv9-S、YOLOv10-S 和 YOLOv11-S 分別提升 3.0%、1.2%、1.7%、1.1%,計算量相近或更少,并且在推理速度、計算開銷和參數(shù)量方面明顯優(yōu)于 RT-DETR-R18 / RT-DETRv2-R18。
  • M-scale 模型:YOLOv12-M 在 67.5G FLOPs 和 20.2M 參數(shù)的情況下,實現(xiàn) 52.5 mAP,推理速度 4.86 ms / 圖像,在各項指標上均優(yōu)于 Gold-YOLO-M、YOLOv8-M、YOLOv9-M、YOLOv10-M、YOLOv11-M 以及 RT-DETR-R34 / RT-DETRv2-R34。
  • L-scale 模型:YOLOv12-L 相較于 YOLOv10-L,減少了 31.4G FLOPs 的計算量,同時 mAP 仍優(yōu)于 YOLOv11-L 達 0.4%,計算量和參數(shù)量相近。此外,YOLOv12-L 在推理速度、FLOPs(減少 34.6%)和參數(shù)量(減少 37.1%)方面均優(yōu)于 RT-DETR-R50 / RT-DETRv2-R50。
  • X-scale 模型:YOLOv12-X 比 YOLOv10-X 和 YOLOv11-X 分別提升 0.8% 和 0.6%,計算量和參數(shù)量相近,推理速度基本持平。同時,相比 RT-DETR-R101 / RT-DETRv2-R101,YOLOv12-X 計算量減少 23.4%,參數(shù)量減少 22.2%,且推理速度更快。

可視化分析

參數(shù)量 / CPU 速度 - 精度的 Trade-offs 比較:YOLOv12 在參數(shù)量和 CPU 推理速度方面上均實現(xiàn)了突破。如上圖所示,實驗結果顯示,YOLOv12 在準確率 - 參數(shù)量平衡方面優(yōu)于現(xiàn)有方法,甚至超越了參數(shù)量更少的 YOLOv10,證明了其高效性。此外,在 CPU(Intel Core i7-10700K @ 3.80GHz)上的推理速度測試中,YOLOv12 在不同 YOLO 版本中展現(xiàn)出最佳的計算效率。

YOLOv12 熱力圖分析:上圖展示了 YOLOv12 與當前最先進的 YOLOv10 和 YOLOv11 的熱力圖對比。這些熱力圖來自 X-scale 模型主干網(wǎng)絡的第三階段,顯示了模型激活的區(qū)域,從而反映其目標感知能力。結果表明,相較于 YOLOv10 和 YOLOv11,YOLOv12 能夠生成更清晰的目標輪廓和更精確的前景激活,說明其目標感知能力得到了提升。這一改進主要歸因于區(qū)域注意力機制(Area Attention),該機制相比卷積網(wǎng)絡具有更大的感受野,因此在捕捉全局上下文信息方面更具優(yōu)勢,從而實現(xiàn)了更精準的前景激活。作者認為,這一特性使 YOLOv12 在檢測性能上占據(jù)優(yōu)勢。

最后,我們期待 YOLO 社區(qū)能繼續(xù)提出更強大的檢測器,為實時目標檢測任務提供更多選擇。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2015-01-27 10:55:37

微軟DirectX 12

2023-10-27 09:47:22

模態(tài)框架

2024-07-30 14:18:12

2024-06-20 13:48:18

2019-01-21 09:52:26

深度學習開源人工智能

2024-07-03 10:46:10

2024-06-19 09:54:58

2023-11-20 09:47:14

自動駕駛視覺

2024-08-20 09:30:00

2020-04-24 14:02:56

YOLO項目AI

2010-11-08 11:49:54

2023-10-07 08:12:05

DAMO-YOLO算法

2023-04-26 08:24:46

DAMO-YOLO算法

2021-06-28 12:01:01

預訓練模型

2012-04-29 10:56:34

APP

2024-10-09 17:02:34

2019-08-01 15:34:24

機器人人工智能系統(tǒng)

2021-01-04 13:50:31

BI商業(yè)智能永洪科技

2023-11-15 17:48:04

Yolo V8人工智能

2023-06-08 11:30:45

點贊
收藏

51CTO技術棧公眾號