偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<li id="0cdu7"><option id="0cdu7"><del id="0cdu7"></del></option></li>

<meter id="0cdu7"></meter>

<big id="0cdu7"><tbody id="0cdu7"></tbody></big>

<ul id="0cdu7"><acronym id="0cdu7"></acronym></ul>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

超越Y(jié)OLOv10/11、RT-DETRv2/3！中科大D-FINE重新定義邊界框回歸任務(wù)

作者：機(jī)器之心 2024-10-29 15:45:00

人工智能新聞

D-FINE 的出現(xiàn)，為目標(biāo)檢測帶來了全新的思路。通過引入 FDR 和 GO-LSD，D-FINE 重新定義了目標(biāo)檢測中的邊界框回歸任務(wù)。這種創(chuàng)新有望突破當(dāng)前的瓶頸，為實時目標(biāo)檢測領(lǐng)域提供新的發(fā)展方向。

D-FINE 的作者均來自中國科學(xué)技術(shù)大學(xué)。第一作者為中科大在讀博士生彭巖松 (https://scholar.google.com/citations?user=CTidez8AAAAJ&hl=zh-CN)，其研究方向為實時目標(biāo)檢測以及神經(jīng)形態(tài)視覺，已在 AAAI、ICCV、CVPR 等國際頂級會議上以第一作者身份發(fā)表多篇論文。本文由吳楓教授、孫曉艷教授和張越一副研究員共同指導(dǎo)，其他作者包括中科大博士生李和倍及碩士生吳沛熹。

引言

在當(dāng)前內(nèi)卷嚴(yán)重的實時目標(biāo)檢測 (Real-time Object Detection) 領(lǐng)域，性能與效率始終是難以平衡的核心問題。絕大多數(shù)現(xiàn)有的 SOTA 方法僅依賴于更先進(jìn)的模塊替換或訓(xùn)練策略，導(dǎo)致性能逐漸趨于飽和。

為了打破這一瓶頸，來自中科大的研究團(tuán)隊提出了 D-FINE，重新定義了邊界框回歸任務(wù)。不同于傳統(tǒng)的固定坐標(biāo)預(yù)測，D-FINE 創(chuàng)新了兩種方法：細(xì)粒度分布優(yōu)化 (FDR) 和全局最優(yōu)定位自蒸餾 (GO-LSD)。通過將回歸任務(wù)轉(zhuǎn)化為細(xì)粒度的分布優(yōu)化任務(wù)，D-FINE 不僅顯著簡化了優(yōu)化難度，還能夠更精確地建模每條邊界的不確定性。此外，D-FINE 將定位知識 (Localization Knowledge) 融入到模型輸出，通過高效的自蒸餾策略在各層共享這些知識，因而在不增加額外訓(xùn)練成本的前提下，實現(xiàn)了性能的進(jìn)一步顯著提升。

論文標(biāo)題: D-FINE: Redefine Regression Task of DETRs as Fine-grained Distribution Refinement
論文地址: https://arxiv.org/abs/2410.13842
項目地址: https://github.com/Peterande/D-FINE

憑借這些創(chuàng)新，D-FINE 在 COCO 數(shù)據(jù)集上以 78 FPS 的速度取得了 59.3% 的平均精度 (AP)，遠(yuǎn)超 YOLOv10、YOLO11、RT-DETR v1/v2/v3 及 LW-DETR 等競爭對手，成為實時目標(biāo)檢測領(lǐng)域新的領(lǐng)跑者。目前，D-FINE 的所有代碼、權(quán)重以及工具已開源，包含了詳細(xì)的預(yù)訓(xùn)練教程和自定義數(shù)據(jù)集處理指南。

研究團(tuán)隊分別使用 D-FINE 和 YOLO11 對 YouTube 上的一段復(fù)雜街景視頻進(jìn)行了目標(biāo)檢測。盡管存在逆光、虛化模糊和密集遮擋等不利因素，D-FINE-X 依然成功檢測出幾乎所有目標(biāo)，包括背包、自行車和信號燈等難以察覺的小目標(biāo)，其置信度、以及模糊邊緣的定位準(zhǔn)確度明顯高于 YOLO11x。

細(xì)粒度分布優(yōu)化 (FDR)

FDR (Fine-grained Distribution Refinement) 將檢測框的生成過程分解為：

1. 初始框預(yù)測：與傳統(tǒng) DETR 方法類似，D-FINE 的解碼器會在第一層將 Object Queries 轉(zhuǎn)換為若干個初始邊界框。這些邊界框只用于初始化，不需要特別精確。

2. 細(xì)粒度的分布優(yōu)化：與傳統(tǒng)方法不同，D-FINE 的解碼層不會直接預(yù)測新的邊界框，而是基于初始邊界框生成四組概率分布，并通過逐層優(yōu)化對其進(jìn)行調(diào)整。這些概率分布本質(zhì)上是檢測框的一種「細(xì)粒度中間表征」。D-FINE 可以通過微調(diào)這些表征，不同幅度地獨(dú)立調(diào)整各邊緣。

具體流程如圖所示：

將邊界框回歸任務(wù)重新定義為 FDR 有以下優(yōu)點(diǎn)：

1. 過程簡化：在傳統(tǒng) L1 損失和 IoU 損失進(jìn)行優(yōu)化的基礎(chǔ)上，模型還通過標(biāo)簽和預(yù)測結(jié)果之間的「殘差」進(jìn)一步約束這些中間態(tài)的概率分布。這使得每個解碼層能夠更有效地關(guān)注當(dāng)前的定位誤差。隨著層數(shù)增加，優(yōu)化的目標(biāo)變得更加簡單，從而簡化了整體的優(yōu)化過程。

2. 對復(fù)雜場景的魯棒性更強(qiáng)：FDR 中概率的高低本質(zhì)上反應(yīng)了模型對邊界微調(diào)的自信程度。這使得 D-FINE 能夠在不同網(wǎng)絡(luò)深度下對每條邊的不確定性獨(dú)立建模，從而使模型真正地理解定位的好壞。在遮擋、運(yùn)動模糊和低光照等復(fù)雜的實際場景下，D-FINE 表現(xiàn)出了更強(qiáng)的魯棒性，相比直接回歸四個固定值的方法要更為穩(wěn)健。

3. 靈活的優(yōu)化機(jī)制：D-FINE 通過加權(quán)求和將概率分布轉(zhuǎn)化為最終的邊界框偏移值。指數(shù)型加權(quán)函數(shù) W (n) 保證了能夠在初始框準(zhǔn)確時進(jìn)行細(xì)微調(diào)整，在必要時提供大幅度修正。

4. 可擴(kuò)展性：FDR 通過將回歸任務(wù)定義為同分類任務(wù)一致的概率分布預(yù)測問題，這使得目標(biāo)檢測模型可以更好地受益于知識蒸餾、多任務(wù)學(xué)習(xí)和分布優(yōu)化等更多領(lǐng)域的創(chuàng)新，從而更有效地適應(yīng)和整合新的技術(shù)，突破傳統(tǒng)方法的局限。

全局最優(yōu)定位自蒸餾機(jī)制 GO-LSD

GO-LSD (Global Optimal Localization Self-Distillation) 可以將知識蒸餾無痛應(yīng)用到 FDR 框架檢測器。

基于 FDR 框架的目標(biāo)檢測器既可以實現(xiàn)知識傳遞，又可以保持一致的優(yōu)化目標(biāo)。

新任諾貝爾物理學(xué)獎得主 Geoffrey Hinton 在《Distilling the Knowledge in a Neural Network》一文中提到：概率即「知識」。FDR 將概率分布變成了網(wǎng)絡(luò)輸出，并搭載了定位知識 (Localization Knowledge)。因此，僅計算 KL 散度損失就能將這些「知識」從深層傳遞到淺層。由于 FDR 架構(gòu)中每一個解碼層都共享一個共同目標(biāo)，即減少初始邊界框與真實邊界框之間的殘差。因此最后一層生成的精確概率分布可以作為前面每一層的最終目標(biāo)，并通過蒸餾引導(dǎo)前幾層。

由于 FDR 架構(gòu)中每一個解碼層都共享一個共同目標(biāo)：減少初始邊界框與真實邊界框之間的殘差；因此最后一層生成的精確概率分布可以作為前面每一層的最終目標(biāo)，并通過蒸餾引導(dǎo)前幾層。

研究團(tuán)隊在 FDR 的框架上進(jìn)一步提出了全局最優(yōu)定位自蒸餾 GO-LSD，在網(wǎng)絡(luò)層間實現(xiàn)了定位知識蒸餾，進(jìn)一步擴(kuò)展了 D-FINE 的能力，具體流程如圖：

FDR 與 GO-LSD 產(chǎn)生了一種雙贏的「合力」：隨著訓(xùn)練的進(jìn)行，最后一層的預(yù)測將變得越來越準(zhǔn)確，其生成的軟標(biāo)簽也能夠更好地幫助前幾層提高預(yù)測準(zhǔn)確性。反過來，前幾層將更快地定位到準(zhǔn)確位置。這相當(dāng)于深層的優(yōu)化任務(wù)得到了簡化，從而進(jìn)一步提高了整體準(zhǔn)確性。

實驗結(jié)果

在 COCO 數(shù)據(jù)集上，D-FINE-L 和 D-FINE-X 分別以 8.07 ms (124 FPS) 和 12.89 ms (78 FPS) 的時延取得了 54.0% 和 55.8% 的 AP，遠(yuǎn)超其余所有實時目標(biāo)檢測器，打敗了 YOLOv10 (53.2%，54.4%)、YOLO11 (53.4%，54.7%) 及 RT-DETRv2 (53.4%，54.6%)。

在 Objects365 上進(jìn)行了簡單的有監(jiān)督預(yù)訓(xùn)練后，D-FINE 的準(zhǔn)確率達(dá)到了 59.3% AP。在 paperwithcode 網(wǎng)站的 Real-Time Object Detection on MS COCO benchmark 上，D-FINE 的速度和性能都遠(yuǎn)超其他方法，取得了 Top1 的成績。

相比 baseline RT-DETR，D-FINE-L 和 D-FINE-X 大幅降低了參數(shù)量和計算復(fù)雜度。在推理速度顯著提升的同時，分別取得了 1.8% 和 3.2% 的顯著性能提升。

更輕量化的 D-FINE-S 和 D-FINE-M 在 T4 GPU 上分別以 3.49 ms (287 FPS) 和 5.62 ms (178 FPS) 的時延下取得了 48.5% 和 52.3% 的 AP，超過 YOLOv10 (46.3%，51.1%)、YOLO11 (46.6%，51.2%) 及 RT-DETRv2 (48.1%，49.9%)。預(yù)訓(xùn)練后，D-FINE-S 和 D-FINE-M 分別取得了 50.7% 和 55.1% 的 AP。

雖然 FDR 和 GO-LSD 能夠顯著提高性能，但不會直接讓網(wǎng)絡(luò)更快或更輕。為了解決這個問題，研究團(tuán)隊對 DETR 架構(gòu)進(jìn)行了輕量化處理。這些調(diào)整不可避免地讓性能有所下降，但 D-FINE 方法最終實現(xiàn)了速度、參數(shù)、計算量與性能的平衡。下表展示了從 baseline 到 D-FINE 的逐步修改過程。每一步都含展示了模型在 AP 、參數(shù)量、時延以及 FLOPs 上的變化。

研究團(tuán)隊對一系列非實時的 DETR 檢測模型應(yīng)用了 FDR 和 GO-LSD。實驗證明，在幾乎沒有額外參數(shù)量和算力的情況下，最高提升了 5.3% 的 AP，證明了方法的魯棒性和泛化性。

根據(jù)消融實驗，含有 FDR 的檢測器和原始檢測器在速度、參數(shù)量和計算復(fù)雜度上幾乎沒有區(qū)別，可以實現(xiàn)無縫替換。

研究團(tuán)隊分析了訓(xùn)練成本，發(fā)現(xiàn)額外的時間和顯存消耗主要來自生成用于監(jiān)督分布的 FGL Loss 標(biāo)簽。通過對 D-FINE 進(jìn)行的進(jìn)一步優(yōu)化，這些額外的訓(xùn)練時間和顯存占用被控制在 6% 和 2% 以內(nèi)，對整體影響很小。

D-FINE 預(yù)測的可視化

以下是 D-FINE 在各種復(fù)雜檢測場景中的預(yù)測結(jié)果。這些場景包括遮擋、低光照、運(yùn)動模糊、景深效果和密集場景?？梢钥闯觯鎸@些具有挑戰(zhàn)性的場景，D-FINE 能夠產(chǎn)生準(zhǔn)確的定位結(jié)果。

下圖展示了第一層和最后一層的預(yù)測結(jié)果、對應(yīng)四條邊的分布、以及加權(quán)后的分布?？梢钥闯?，預(yù)測框的定位會隨著分布的優(yōu)化而變得更加精準(zhǔn)。

總結(jié)和局限

D-FINE 將邊界框回歸轉(zhuǎn)化為逐層優(yōu)化的概率分布預(yù)測，顯著提升了模型在多任務(wù)場景中的兼容性。D-FINE 為目標(biāo)檢測模型的設(shè)計提供了一條新思路，后續(xù)可以考慮進(jìn)一步挖掘 D-FINE 在跨任務(wù)學(xué)習(xí)和模型輕量化方面的潛力。

D-FINE 也有一些局限：相比于大模型， D-FINE 的輕量化版本對于性能提升不太明顯。這可能是因為淺層解碼器的預(yù)測精度不高，無法有效將定位信息傳遞給前幾層。

未來的研究可以考慮在提高輕量化模型定位能力的同時，避免增加推理延遲。一種思路是繼續(xù)改進(jìn)架構(gòu)設(shè)計，嘗試在訓(xùn)練時引入額外的異構(gòu)解碼層，在推理時丟棄這些層，保持模型的輕量化。如果訓(xùn)練資源足夠，還可以直接用大模型對小模型進(jìn)行蒸餾，而不是依賴自蒸餾。

思考和展望

2024 年，實時目標(biāo)檢測領(lǐng)域經(jīng)歷了多次版本迭代，YOLO 系列先后推出了 YOLOv9、YOLOv10，以及 YOLO11。而 DETR 系列則在 RT-DETR 之后，陸續(xù)推出了 LW-DETR、RT-DETRv2 和 RT-DETRv3。

這兩類模型的重要突破，實質(zhì)上得益于相互借鑒和融合。RT-DETR 引入了 YOLO 的 RepNCSP 模塊，以替代冗余的多尺度自注意力層，通過重新設(shè)計輕量化的混合編碼器，實現(xiàn)了實時 DETR；而 YOLOv10 借鑒了 DETR 的匹配策略，通過訓(xùn)練額外的一對一檢測頭，對密集 anchor 預(yù)測進(jìn)行自動篩選，避免了 NMS 后處理，顯著提升了速度。此外，YOLOv10 和 YOLO11 也引入了自注意力機(jī)制，進(jìn)一步增強(qiáng)了大尺度目標(biāo)的檢測性能。

盡管這些改進(jìn)取得了顯著的效果，但社區(qū)對未來的發(fā)展方向產(chǎn)生了疑問：在兩類模型趨于一致的背景下，實時目標(biāo)檢測的下一步將如何發(fā)展？可以預(yù)見，在目標(biāo)檢測這一競爭激烈的領(lǐng)域，繼續(xù)進(jìn)行模塊替換的收益將逐漸減少，可能很快遇到瓶頸。

而基于傳統(tǒng)框架的訓(xùn)練策略改進(jìn)，或許對一些舊的網(wǎng)絡(luò)（如常用的 Deformable DETR）有效，但應(yīng)用于最新的 SOTA 網(wǎng)絡(luò)時，往往難以取得明顯的提升，甚至可能產(chǎn)生負(fù)面影響。特別是對于計算資源有限的小型團(tuán)隊，即使是精妙的訓(xùn)練策略，若缺乏大規(guī)模的超參數(shù)搜索，也難以取得預(yù)期的效果。

D-FINE 的出現(xiàn)，為目標(biāo)檢測帶來了全新的思路。通過引入 FDR 和 GO-LSD，D-FINE 重新定義了目標(biāo)檢測中的邊界框回歸任務(wù)。這種創(chuàng)新有望突破當(dāng)前的瓶頸，為實時目標(biāo)檢測領(lǐng)域提供新的發(fā)展方向。

責(zé)任編輯：張燕妮來源：機(jī)器之心

目標(biāo)檢測模型

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<dfn id="rbsv0"></dfn>