目標(biāo)檢測(cè)新SOTA,端側(cè)實(shí)時(shí)識(shí)別,沈向洋罕見(jiàn)轉(zhuǎn)發(fā)點(diǎn)贊
目標(biāo)檢測(cè)領(lǐng)域,迎來(lái)了新進(jìn)展——
Grounding DINO 1.5,IDEA研究院團(tuán)隊(duì)出品,在端側(cè)就可實(shí)現(xiàn)實(shí)時(shí)識(shí)別。
這一進(jìn)展獲得AI大佬沈向洋轉(zhuǎn)發(fā),他一般都是一年一轉(zhuǎn)的節(jié)奏。
此次發(fā)布主要有兩個(gè)版本:Pro和Edge。Pro版更強(qiáng),Edge版更快。
它仍然保留了上一個(gè)版本Grounding DINO雙編碼器-單解碼器結(jié)構(gòu),在此基礎(chǔ)上通過(guò)結(jié)合更大的視覺(jué) backbone 擴(kuò)大模型尺寸,并使用超過(guò)2000萬(wàn)的Grounding 數(shù)據(jù)獲得了豐富的語(yǔ)料,大幅提升了檢測(cè)精度和速度,且通過(guò)Pro和Edge版本分別針對(duì)不同應(yīng)用場(chǎng)景進(jìn)行了優(yōu)化。
Pro版本在大規(guī)模數(shù)據(jù)集構(gòu)建和高精度需求場(chǎng)景中表現(xiàn)卓越,而Edge版本則在端側(cè)部署中展示了其獨(dú)特的優(yōu)勢(shì)。
這就來(lái)分別看一看。
Pro版目標(biāo)檢測(cè)新SOTA
Grounding DINO 1.5 Pro版本實(shí)現(xiàn)了當(dāng)前開(kāi)集目標(biāo)檢測(cè)SOTA水平,在圖像和文本的語(yǔ)義理解上表現(xiàn)出色,能夠快速、準(zhǔn)確地根據(jù)語(yǔ)言提示檢測(cè)和識(shí)別圖像中的目標(biāo)對(duì)象。
△在COCO、LVIS、ODinW35和ODinW13基準(zhǔn)測(cè)試中的零樣本遷移性能對(duì)比
物體級(jí)別理解是機(jī)器和物理世界交互的感知基礎(chǔ),也是解決多模態(tài)大模型(VLM)幻覺(jué)問(wèn)題繞不過(guò)去的基礎(chǔ)問(wèn)題。
作為當(dāng)前性能最好的開(kāi)集檢測(cè)模型,Grounding DINO 1.5 Pro 可以幫助構(gòu)建海量的具有物體級(jí)別語(yǔ)義信息的多模態(tài)數(shù)據(jù),從而有效地助力多模態(tài)大模型的訓(xùn)練。
它可以將長(zhǎng)文本描述中的短語(yǔ)與圖像中的具體對(duì)象或場(chǎng)景精確匹配,以增強(qiáng)AI對(duì)視覺(jué)內(nèi)容和文本之間關(guān)系的理解
另外,在其他需要處理大量復(fù)雜數(shù)據(jù)的領(lǐng)域,如電商、社交媒體和自動(dòng)駕駛等,Grounding DINO 1.5 Pro 也具有強(qiáng)大應(yīng)用價(jià)值。
例如,在電商領(lǐng)域,該模型可以幫助快速標(biāo)注商品圖像,優(yōu)化搜索和推薦系統(tǒng)。在社交媒體中,該模型能自動(dòng)標(biāo)注用戶上傳的圖片,提升內(nèi)容審核和分類的效率。
支持行業(yè)數(shù)據(jù)微調(diào)
除此之外,Pro版還支持通過(guò)行業(yè)數(shù)據(jù)進(jìn)行微調(diào)(fine tuning),以滿足各行業(yè)的特定需求,從而達(dá)到更加精準(zhǔn)的識(shí)別效果。
為了驗(yàn)證微調(diào)帶來(lái)的提升,CVR團(tuán)隊(duì)在視覺(jué)領(lǐng)域通用的LVIS等公開(kāi)數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn)。
從最后兩行可看出,Grounding DINO 1.5 Pro經(jīng)過(guò)微調(diào),在多個(gè)數(shù)據(jù)集上都展現(xiàn)出大幅的性能提升。
而在多個(gè)實(shí)際場(chǎng)景,也十分適配。
像在醫(yī)療領(lǐng)域,通過(guò)微調(diào)后的Grounding DINO 1.5 Pro可以更準(zhǔn)確地識(shí)別醫(yī)療影像中的病灶,輔助醫(yī)生進(jìn)行診斷,提高診療效率。
在零售行業(yè),微調(diào)后的模型能更精準(zhǔn)地識(shí)別和分類商品,有助于庫(kù)存管理和銷售分析。
Edge版端側(cè)可部署
在端側(cè)部署方面,Grounding DINO 1.5 Edge版本通過(guò)模型結(jié)構(gòu)優(yōu)化,成功部署在NVIDIA Orin NX卡上,并實(shí)現(xiàn)了10FPS的推理速度。
再者,它可以讓機(jī)器人和開(kāi)放環(huán)境進(jìn)行交互。
在自動(dòng)駕駛領(lǐng)域,Grounding DINO 1.5 Edge未來(lái)可以在車輛上實(shí)時(shí)運(yùn)行,實(shí)現(xiàn)高效的目標(biāo)檢測(cè)和環(huán)境感知,提高駕駛安全性。在智能安防中,該模型能快速處理視頻監(jiān)控?cái)?shù)據(jù),實(shí)時(shí)檢測(cè)異常行為,提升安全監(jiān)控的響應(yīng)速度。
未來(lái),Grounding DINO 1.5 Edge的運(yùn)行速度有望提升至20到30FPS,進(jìn)一步擴(kuò)大其在邊緣計(jì)算領(lǐng)域的應(yīng)用范圍。
論文鏈接:
https://arxiv.org/abs/2405.10300
項(xiàng)目試玩鏈接:
https://deepdataspace.com/playground/grounding_dino