英偉達(dá)華人硬核AI神器,「描述一切」秒變細(xì)節(jié)狂魔!僅3B逆襲GPT-4o
有了AI,誰(shuí)還愿意用手配「字幕」?
剛剛,英偉達(dá)聯(lián)手UC伯克利、UCSF團(tuán)隊(duì)祭出首個(gè)神級(jí)多模態(tài)模型——Describe Anything Model(DAM),僅3B參數(shù)。
論文地址:https://arxiv.org/pdf/2504.16072
正如其名Describe Anything,上傳一張圖,圈哪點(diǎn)哪,它即可生成一段豐富的文字描述。
即便是一段視頻,DAM也能精準(zhǔn)捕捉到白色SUV,給出詳細(xì)的描述。
DAM是一個(gè)專(zhuān)為詳細(xì)局部標(biāo)注(DLC)而設(shè)計(jì)的模型,即為特定區(qū)域生成詳細(xì)且精確的描述。
通過(guò)兩大創(chuàng)新,研究人員在細(xì)節(jié)與上下文之間找到平衡:
· 焦點(diǎn)提示:對(duì)目標(biāo)區(qū)域進(jìn)行高分辨率編碼,就像給模型配備了一副「放大鏡」,清晰捕捉到局部區(qū)域細(xì)微特征
· 局部視覺(jué)骨干網(wǎng)絡(luò):將精確定位的特定區(qū)域,與上下文無(wú)縫整合
換句話(huà)說(shuō),DAM不僅能放大細(xì)節(jié)看,還能放眼全局看,無(wú)論是靜態(tài)圖,還是動(dòng)態(tài)視頻,都能做到游刃有余。
網(wǎng)友驚嘆道,「終極視覺(jué)AI突破」!
AI用「放大鏡」看世界
在項(xiàng)目主頁(yè)中,英偉達(dá)等研究團(tuán)隊(duì)放出了更多精彩demo。任何人通過(guò)點(diǎn)、框、涂鴉或掩碼的交互,即可一鍵生成描述。
上傳一張柯基在草地上歡快奔跑的圖,選中柯基,讓DAM去描述:
一只中等體型的狗,擁有濃密的紅棕色毛發(fā),腹部和腿部為白色。這只狗尾巴蓬松,耳朵尖立,戴著帶有銀色吊牌的紅色項(xiàng)圈。它張著嘴露出牙齒,舌頭伸在外面。狗呈奔跑姿勢(shì),前腿向前伸展,后腿向后伸直。
一只被擠到犄角旮旯的貓星人,DAM是這樣配文的,「一只白貓,耳朵呈淺橙色,鼻子是粉色的。貓咪表情放松,眼睛微微閉著,全身覆蓋著柔軟的白毛」。
再比如,隨手涂鴉一棟高樓,DAM可以不斷放大細(xì)節(jié),給出這幢樓更細(xì)致的描述:
一座現(xiàn)代風(fēng)格的摩天大樓,采用流線型矩形設(shè)計(jì),外立面排列著間距均勻的豎向條形窗。建筑呈階梯式結(jié)構(gòu),每一層段都比下層略微內(nèi)縮,形成錯(cuò)落有致的退臺(tái)造型。建筑幕墻主要由反光玻璃面板構(gòu)成,整體呈現(xiàn)出極具現(xiàn)代感的拋光效果。
甚至,DAM看著視頻中的一頭牛,就能直出一篇經(jīng)典「小作文」:
一幅描繪棕褐色奶牛的動(dòng)態(tài)序列圖:這頭毛色濃密的奶牛臀部帶有淺色斑塊,初始畫(huà)面中它微微低頭,透著安詳?shù)纳駪B(tài)。隨著動(dòng)作展開(kāi),奶牛開(kāi)始穩(wěn)步前行,四肢舒展著節(jié)奏分明的步態(tài),尾梢的簇毛隨每一步輕擺,為行進(jìn)增添流暢韻律。它始終保持挺拔的站姿,略微弓起的背部線條透出放松狀態(tài),肌肉結(jié)實(shí)的腿部穩(wěn)健地向前邁進(jìn)。整個(gè)運(yùn)動(dòng)過(guò)程中,奶牛保持著均勻從容的步調(diào),每一個(gè)動(dòng)作都流暢而不迫,展現(xiàn)出寧?kù)o自若的生命姿態(tài)。
DAM如此厲害,是如何做到的?
DAM技術(shù)架構(gòu),精準(zhǔn)捕捉細(xì)節(jié)
與傳統(tǒng)圖像描述(概括整個(gè)場(chǎng)景)不同,DLC聚焦于用戶(hù)指定的局部區(qū)域,來(lái)生成細(xì)致入微的描述。
想象一張照片中一只貓,你不僅需要描述「一只貓?jiān)诖芭_(tái)上」,還要深入些幾「貓的毛發(fā)呈現(xiàn)柔軟和灰色條紋,耳朵微微傾斜,眼睛在陽(yáng)光下閃著琥珀色的光芒」。
可以看出,DLC的目標(biāo)是捕捉區(qū)域的紋理、顏色、形狀、顯著部件等特征,同時(shí)也要保持與整體場(chǎng)景關(guān)聯(lián)。
而在視頻領(lǐng)域中,DLC挑戰(zhàn)更大。
模型需要追目標(biāo)區(qū)域在多個(gè)幀中的變化,描述其外觀、交互、和細(xì)微動(dòng)態(tài)的演變。
為了應(yīng)對(duì)DLC復(fù)雜需求,Describe Anything Model引入了兩大核心創(chuàng)新,讓局部細(xì)節(jié)與全局上下文完美平衡。
焦點(diǎn)提示(Focal Prompt)
通過(guò)「焦點(diǎn)提示」機(jī)制,DAM能夠同時(shí)處理全圖和目標(biāo)區(qū)域的放大視圖。
這確保它在捕捉細(xì)微特征同時(shí),不丟失整體場(chǎng)景的背景信息。
局部視覺(jué)骨干網(wǎng)絡(luò)(Localized Vision Backbone)
DAM的視覺(jué)骨干網(wǎng)絡(luò)通過(guò)空間對(duì)齊的圖像和掩碼,融合全局與局部特征。
利用門(mén)控交叉注意力層,模型將詳細(xì)的局部線索與全局上下文無(wú)縫整合。
新參數(shù)初始化為0,保留了預(yù)訓(xùn)練能力,從而生成更豐富、更具上下文關(guān)聯(lián)的描述。
這種架構(gòu)讓DAM在生成關(guān)鍵詞、短語(yǔ),甚至是多句式的復(fù)雜描述時(shí),都能保持高精度和連貫性。
DLC-SDP:破解數(shù)據(jù)瓶頸
要知道,高質(zhì)量的DLC數(shù)據(jù)集極為稀缺,限制了模型的訓(xùn)練。為此,研究團(tuán)隊(duì)設(shè)計(jì)了基于半監(jiān)督學(xué)習(xí)的流水線(DLC-SDP),通過(guò)兩階段策略構(gòu)建大規(guī)模訓(xùn)練數(shù)據(jù)。
階段一,是從分割數(shù)據(jù)集擴(kuò)展。利用現(xiàn)有分割數(shù)據(jù)集短標(biāo)簽(貓),通過(guò)視覺(jué)-語(yǔ)言模型生成豐富的描述(灰色短毛貓,耳朵直立。
階段二,自訓(xùn)練未標(biāo)記的圖像,通過(guò)半監(jiān)督學(xué)習(xí),DAM對(duì)未標(biāo)記的網(wǎng)絡(luò)圖像生成初始描述,并迭代精煉,形成高質(zhì)量的DLC數(shù)據(jù)。
DLC-Bench:重定義評(píng)估標(biāo)準(zhǔn)
那么,如何公平地評(píng)估DLC模型。
傳統(tǒng)方法主要依賴(lài)文本重疊,但這無(wú)法全面反映描述的準(zhǔn)確性和細(xì)節(jié)。
為此,研究團(tuán)隊(duì)提出了全新基準(zhǔn)DLC-Bench。通過(guò)LLM判斷,檢查描述的正確細(xì)節(jié)和錯(cuò)誤缺失,而非簡(jiǎn)單對(duì)比文本。
DAM僅能生成詳細(xì)描述,還具備強(qiáng)大的靈活性和交互性。
指令控制描述
你可以根據(jù)需求調(diào)整描述的詳細(xì)程度和風(fēng)格。
零樣本區(qū)域問(wèn)答
而且,無(wú)需額外訓(xùn)練,DAM就能回答關(guān)于特定區(qū)域的問(wèn)題。
碾壓GPT-4o,刷新SOTA
在DLC-Bench和其他7個(gè)涵蓋圖像與視頻的基準(zhǔn)測(cè)試中,DAM全面超越現(xiàn)有模型,樹(shù)立了新的標(biāo)桿。
如下表2所示,DAM在具有挑戰(zhàn)性的 PACO 基準(zhǔn)測(cè)試中表現(xiàn)出色,創(chuàng)下了89高分。
而在零樣本評(píng)估在短語(yǔ)級(jí)數(shù)據(jù)集Flickr30k Entities上,新模型相比之前的最佳結(jié)果平均相對(duì)提升了7.34%。
此外,零樣本評(píng)估在詳細(xì)描述數(shù)據(jù)Ref-L4 上,DAM在基于短/長(zhǎng)語(yǔ)言的描述指標(biāo)上分別實(shí)現(xiàn)了39.5%和13.1%的平均相對(duì)提升。
在研究人員提出的DLC-Bench測(cè)試中,DAM在詳細(xì)局部描述方面優(yōu)于之前的僅API模型、開(kāi)源模型和特定區(qū)域VLM。
下表6所示,DAM在詳細(xì)局部視頻字幕方面刷新SOTA。
總而言之,DAM的優(yōu)勢(shì)主要有三大點(diǎn):更詳細(xì)、更準(zhǔn)確;更少幻覺(jué);多場(chǎng)景適用。
它的強(qiáng)大能力為眾多應(yīng)用場(chǎng)景打開(kāi)了大門(mén),未來(lái)諸如數(shù)據(jù)標(biāo)注、醫(yī)療影像、內(nèi)容創(chuàng)作等領(lǐng)域,都可以加速落地。
作者介紹
Long (Tony) Lian
Long (Tony) Lian目前是UC伯克利電子工程與計(jì)算機(jī)科學(xué)博士研究生,師從Adam Yala教授和Trevor Darrell教授。
他的研究主要聚焦于,通過(guò)強(qiáng)化學(xué)習(xí)(RL)開(kāi)發(fā)具備推理能力的大模型(LLM)與視覺(jué)語(yǔ)言模型(VLM)。
此前,他曾在英偉達(dá)研究院Deep Imagination Research團(tuán)隊(duì)實(shí)習(xí)。
Long (Tony) Lian本科畢業(yè)于UC伯克利計(jì)算機(jī)科學(xué)專(zhuān)業(yè),師從Stella Yu教授。