偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

不再靠「猜坐標(biāo)」!顏水成團(tuán)隊(duì)等聯(lián)合發(fā)布PaDT多模態(tài)大模型:實(shí)現(xiàn)真正的多模態(tài)表征輸出

人工智能 新聞
新加坡工程院院士、AAAI/ACM/IEEE/IAPR Fellow 顏水成帶隊(duì),攜同華南理工大學(xué)、新加坡科技研究局(A*STAR)I2R 研究所、騰訊 WeChat Vision 等機(jī)構(gòu)的研究團(tuán)隊(duì),提出了一種全新的統(tǒng)一范式 —— Patch-as-Decodable Token(PaDT)。

近年來,多模態(tài)大語言模型(Multimodal Large Language Models, MLLMs)在圖文理解、視覺問答等任務(wù)上取得了令人矚目的進(jìn)展。然而,當(dāng)面對(duì)需要精細(xì)空間感知的任務(wù) —— 比如目標(biāo)檢測(cè)、實(shí)例分割或指代表達(dá)理解時(shí),現(xiàn)有模型卻常?!噶Σ粡男摹埂F涓驹蛟谟冢寒?dāng)前主流 MLLMs 仍依賴將視覺目標(biāo)「翻譯」成文本坐標(biāo)(如 [x1, y1, x2, y2] )的方式進(jìn)行輸出。

這種方式不僅存在格式混亂、解析困難,還容易因數(shù)字被拆分成多個(gè)獨(dú)立文本 token(如 489 -> 4, 8, 9),導(dǎo)致語義丟失、圖文脫節(jié),從而出現(xiàn)重復(fù)生成甚至「幻覺」現(xiàn)象。

針對(duì)這一核心瓶頸,新加坡工程院院士、AAAI/ACM/IEEE/IAPR Fellow 顏水成帶隊(duì),攜同華南理工大學(xué)、新加坡科技研究局(A*STAR)I2R 研究所、騰訊 WeChat Vision 等機(jī)構(gòu)的研究團(tuán)隊(duì),提出了一種全新的統(tǒng)一范式 —— Patch-as-Decodable Token(PaDT)。

PaDT 的核心思想很簡(jiǎn)單但顛覆性:

  1. 把圖像劃分成多個(gè)視覺小塊(patch),并讓模型可以直接生成這些小塊對(duì)應(yīng)的視覺令牌(Visual Reference Tokens, VRTs)。
  2. 在 MLLMs 的輸入和輸出端中,實(shí)現(xiàn)文本令牌與視覺令牌的無縫交替出現(xiàn),讓模型「說」圖像內(nèi)容就像「說」文字一樣自然。
  3. 從而使模型不再「猜坐標(biāo)」,而能在生成句子中直接指出圖像目標(biāo)。

憑借這一設(shè)計(jì),PaDT 在檢測(cè)、分割、指代表達(dá)等任務(wù)上全面刷新 SOTA,甚至以僅 3B 參數(shù)的小模型超越了 78B 的 InternVL3!

  • 論文鏈接:https://huggingface.co/papers/2510.01954
  • 代碼地址:https://github.com/Gorilla-Lab-SCUT/PaDT
  • 模型權(quán)重:https://huggingface.co/PaDT-MLLM
  • PaperScope 解讀:https://www.paperscope.ai/hf/2510.01954

PaDT 的核心思想:從「說坐標(biāo)」到「指圖像」

傳統(tǒng) MLLMs(如 Qwen2.5-VL、InternVL3)在處理視覺任務(wù)時(shí),通常將檢測(cè)框的坐標(biāo)以字符串形式輸出。例如,模型可能會(huì)生成 「 [489, 120, 600, 300] 」。然而,這種做法存在三大痛點(diǎn):

  1. 格式不一致:同一 Prompt 作為輸入,不同樣本可能生成絕對(duì)坐標(biāo)、歸一化坐標(biāo)、甚至非結(jié)構(gòu)化文本格式,極大地增加目標(biāo)解析難度;
  2. 語義斷裂:數(shù)字「489」會(huì)被拆成「4」「8」「9」三個(gè)獨(dú)立 token,破壞了空間連續(xù)性;
  3. 圖文關(guān)聯(lián)弱:坐標(biāo)數(shù)字 token 本身不含語義,難以與圖像內(nèi)容建立深層關(guān)聯(lián),從而容易導(dǎo)致重復(fù)或幻覺生成。

圖 1:(a) 傳統(tǒng)方法輸出格式混亂;(b) Qwen2.5-VL 的 Token Activation Map 顯示坐標(biāo) token 與圖像區(qū)域關(guān)聯(lián)弱;(c) PaDT 的 VRTs 與目標(biāo)區(qū)域高度對(duì)齊;(d) 單個(gè) VRT 的熱力圖顯示其預(yù)測(cè)具有空間連續(xù)性。

PaDT 的突破在于:不再讓模型「描述」位置,而是讓它「指向」圖像中的具體區(qū)域。

具體而言,PaDT 引入了 Visual Reference Tokens(VRTs)—— 這些令牌直接來源于輸入圖像的視覺 patch 嵌入。在每次前向傳播中,模型會(huì)動(dòng)態(tài)地將當(dāng)前圖像的 patch 特征擴(kuò)展進(jìn)文本詞表,形成一個(gè)「圖文一體」的動(dòng)態(tài)嵌入表。這樣,模型在生成過程中,既可以輸出文字(如類別名),也可以插入 VRT(如<VRT_227>),后者直接對(duì)應(yīng)圖像中的某個(gè)局部區(qū)域。

圖 2:PaDT 實(shí)現(xiàn)了文本 token 與視覺 patch token 的統(tǒng)一預(yù)測(cè),使 MLLM 能同時(shí)輸出語義描述與空間定位。

這種設(shè)計(jì)巧妙地避開了傳統(tǒng)方法依賴全局視覺碼本(如 ClawMachine)的缺陷 —— 后者容易混淆相似物體,且可能生成圖像中根本不存在的 patch。而 PaDT 的 VRTs 僅來自當(dāng)前圖像,天然具備唯一性和空間一致性。

輕量解碼器 + 魯棒訓(xùn)練:讓 VRTs 真正「生效」

僅有 VRTs 還不夠,如何將其轉(zhuǎn)化為具體的檢測(cè)框或分割掩碼?PaDT 設(shè)計(jì)了一個(gè)輕量級(jí)的 PaDT Decoder,僅由三個(gè)雙向注意力塊組成。該解碼器接收 LLM 輸出的 VRT 隱藏狀態(tài),通過注入任務(wù)特定的可學(xué)習(xí) token(如 box token、mask token 和 score token),即可統(tǒng)一解碼出 bounding box、segmentation mask 和置信度分?jǐn)?shù)。

更關(guān)鍵的是,PaDT 提出了一套魯棒的訓(xùn)練策略。傳統(tǒng)方法往往要求模型預(yù)測(cè)目標(biāo)區(qū)域內(nèi)的所有前景 patch,但這會(huì)導(dǎo)致訓(xùn)練偏差和過擬合。PaDT 則在每次訓(xùn)練時(shí)隨機(jī)采樣少量(如 5 個(gè))前景 VRTs 作為監(jiān)督信號(hào),并通過一種掩碼交叉熵?fù)p失,動(dòng)態(tài)屏蔽未選中的 VRT logits,從而鼓勵(lì)模型探索多樣化的有效視覺參考。

這種「少而精」的監(jiān)督方式,不僅提升了模型泛化能力,還顯著降低了推理時(shí)的 token 消耗 —— 每個(gè)目標(biāo)僅需 5 個(gè) VRTs,遠(yuǎn)少于逐字符生成坐標(biāo)的開銷。

圖 3:PaDT 整體框架。圖像 patch 特征經(jīng)動(dòng)態(tài)嵌入模塊擴(kuò)展為 VRTs,與文本 token 一同輸入 LLM;輸出序列中的 VRTs 被輕量解碼器轉(zhuǎn)換為結(jié)構(gòu)化視覺結(jié)果。

性能炸裂:3B 模型干翻 78B 巨無霸

PaDT 的實(shí)驗(yàn)結(jié)果堪稱驚艷。在 RefCOCO/+/g 的指代表達(dá)理解(REC)任務(wù)上,PaDT Pro(3B)以 93.6 的平均準(zhǔn)確率,超越了參數(shù)量高達(dá) 78B 的 InternVL3(91.4)。而在指代表達(dá)分割(RES)任務(wù)中,PaDT 同樣大幅領(lǐng)先,即便對(duì)比使用 SAM 等強(qiáng)大分割基礎(chǔ)模型的方法(如 Text4Seg+SAM),依然保持優(yōu)勢(shì)。

更令人震撼的是在 COCO 開放詞匯檢測(cè)任務(wù)上的表現(xiàn)。傳統(tǒng) MLLMs 在此任務(wù)上 mAP 普遍低于 20,而 PaDT Pro(3B)一舉將 mAP 推高至 38.2,幾乎翻倍! 7B 版本更是達(dá)到 39.0 mAP,展現(xiàn)出極強(qiáng)的可擴(kuò)展性。

圖 4:PaDT 在 RefCOCO/+/g 的指代表達(dá)理解(REC)任務(wù)結(jié)果。PaDT Pro (3B) 以 93.6 的平均準(zhǔn)確率,超越了參數(shù)量高達(dá) 78B 的 InternVL3(91.4)。

圖 5:PaDT 在 RefCOCO/+/g 的指代表達(dá)分割(RES)任務(wù)結(jié)果。PaDT 依靠自帶的輕量 decoder 輕松超越借助 SAM 強(qiáng)大分割基礎(chǔ)模型的方法。

圖 6:PaDT 在 COCO 開放詞匯檢測(cè)上的結(jié)果。PaDT Pro (3B) 一舉將 mAP 推高至 38.2。

此外,團(tuán)隊(duì)還構(gòu)建了一個(gè)新的 Referring Image Captioning(RIC) 數(shù)據(jù)集,要求模型在生成描述時(shí)顯式關(guān)聯(lián)對(duì)象 ID。PaDT 在此任務(wù)上同樣大幅領(lǐng)先,CIDEr-D 分?jǐn)?shù)從基線的 0.386 提升至 1.450,同時(shí)檢測(cè)指標(biāo)(GreedyPrecision 達(dá) 82.3%)也證明其生成的 caption 具備極強(qiáng)的視覺 grounding 能力。

圖 7:Referring Image Captioning (RIC) 數(shù)據(jù)集。

為什么 PaDT 如此有效?

PaDT 的成功,源于其對(duì) MLLM 視覺能力瓶頸的深刻洞察。它沒有試圖在文本空間內(nèi)「擬合」視覺信息,而是將視覺 patch 本身作為可生成的 token,實(shí)現(xiàn)了模態(tài)間的原生對(duì)齊。

首先,動(dòng)態(tài)嵌入機(jī)制確保了 VRTs 與當(dāng)前圖像的強(qiáng)綁定,避免了跨圖像混淆;其次,統(tǒng)一的 token 空間讓 LLM 能以相同的方式處理語言和視覺信息,簡(jiǎn)化了訓(xùn)練;最后,輕量解碼器將復(fù)雜的 dense prediction 任務(wù)從 LLM 中解耦,既保留了 LLM 的語義推理能力,又賦予了其精準(zhǔn)的空間輸出能力。

值得一提的是,PaDT 還展現(xiàn)出強(qiáng)大的多任務(wù)泛化能力。通過聯(lián)合訓(xùn)練 REC、RES、OVD 和 RIC 任務(wù)得到的 PaDT Pro 模型,僅通過切換 prompt 即可無縫切換任務(wù),且性能普遍優(yōu)于單任務(wù)模型,證明了該范式的通用性。

結(jié)語:邁向真正的通用多模態(tài)智能

PaDT 的提出,標(biāo)志著 MLLMs 在細(xì)粒度視覺理解上邁出了關(guān)鍵一步。它不再滿足于「看圖說話」,而是能夠「指圖說話」—— 精準(zhǔn)地指出圖像中的每一個(gè)相關(guān)區(qū)域,并生成對(duì)應(yīng)的結(jié)構(gòu)化輸出。

這項(xiàng)工作不僅在技術(shù)上實(shí)現(xiàn)了突破,更在理念上啟發(fā)我們:未來的通用人工智能,或許不應(yīng)強(qiáng)行將一切信息壓縮到文本空間,而應(yīng)允許不同模態(tài)以其最自然的形式共存與交互。

目前,PaDT 的代碼和 checkpoints(模型權(quán)重)已開源。對(duì)于關(guān)注多模態(tài)、計(jì)算機(jī)視覺與大模型融合的研究者和工程師而言,這無疑是一個(gè)值得關(guān)注和嘗試的新范式。

作者信息

蘇永怡 (第一作者)

華南理工大學(xué)博四研究生,A*STAR I2R 訪問學(xué)者,主要研究多模態(tài)大語言模型、基礎(chǔ)視覺模型、測(cè)試時(shí)領(lǐng)域適應(yīng)課題。

  • 作者個(gè)人主頁:https://yysu.site/

張浩杰 (共同一作)

華南理工大學(xué)三年級(jí)研究生,微信視覺團(tuán)隊(duì)實(shí)習(xí)生。主要研究多模態(tài)大模型、視頻生成模型、基礎(chǔ)視覺模型。

  • 作者個(gè)人主頁:https://zhang-haojie.github.io/
責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-11-13 09:39:13

2025-01-08 08:21:16

2024-11-13 15:00:00

模型數(shù)據(jù)

2024-05-21 07:54:30

視頻多模態(tài)語義檢索算法

2023-04-28 15:27:06

微軟模型

2024-12-18 18:57:58

2023-05-15 12:14:02

ChatGPT語音模型

2025-09-16 09:35:52

2024-12-30 00:01:00

多模態(tài)大模型Python

2023-10-17 12:34:04

2024-03-25 12:30:18

AI訓(xùn)練開源

2023-09-19 09:22:54

數(shù)據(jù)訓(xùn)練

2024-09-25 14:53:00

2024-04-25 14:53:59

模型視覺

2024-01-04 17:21:08

訓(xùn)練數(shù)據(jù)

2025-05-21 08:47:00

2024-05-17 16:02:00

2024-11-11 15:11:23

2025-03-19 09:30:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)