偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

多模態(tài)大模型首次實(shí)現(xiàn)像素級(jí)推理!3B參數(shù)超越72B傳統(tǒng)模型,NeurIPS 2025收錄

人工智能 新聞
來自香港理工大學(xué)和騰訊ARC Lab的研究團(tuán)隊(duì)提出了首個(gè)統(tǒng)一的像素級(jí)多模態(tài)大模型——UniPixel。

多模態(tài)大模型首次實(shí)現(xiàn)像素級(jí)推理,指代、分割、推理三大任務(wù)一網(wǎng)打盡!

AI“看圖說話”現(xiàn)在已經(jīng)so easy,但即使是GPT-5、Gemini 2.5 Pro,也只能“看個(gè)大概”,難以進(jìn)行更精確的目標(biāo)識(shí)別和推理。

對(duì)此,來自香港理工大學(xué)和騰訊ARC Lab的研究團(tuán)隊(duì)提出了首個(gè)統(tǒng)一的像素級(jí)多模態(tài)大模型——UniPixel

話不多說,先來康康UniPixel的效果:

只需UniPixel一個(gè)模型,就能完成目標(biāo)指代(Referring)、像素級(jí)分割(Segmentation)與區(qū)域推理(Reasoning)三大任務(wù),兼具靈活性、精確性與可擴(kuò)展性。

目前該論文已被NeurIPS 2025接收,而且代碼、數(shù)據(jù)、Demo全開源

下面是更多詳細(xì)信息。

UniPixel重新定義視覺推理

傳統(tǒng)的視覺問答或描述系統(tǒng),多數(shù)基于整體的圖像或視頻信息進(jìn)行推理,缺乏對(duì)圖中“具體區(qū)域”或“指定目標(biāo)”的精確感知。

這不僅限制了其在醫(yī)療診斷、自動(dòng)駕駛、人機(jī)交互等場景中的實(shí)際應(yīng)用,也難以滿足用戶對(duì)“可控性”與“可解釋性”的高階需求。

以一個(gè)日常任務(wù)為例:“請指出圖中坐在左側(cè)的人并描述他在做什么。”對(duì)于人類來說,我們會(huì)迅速聚焦至左側(cè)目標(biāo),通過視角、行為和上下文進(jìn)行判斷與描述,但對(duì)于傳統(tǒng)LMM,這樣的問題往往因缺乏區(qū)域指引與顯著性建模而難以作答準(zhǔn)確。

UniPixel通過引入“對(duì)象記憶機(jī)制(Object Memory Bank)與支持三類視覺提示(點(diǎn)、框、掩碼)的統(tǒng)一視覺編碼方式,實(shí)現(xiàn)了對(duì)用戶提示的“感知—記憶—推理”全過程支持。

區(qū)別于現(xiàn)有的簡單分割和區(qū)域級(jí)理解模型,UniPixel不僅能識(shí)別用戶所指的目標(biāo),還能將該目標(biāo)作為上下文顯式納入后續(xù)對(duì)話中,并輸出與之強(qiáng)關(guān)聯(lián)的分割結(jié)果、語言回答或描述內(nèi)容。

△現(xiàn)有模型與UniPixel的范式對(duì)比

為實(shí)現(xiàn)這一目標(biāo),UniPixel 在架構(gòu)設(shè)計(jì)上進(jìn)行了系統(tǒng)性的革新。

如下圖所示,其整體框架基于Qwen2.5-VL模型,支持圖像與視頻輸入,并具備對(duì)文本、點(diǎn)、框、掩碼等多種提示的感知與處理能力。

用戶可輸入一個(gè)圖像或視頻、一條文本提示,以及若干個(gè)可選的視覺提示,模型則輸出自然語言回答與可選的時(shí)空掩碼(spatial-temporal mask),實(shí)現(xiàn)基于視覺細(xì)節(jié)信息的交互。

△UniPixel的整體系統(tǒng)框架

為了讓這一框架真正具備“像素級(jí)推理”的能力,UniPixel 進(jìn)一步引入了三大關(guān)鍵模塊:

  • 提示編碼器:支持點(diǎn)、框、掩碼三種視覺提示;
  • 對(duì)象記憶體:用于存儲(chǔ)用戶指定目標(biāo)并支持多輪引用;
  • 掩碼解碼器:實(shí)現(xiàn)精確的時(shí)空掩碼生成。

此外,UniPixel對(duì)語言模型詞表進(jìn)行了擴(kuò)展,增加了<REF>、<MEM>與<SEG>等特殊Token,用于引導(dǎo)視覺提示的注入、對(duì)象記憶的調(diào)用與掩碼生成過程,從而在語言生成與像素感知之間建立了緊密連接。

具體可包括三大技術(shù)亮點(diǎn):

三類視覺提示統(tǒng)一編碼

為實(shí)現(xiàn)最大程度的自由交互,UniPixel設(shè)計(jì)了Prompt Encoder模塊對(duì)三類視覺提示進(jìn)行統(tǒng)一編碼。

無論是點(diǎn)、框,還是掩碼,均可被統(tǒng)一編碼為同一空間中的高維向量。

這一編碼方式融合了空間坐標(biāo)、時(shí)間位置、提示類型等信息,并借助編碼投影層與視覺Token進(jìn)行對(duì)齊。

相比以往模型僅接受文本提示或簡化的圖像區(qū)域,UniPixel可處理更復(fù)雜的用戶輸入,例如:在視頻第5s處點(diǎn)擊某個(gè)目標(biāo),并對(duì)其前后發(fā)生的事件進(jìn)行提問,而這類場景可以通過點(diǎn)提示+時(shí)間標(biāo)識(shí)的組合被準(zhǔn)確解析和處理。

對(duì)象記憶體機(jī)制,賦予模型記住目標(biāo)的能力

UniPixel的最核心設(shè)計(jì)之一是其對(duì)象記憶體(Object Memory Bank)模塊,這是一個(gè)可動(dòng)態(tài)更新的哈希結(jié)構(gòu),用于在推理過程中存儲(chǔ)與管理用戶指定的目標(biāo)區(qū)域,其運(yùn)行機(jī)制如圖所示。

具體來說,每當(dāng)用戶在輸入中使用如等標(biāo)記指代某一目標(biāo),模型就會(huì)自動(dòng)觸發(fā)一個(gè)“記憶預(yù)填充(memory pre-filling)”流程,智能識(shí)別并生成對(duì)應(yīng)的時(shí)空掩碼,然后將其作為對(duì)象信息寫入記憶體中。

這一機(jī)制允許模型在多輪對(duì)話中不斷復(fù)用這些記憶對(duì)象,實(shí)現(xiàn)真正意義上的“上下文可控推理”

后續(xù)若用戶再次提及某一目標(biāo),只需使用之前定義的編號(hào)即可自動(dòng)激活相應(yīng)區(qū)域,通過“記憶植入(memory injection)”機(jī)制將其特征插入到prompt中,供LLM進(jìn)行推理。

這種機(jī)制打破了傳統(tǒng)方法中“提示-響應(yīng)”一次性交互的局限,讓模型具備了類似人類的“關(guān)注-記憶-歸納”能力。

例如,當(dāng)用戶問“[1]和[2]之間有什么互動(dòng)?”時(shí),模型可以將兩者的行為軌跡通過掩碼抽象出來,并從原圖片或視頻中重新感知以生成合理回答。

掩碼引導(dǎo)推理,將理解與分割進(jìn)行深度融合

除了精準(zhǔn)識(shí)別目標(biāo)區(qū)域外,UniPixel還將掩碼生成這一過程嵌入到語言模型推理流程中,實(shí)現(xiàn)了“語言引導(dǎo)分割,分割反哺理解”的雙向閉環(huán)。

具體而言,模型在推理過程中生成<SEG> Token作為掩碼觸發(fā)標(biāo)志,每個(gè)<SEG> Token會(huì)被輸入到掩碼解碼器,根據(jù)上下文及已知提示生成對(duì)應(yīng)的目標(biāo)掩碼。

這些掩碼隨后通過對(duì)原圖片或視頻進(jìn)行池化,轉(zhuǎn)化為LLM可識(shí)別的對(duì)象特征,用于回答更復(fù)雜的語義問題。

這一機(jī)制極大提升了模型在視頻理解任務(wù)中的表現(xiàn),以一個(gè)實(shí)際任務(wù)為例:“[1]和[2]的行為有何差異?”通過對(duì)[1]、[2]的行為區(qū)域建模與掩碼特征對(duì)比,UniPixel可以準(zhǔn)確給出回答,并指出每一幀中的對(duì)應(yīng)區(qū)域。

另外在訓(xùn)練流程上,UniPixel采用了模塊化、分階段的訓(xùn)練策略。

模型首先對(duì)視覺編碼器和語言模型進(jìn)行預(yù)訓(xùn)練,再逐步引入Prompt Encoder、Object Memory Bank和Mask Decoder等組件進(jìn)行聯(lián)合訓(xùn)練,使各模塊能夠協(xié)同工作而不過擬合到特定任務(wù)。

此外,作者還構(gòu)建并整合了多個(gè)數(shù)據(jù)集,涵蓋文本、圖像和視頻三種數(shù)據(jù),以及多種視覺提示類型(點(diǎn)、框、掩碼)。

整個(gè)訓(xùn)練數(shù)據(jù)規(guī)模達(dá)到約100萬條樣本(具體見下表),支持從靜態(tài)對(duì)象指代到時(shí)序掩碼生成等多種任務(wù)類型。這些數(shù)據(jù)為模型提供了統(tǒng)一、多樣的訓(xùn)練環(huán)境,提升了其在不同任務(wù)設(shè)置下的適應(yīng)能力。

△UniPixel的訓(xùn)練數(shù)據(jù)配比

實(shí)驗(yàn)與評(píng)估

為了驗(yàn)證UniPixel框架的有效性,作者在10個(gè)公開基準(zhǔn)測試集上進(jìn)行了廣泛的實(shí)驗(yàn),涵蓋9大視覺-語言理解任務(wù),具體任務(wù)和數(shù)據(jù)集設(shè)置如圖所示。

△用于UniPixel評(píng)測的基準(zhǔn)測試集

目標(biāo)分割任務(wù)

得益于統(tǒng)一的框架設(shè)計(jì)和漸進(jìn)式的訓(xùn)練范式,UniPixel在分割任務(wù)上展現(xiàn)出顯著性能優(yōu)勢。

其中,在較為困難的ReVOS推理分割基準(zhǔn)上,UniPixel-3B達(dá)到62.1 J&F,超過現(xiàn)有所有模型,表明其在理解復(fù)雜文本提示與像素級(jí)掩碼生成之間具有更強(qiáng)的關(guān)聯(lián)建模能力,完整的ReVOS數(shù)據(jù)集測試結(jié)果如下表所示:

在MeViS、Ref-YouTube-VOS和RefCOCO/+/g等其他數(shù)據(jù)集上,UniPixel也展現(xiàn)出了最佳性能,其中MeViS、Ref-YouTube-VOS、Ref-DAVIS17和GroundMore數(shù)據(jù)集的測試結(jié)果如表所示:

而RefCOCO/+/g(cIoU)和ReasonSeg數(shù)據(jù)集的測試結(jié)果如下表所示:

區(qū)域理解任務(wù)

VideoRefer-Bench基準(zhǔn)上,UniPixel同樣在掩碼提示的視頻區(qū)域理解上取得領(lǐng)先表現(xiàn),顯示出其對(duì)視覺提示的適應(yīng)性與魯棒性。

該任務(wù)要求模型根據(jù)復(fù)雜的語言描述,理解用戶所指定的掩碼區(qū)域,并在視頻中正確解析其動(dòng)態(tài)變化與語義關(guān)系。

UniPixel借助其對(duì)象記憶機(jī)制和多模態(tài)協(xié)同編碼能力,能夠準(zhǔn)確捕捉目標(biāo)區(qū)域的邊界與行為變化。

其中,VideoRefer-Bench-D數(shù)據(jù)集的測試結(jié)果為:

VideoRefer-Bench-Q數(shù)據(jù)集的測試結(jié)果為:

PixelQA任務(wù)

為了進(jìn)一步驗(yàn)證模型的指代-分割統(tǒng)一建模能力,作者還提出了全新的PixelQA任務(wù),該任務(wù)要求模型理解視頻中的點(diǎn)或框指代的對(duì)象,并且:

  1. 分割該目標(biāo)在所有幀中的掩碼;
  2. 回答問題。

在本任務(wù)上,UniPixel展現(xiàn)出了出色的多任務(wù)建模能力,如表所示,其性能超越72B的傳統(tǒng)模型。

△PixelQA任務(wù)的測試結(jié)果

可視化

以下例子展現(xiàn)了UniPixel在實(shí)際場景中的分割和推理結(jié)果。

得益于其端到端掩碼生成能力以及語言與視覺模塊的深度協(xié)同,該模型能夠在理解復(fù)雜問題的基礎(chǔ)上,精準(zhǔn)地定位出問題所指向的目標(biāo)區(qū)域,并將其用于幫助推理。

△PixelQA任務(wù)的可視化
△ReVOS數(shù)據(jù)集上結(jié)果的可視化
△ReasonSeg數(shù)據(jù)集上結(jié)果的可視化

△Ref-SAV數(shù)據(jù)集上結(jié)果的可視化

UniPixel的提出,是多模態(tài)AI從“模態(tài)對(duì)齊”走向“細(xì)粒度理解”的重要里程碑。它不僅打通了對(duì)象指代與分割之間的技術(shù)壁壘,更將區(qū)域感知與語言推理有效融合,在像素層面實(shí)現(xiàn)了真正的理解與互動(dòng)。

通過這種全新范式,可以看出多模態(tài)大模型在未來的發(fā)展中,可能不再只是“全局通感”的超級(jí)大腦,而是能精準(zhǔn)聚焦、靈活應(yīng)對(duì)、自然交互的智能體。

UniPixel,或許就是這種新型AI形態(tài)的原點(diǎn)。

項(xiàng)目主頁:https://polyu-chenlab.github.io/unipixel/

論文鏈接:https://arxiv.org/abs/2509.18094

代碼鏈接:https://github.com/PolyU-ChenLab/UniPixel

開源數(shù)據(jù):https://huggingface.co/datasets/PolyU-ChenLab/UniPixel-SFT-1M

在線Demo:https://huggingface.co/spaces/PolyU-ChenLab/UniPixel

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2023-12-28 17:31:44

PixelLM性能模型

2025-10-20 09:09:00

2025-05-27 08:30:00

AI多模態(tài)模型VLR1-3B

2025-09-19 11:09:40

2025-05-21 08:47:00

2025-06-17 09:07:24

2024-06-04 14:09:00

2025-09-29 09:01:36

2024-10-17 18:52:41

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2025-06-09 15:25:03

模型AI訓(xùn)練

2025-07-10 08:57:59

2024-06-03 10:43:34

2024-09-19 14:00:00

模型開源代碼

2024-06-13 09:12:48

2025-01-08 08:21:16

2025-02-07 11:00:00

模型開源AI

2023-12-01 13:36:01

阿里云通義千問

2024-12-25 09:30:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)