偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

多模態(tài)大模型有了統(tǒng)一分割框架,華科PSALM多任務(wù)登頂,模型代碼全開源

人工智能 新聞
在將 LMM 應(yīng)用到計(jì)算機(jī)視覺任務(wù)上時(shí),我們?nèi)悦媾R一個(gè)關(guān)鍵挑戰(zhàn):大多數(shù) LMM 目前只限于文本輸出,這限制了它們?cè)谔幚砀?xì)粒度的視覺任務(wù),如圖像分割方面的能力。

想了解更多AIGC的內(nèi)容,請(qǐng)?jiān)L問:

51CTO AI.x社區(qū)

http://www.szyisi.cn/aigc/

最近,多模態(tài)大模型(LMM)取得了一系列引人注目的成就,特別是在視覺 - 語言任務(wù)上的表現(xiàn)令人矚目。它們的成功不僅展現(xiàn)了多模態(tài)大模型在各個(gè)領(lǐng)域的實(shí)用性和靈活性,也為更多視覺場(chǎng)景下的應(yīng)用探索了新的道路。

盡管如此,在將 LMM 應(yīng)用到計(jì)算機(jī)視覺任務(wù)上時(shí),我們?nèi)悦媾R一個(gè)關(guān)鍵挑戰(zhàn):大多數(shù) LMM 目前只限于文本輸出,這限制了它們?cè)谔幚砀?xì)粒度的視覺任務(wù),如圖像分割方面的能力。

此外,圖像分割領(lǐng)域內(nèi)部的需求多樣化,任務(wù)各異 —— 實(shí)例分割需為每個(gè)對(duì)象分配唯一 ID 并計(jì)算類別信賴度,指代分割(RES)則需要基于描述性語句來識(shí)別圖像中的特定區(qū)域,而交互式分割的輸入可能包括點(diǎn)、線、邊界框或掩碼。這些不同的輸入和輸出格式如何能夠被 LMM 高效地統(tǒng)一和處理,目前仍然是一個(gè)開放性問題。

華中科技大學(xué)的研究團(tuán)隊(duì)針對(duì)多模態(tài)大模型(LMM)在視覺任務(wù)中的應(yīng)用挑戰(zhàn),推出了針對(duì)性的解決方案:PSALM 模型。這一模型的設(shè)計(jì)理念是:通過一個(gè)統(tǒng)一的框架處理絕大多數(shù)類型的圖像分割任務(wù),從而實(shí)現(xiàn)分割任務(wù)的全面覆蓋。

同時(shí),得益于多模態(tài)大模型廣泛的預(yù)訓(xùn)練,PSALM 不僅在已見分割任務(wù)上表現(xiàn)出色,更在諸多未曾訓(xùn)練過的開放場(chǎng)景分割任務(wù)中,展現(xiàn)出強(qiáng)大的零樣本泛化能力。多模態(tài)大模型作為視覺任務(wù)統(tǒng)一框架的巨大潛力得到進(jìn)一步挖掘。

PSALM 有如下的特點(diǎn):

  • 參數(shù)優(yōu)化:PSALM 采用了 Swin-Base 結(jié)合 Phi-1.5(1.3B 參數(shù))的模型組合,這比傳統(tǒng)的 ViT-L 和 Vicuna-7B/Llama2-13B 模型要小巧得多,實(shí)現(xiàn)了效率與性能的兼?zhèn)洹?/span>
  • 多任務(wù)統(tǒng)一:得益于 PSALM 靈活的結(jié)構(gòu)設(shè)計(jì),模型能夠?qū)⒍喾N分割任務(wù)的輸入形式進(jìn)行統(tǒng)一,并支持多任務(wù)的聯(lián)合訓(xùn)練,最終取得相互促進(jìn)的效果。
  • 性能優(yōu)異:PSALM 不僅在全景分割、交互式分割、指代分割等多個(gè)已見分割任務(wù)上展現(xiàn)出比肩或超越專家模型的強(qiáng)大性能,還在開放詞表、視頻目標(biāo)分割等未見開放場(chǎng)景任務(wù)中表現(xiàn)出令人矚目的零樣本泛化能力。

目前,模型和訓(xùn)練代碼已全部開源。

  • 論文標(biāo)題:PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model
  • 論文地址:https://arxiv.org/abs/2403.14598
  • 代碼地址:https://github.com/zamling/PSALM
  • 模型地址:https://huggingface.co/EnmingZhang/PSALM

PSALM 如何實(shí)現(xiàn)的?

PSALM 包含圖像編碼器、大語言模型(LLM)和 mask 生成器,如上圖所示。為了使得模型可以處理各種分割任務(wù),模型將 LLM 的輸入分為四個(gè)部分:圖片特征、任務(wù)指令提示、任務(wù)條件提示以及一組可學(xué)習(xí)的 mask tokens

任務(wù)指令提示包含當(dāng)前分割任務(wù)的一個(gè)簡單任務(wù)描述。例如,對(duì)于全景分割,任務(wù)指令提示可以是:「請(qǐng)分割出圖片中所有的目標(biāo),下面是可能的類別名稱」。任務(wù)條件提示指的是當(dāng)前分割任務(wù)所需要的特有的信息。對(duì)于語義分割、全景分割等,所需要的即所有類別名稱。模型直接簡單地將類別使用逗號(hào)進(jìn)行拼接,如「person, bicycle, car…」;對(duì)于指令分割,任務(wù)條件提示是當(dāng)前所需分割的物體的一段描述;對(duì)于更為復(fù)雜的交互式分割,模型將點(diǎn)、線、框、掩碼等各種提示信息轉(zhuǎn)換為掩碼,并通過掩碼池化的操作提取所指定的區(qū)域的特征,作為交互式分割的任務(wù)條件提示。

隨后,得到 mask tokens 對(duì)應(yīng)位置的輸出,送入 mask 生成其中,得到 mask 的特征。該特征與任務(wù)條件提示所對(duì)應(yīng)的輸出特征計(jì)算相似度得到置信度,與圖像特征計(jì)算內(nèi)積得到候選分割結(jié)果。

最終,將置信度和候選分割結(jié)果相結(jié)合,即可得到各種分割任務(wù)的結(jié)果。各種任務(wù)類型如何生成特定的條件提示和對(duì)應(yīng)的條件特征可見下圖。

PSALM 的效果如何?

對(duì)于指代分割 (RES) 任務(wù),也是目前已有的基于 LMM 的分割模型所關(guān)注的任務(wù),PSALM 在 RefCOCO、RefCOCO + 和 RefCOCOg 上的許多基準(zhǔn)測(cè)試集上取得了 SOTA 的性能,詳見下表。

圖片

在語義分割、實(shí)例分割、全景分割等任務(wù)上,PSALM 在 COCO-val 上比較了現(xiàn)有的 SOTA 模型。對(duì)于采用類似規(guī)模的圖像編碼器的方法,PSALM 取得了極具競爭力的結(jié)果,甚至不弱于該任務(wù)上的專家模型。

對(duì)于交互式分割任務(wù),由于當(dāng)前沒有開源的交互式分割數(shù)據(jù)集和測(cè)試基準(zhǔn)。因此,在 COCO 的基礎(chǔ)上,對(duì)其中的所有目標(biāo)隨機(jī)生成了各種交互提示,最終生成了 COCO-Interactive 數(shù)據(jù)集。具體結(jié)果如下表所示,PSALM 在使用點(diǎn),曲線,掩碼作為提示下,取得了 SOTA 的效果。在使用框作為提示下,略弱于使用數(shù)據(jù)集 SA-1B 訓(xùn)練的 SAM。

PSALM 對(duì)于沒有見過的任務(wù),泛化能力如何?

PSALM 在開放詞表分割、通用指代分割、視頻目標(biāo)分割以及多視角 Ego-Exo 匹配分割任務(wù)上的零樣本泛化能力同樣令人印象深刻,這些結(jié)果展示了它對(duì)未知任務(wù)的適應(yīng)性。

下圖展示了 PSALM 在多個(gè)任務(wù)上的可視化結(jié)果包括全景分割、指令分割、交互式分割、開放詞表實(shí)例分割、通用指令分割、視頻目標(biāo)檢測(cè)和 Ego-Exo 多視角匹配分割。

總結(jié)

PSALM 代表了多模態(tài)大模型在統(tǒng)一圖像分割領(lǐng)域的一次積極探索,其在參數(shù)優(yōu)化、性能展示以及泛化能力方面均取得了顯著成果。PSALM 的創(chuàng)新架構(gòu)和條件提示機(jī)制,使其能夠靈活處理多樣化的輸入輸出需求,從而在各種基準(zhǔn)任務(wù)中取得優(yōu)異的成績。

想了解更多AIGC的內(nèi)容,請(qǐng)?jiān)L問:

51CTO AI.x社區(qū)

http://www.szyisi.cn/aigc/

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-05-14 08:51:00

2023-06-06 14:09:32

模型開源

2023-12-08 07:48:42

GPT模型時(shí)間序列

2025-01-08 08:21:16

2025-06-13 08:45:00

數(shù)據(jù)模型可視化

2025-03-04 09:50:00

2025-01-06 10:00:00

模型視覺生成

2023-12-10 15:21:39

2021-12-23 10:00:38

谷歌訓(xùn)練技術(shù)

2024-11-13 09:39:13

2024-09-10 12:11:18

2025-02-12 10:20:00

2024-01-22 13:59:00

模型訓(xùn)練

2024-12-30 00:01:00

多模態(tài)大模型Python

2022-09-28 15:34:06

機(jī)器學(xué)習(xí)語音識(shí)別Pytorch

2025-05-27 15:59:41

AI工具模型

2023-08-04 13:22:46

AI開源

2024-09-25 14:53:00

2025-03-19 09:30:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)