偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<blockquote id="rg16z"><i id="rg16z"></i></blockquote>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

賈佳亞團(tuán)隊(duì)提出LISA大模型：理解人話「分割一切」，在線可玩

作者：金磊 2023-08-09 17:38:47

人工智能新聞

根據(jù)發(fā)布的論文來(lái)看，LISA是一個(gè)多模態(tài)大模型，它在這次研究中主攻的任務(wù)便是推理分割（Reasoning Segmentation）。

本文經(jīng)AI新媒體量子位（公眾號(hào)ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

分割一切這事，又有一項(xiàng)重磅研究入局。

香港中文大學(xué)終身教授賈佳亞團(tuán)隊(duì)，最新提出LISA大模型——理解人話，精準(zhǔn)分割。

例如讓AI看一張?jiān)绮蛨D，要識(shí)別“哪個(gè)是橙子”是比較容易的，但若是問(wèn)一句“哪個(gè)食物維他命C最高”呢？

畢竟這不是一個(gè)簡(jiǎn)單分割的任務(wù)了，而是需要先認(rèn)清圖中的每個(gè)食物，還要對(duì)它們的成分有所了解。

但現(xiàn)在，對(duì)于這種人類復(fù)雜的自然語(yǔ)言指令，AI已經(jīng)是沒(méi)有在怕的了，來(lái)看下LISA的表現(xiàn)：

不難看出，LISA精準(zhǔn)無(wú)誤的將橘子分割了出來(lái)。

再“投喂”LISA一張圖并提問(wèn)：

是什么讓這位女士站的更高？請(qǐng)把它分割出來(lái)并解釋原因。

從結(jié)果上來(lái)看，LISA不僅識(shí)別出來(lái)了“梯”，而且也對(duì)問(wèn)題做出了解釋。

還有一個(gè)更有意思的例子。

許多朋友在看到這個(gè)大模型的名字，或許會(huì)聯(lián)想到女子組合BLACK PINK里的Lisa。

賈佳亞團(tuán)隊(duì)還真拿她們的照片做了個(gè)測(cè)試——讓LISA找Lisa：

不得不說(shuō)，會(huì)玩！

基于LISA，復(fù)雜分割任務(wù)拿下SOTA

根據(jù)發(fā)布的論文來(lái)看，LISA是一個(gè)多模態(tài)大模型，它在這次研究中主攻的任務(wù)便是推理分割（Reasoning Segmentation）。

這個(gè)任務(wù)要求模型能夠處理復(fù)雜的自然語(yǔ)言指令，并給出精細(xì)的分割結(jié)果。

如上圖所示，推理分割任務(wù)具有很大的挑戰(zhàn)性，可能需要借鑒世界知識(shí)（例如，左圖需要了解“短鏡頭更適合拍攝近物體”），或進(jìn)行復(fù)雜圖文推理（如右圖需要分析圖像和文本語(yǔ)義，才能理解圖中“柵欄保護(hù)嬰兒”的含義），才能獲得最終理想的分割結(jié)果。

盡管當(dāng)前多模態(tài)大模型（例如Flamingo^[1], BLIP-2^[2], LLaVA^[3], miniGPT-4^[4], Otter^[5]）使得AI能夠根據(jù)圖像內(nèi)容推理用戶的復(fù)雜問(wèn)題，并給出相應(yīng)的文本分析和回答，但仍無(wú)法像視覺(jué)感知系統(tǒng)那樣在圖像上精確定位指令對(duì)應(yīng)的目標(biāo)區(qū)域。

因此，LISA通過(guò)引入一個(gè)<SEG>標(biāo)記來(lái)擴(kuò)展初始大型模型的詞匯表，并采用Embedding-as-Mask的方式賦予現(xiàn)有多模態(tài)大型模型分割功能，最終展現(xiàn)出強(qiáng)大的零樣本泛化能力。

同時(shí)，這項(xiàng)工作還創(chuàng)建了ReasonSeg數(shù)據(jù)集，其中包含上千張高質(zhì)量圖像及相應(yīng)的推理指令和分割標(biāo)注。

那么LISA這種精準(zhǔn)理解人話的分割能力，具體是如何實(shí)現(xiàn)的呢？

首先將圖像x_img和文本x_txt送到多模態(tài)-大語(yǔ)言模型F（在實(shí)驗(yàn)中即LLaVA），得到輸出的文本結(jié)果，如果此時(shí)文本結(jié)果包含<SEG>標(biāo)記，則表示需要通過(guò)輸出分割預(yù)測(cè)來(lái)解決當(dāng)前問(wèn)題。反之，若不包含<SEG>標(biāo)記，則無(wú)分割結(jié)果輸出。

如果存在標(biāo)記，則將<SEG>標(biāo)記在多模態(tài)大模型F最后一層對(duì)應(yīng)的embedding經(jīng)過(guò)一個(gè)MLP層得到h_seg，并將其與分割視覺(jué)特征f一起傳遞給解碼器F_dec（其中分割視覺(jué)特征f由輸入編碼器F_enc對(duì)圖像x_img進(jìn)行編碼得到）。

最終，F(xiàn)_dec根據(jù)生成最終的分割結(jié)果M。

LISA在訓(xùn)練過(guò)程中使用了自回歸交叉熵?fù)p失函數(shù)，以及對(duì)分割結(jié)果監(jiān)督的BCE和DICE損失函數(shù)。

實(shí)驗(yàn)證明，在訓(xùn)練過(guò)程中僅使用不包含復(fù)雜推理的分割數(shù)據(jù)（通過(guò)將現(xiàn)有的語(yǔ)義分割數(shù)據(jù)如ADE20K^[6]，COCO-Stuff^[7]以及現(xiàn)有指代分割數(shù)據(jù)refCOCO系列^[8]中的每條數(shù)據(jù)轉(zhuǎn)換成“圖像-指令-分割Mask”三元組），LISA能在推理分割任務(wù)上展現(xiàn)出優(yōu)異的零樣本泛化能力。

此外，進(jìn)一步使用239個(gè)推理分割數(shù)據(jù)進(jìn)行微調(diào)訓(xùn)練還能顯著提升LISA在推理分割任務(wù)上的性能。而且LISA還表現(xiàn)出高效的訓(xùn)練特性，只需在8張具有24GB顯存的3090顯卡上進(jìn)行10,000次訓(xùn)練迭代，即可完成7B模型的訓(xùn)練。

最終，LISA不僅在傳統(tǒng)的語(yǔ)言-圖像分割指標(biāo)（refCOCO、refCOCO+和refCOCOg）上展現(xiàn)出優(yōu)異性能，還能處理以下分割任務(wù)情景：⑴復(fù)雜推理；⑵聯(lián)系世界知識(shí)；⑶解釋分割結(jié)果以及⑷多輪對(duì)話。

在有復(fù)雜情景的ReasonSeg數(shù)據(jù)集上，LISA顯著領(lǐng)先于其他相關(guān)工作，進(jìn)一步證明其出色的推理分割能力。

在線可玩

值得一提的是，LISA的推理分割能力已經(jīng)出了demo，可以在線體驗(yàn)的那種。

操作也極其簡(jiǎn)單，只需填寫(xiě)“指令”，然后上傳要處理的圖像即可。

若是不會(huì)描述指令，Demo下方也給出了一些示例，小伙伴們也可以參照一下。

GitHub地址：https://github.com/dvlab-research/LISA

論文地址：https://arxiv.org/pdf/2308.00692.pdf

Demo地址：http://103.170.5.190:7860/

責(zé)任編輯：張燕妮來(lái)源：量子位

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

^{<blockquote id="wk2b8"></blockquote>}

<style id="wk2b8"></style>

<sup id="wk2b8"></sup>