偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

GPT-4V慘??!CV大神謝賽寧新作:V*重磅「視覺搜索」算法讓LLM理解力逼近人類

人工智能 新聞
多模態(tài)大模型GPT-4V也會(huì)「有眼無(wú)珠」。UC San Diego紐約大學(xué)研究人員提出全新V*視覺搜索算法逆轉(zhuǎn)LLM弱視覺宿命。

Sam Altman最近在世界經(jīng)濟(jì)論壇上發(fā)言,稱達(dá)到人類級(jí)別的AI很快就會(huì)降臨。

但是,正如LeCun一直以來(lái)所言,如今的AI連貓狗都不如?,F(xiàn)在看來(lái)的確如此。

圖片

GPT-4V、LLaVA等多模態(tài)模型圖像理解力足以讓人驚嘆。但是,它們并非真的能夠做的面面俱到。

CV大神謝賽寧稱有一個(gè)問(wèn)題讓自己徹夜難眠——

不論分辨率或場(chǎng)景復(fù)雜程度如何,凍結(jié)的視覺編碼器通常只能「提取一次」全局圖像token。

舉個(gè)栗子,一張雜亂的桌面上放了一個(gè)「星巴克」陶瓷杯,而且logo圖案僅漏出一半的情況下。

對(duì)此,GPT-4V卻無(wú)法正確識(shí)別出來(lái),還產(chǎn)生了幻覺。

圖片

再比如,圖片中小孩的鞋子是什么顏色這樣直觀的問(wèn)題。

圖片

GPT-4V給出了「白色」的答案。

圖片

為了解決這個(gè)LLM圖像理解的隱疾,「視覺搜索」這一關(guān)鍵方法能夠?yàn)榇竽P吞峁┮曈X信息。

對(duì)此,來(lái)自UC San Diego和紐約大學(xué)的研究人員提出了V*——引導(dǎo)視覺搜索作為多模態(tài)LLM的核心機(jī)制。

圖片

論文地址:https://arxiv.org/pdf/2312.14135.pdf

具體來(lái)說(shuō),研究人員將VQA LLM與視覺搜索模型相結(jié)合。

借助大模型的世界知識(shí),V*對(duì)視覺目標(biāo)進(jìn)行多輪引導(dǎo)搜索。它能夠提取局部特征,并將其添加到工作記憶中,然后,VQA LLM利用搜索到的數(shù)據(jù)生成最終反應(yīng)。

圖片

有網(wǎng)友表示, V*模型和論文,在我看來(lái)意義重大。

就比如,GPT-4V無(wú)法解決的「谷歌機(jī)器人驗(yàn)證」,V*就可以直接找到遺漏的最后一個(gè)交通燈。

圖片

圖片

「視覺搜索」神助攻

實(shí)現(xiàn)「人類智能」的標(biāo)志之一,便是能夠處理和整合多感官信息,從而完成復(fù)雜的任務(wù)。

在我們涉及視覺信息的認(rèn)知推理過(guò)程中,「視覺搜索」無(wú)處不在,即在雜亂的桌子上尋找鑰匙,或在人群中尋找朋友。

此外,對(duì)于需要多個(gè)推理步驟的復(fù)雜任務(wù)來(lái)說(shuō),「視覺搜索」也是一個(gè)不可或缺的步驟。

受人類能力的啟發(fā),研究人員提出了SEAL(Show、SEArch和TelL),這是一種通用元架構(gòu),用于將LLM引導(dǎo)的視覺搜索機(jī)制集成到MLLM中,以解決模型的視覺限制。

圖片

再如上,GPT-4V識(shí)圖失敗的栗子,SEAL便可輕松完成。

一堆毛絨玩具中,一個(gè)猩猩抱著什么樂(lè)器?

GPT-4V:薩克斯

SEAL:吉他

圖片

繁華的都市中,一位男子手中提了一打礦泉水的瓶子是什么logo?

GPT-4V:看不清

SEAL:依云

圖片

還有行李箱上的小掛件是哪家公司的?

GPT-4V:Rubbermaid Commercial

SEAL:英特爾

圖片

在一個(gè)更直觀的中,籃球運(yùn)動(dòng)員的球衣數(shù)字是幾號(hào)?

GPT-4V:10

SEAL:8

類似的例子還是有很多,看得出不論是簡(jiǎn)單的,還是復(fù)雜的視圖中,GPT-4V全軍覆沒。

那么,SEAL框架是由何構(gòu)成的?

SEAL框架+V*視覺搜索算

具體來(lái)說(shuō),SEAL框架由「VQA LLM」和「視覺搜索模型」兩部分組成。

典型的MLLM模型可能會(huì)由于視覺編碼器的信息不足,而拒絕回答或瞎猜(即幻覺)。

與之不同,SEAL中的VQA LLM可以明確地查明缺失的視覺細(xì)節(jié),從而為以下對(duì)象創(chuàng)建目標(biāo)對(duì)象重點(diǎn)。

然后,利用豐富的世界知識(shí)和語(yǔ)言模型的常識(shí),視覺搜索組件定位這些已識(shí)別的元素,并將它們添加到視覺工作記憶(VWM)中。

VWM中的這些附加視覺數(shù)據(jù),使VQA語(yǔ)言模型能夠提供更準(zhǔn)確、更明智的響應(yīng)。

左側(cè)部分代表VQA LLM,它利用視覺工作記憶中的所有數(shù)據(jù)來(lái)回答問(wèn)題。右側(cè)展示了V*視覺搜索算法流程

值得一提的是,SEAL的適應(yīng)性使其能夠與各種MLLM基礎(chǔ)模型配合使用。

在論文的例子中,研究人員使用LLaVA作為視覺搜索模型中的VQA LLM和MLLM。

借助這種新的視覺搜索功能,MLLM能夠更好地處理,在高分辨率圖像中進(jìn)行準(zhǔn)確視覺基礎(chǔ)的情況。

人類的視覺搜索過(guò)程受自上而下的特征引導(dǎo)和上下文場(chǎng)景引導(dǎo),因此作者設(shè)計(jì)了一種名為V*引導(dǎo)視覺搜索算法,其視覺搜索模型也遵循類似的原則。

對(duì)于人類來(lái)說(shuō),這種引導(dǎo)主要來(lái)自于他們對(duì)物理世界的知識(shí)和經(jīng)驗(yàn)。

因此,這一視覺搜索模型是建立在另一個(gè)MLLM的基礎(chǔ)上的,它涵蓋了關(guān)于世界的大量常識(shí)性知識(shí),并能根據(jù)這些知識(shí)有效推理出目標(biāo)在場(chǎng)景中的可能位置。

實(shí)驗(yàn)評(píng)估

現(xiàn)有的MLLM基準(zhǔn)主要側(cè)重于,提供跨各種任務(wù)類別的綜合評(píng)估,并且沒有充分挑戰(zhàn)上述當(dāng)前范式的具體局限性。

為了彌補(bǔ)這一差距并評(píng)估全新框架,作者引入了V–Bench,這是一種新的專用VQA基準(zhǔn),專注于高分辨率圖像的視覺基礎(chǔ)。

V-Bench是一個(gè)以視覺為中心的基準(zhǔn)測(cè)試,要求多模態(tài)模型準(zhǔn)確地提供特定的視覺信息,而這些信息很容易被缺乏視覺搜索功能的標(biāo)準(zhǔn)靜態(tài)視覺編碼器所忽視。

在圖像和視頻等豐富而復(fù)雜的視覺內(nèi)容日益占據(jù)主導(dǎo)地位的世界中,MLLM能夠積極關(guān)注關(guān)鍵視覺信息以完成復(fù)雜的推理任務(wù)至關(guān)重要。

該基準(zhǔn)旨在強(qiáng)調(diào)這一基本機(jī)制的重要性,并指導(dǎo)MLLM的進(jìn)化,以反映人類認(rèn)知固有的多模態(tài)處理和推理能力。

圖片

如下是,V–Bench上不同搜索策略的評(píng)估結(jié)果。

圖片

在具體消融實(shí)驗(yàn)中,使用了V*算法的Vicuna-7B的模型表現(xiàn)更優(yōu)。

最后,視覺搜索幾十年來(lái)一直是cogsci/視覺科學(xué)的核心問(wèn)題。有趣的是,與人眼注視相比,LLM引導(dǎo)V*可以達(dá)到與人類視覺搜索相當(dāng)?shù)男剩?/span>

LLM引導(dǎo)視覺搜索的過(guò)程如下。

圖片

作者介紹

Penghao Wu

Penghao Wu目前是加州大學(xué)圣迭戈分校計(jì)算機(jī)科學(xué)專業(yè)的碩士研究生。他于2018年在上海交通大學(xué)獲得電氣與計(jì)算機(jī)工程學(xué)士學(xué)位。從2023年6月開始,他便成為紐約大學(xué)研究實(shí)習(xí)生,導(dǎo)師是謝賽寧。

Saining Xie(謝賽寧)

謝賽寧目前是紐約大學(xué)計(jì)算機(jī)科學(xué)助理教授。據(jù)個(gè)人主頁(yè)介紹,他本科畢業(yè)于上海交通大學(xué),18年獲加州大學(xué)圣迭戈分校CS博士學(xué)位。

畢業(yè)后,便在Facebook AI Research(FAIR)擔(dān)任研究科學(xué)家。

他還曾與何愷明大神共同提出了用于圖像分類的簡(jiǎn)單、高度模塊化的網(wǎng)絡(luò)結(jié)構(gòu)ResNeXt,這篇論文發(fā)表在了CVPR 2017上。

圖片

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-06-27 13:10:21

2025-04-14 09:38:00

2024-02-06 09:00:00

GPT-4VLLaVA大型語(yǔ)言

2023-10-19 09:32:45

自動(dòng)駕駛技術(shù)

2023-11-04 12:23:39

GPT-4AI

2023-10-23 12:28:18

AI訓(xùn)練

2025-04-03 11:11:50

2023-12-29 09:55:03

視覺模型

2024-01-03 12:56:39

2023-12-03 08:43:55

機(jī)器人模型

2025-01-13 08:23:07

LLMMHAMLP

2024-12-23 07:15:00

多模態(tài)大模型MLLM人工智能

2024-04-07 13:39:55

2024-01-18 13:39:00

AI訓(xùn)練

2024-03-05 09:16:32

AI模型GPT-4

2021-07-19 14:37:04

AI 數(shù)據(jù)人工智能

2023-12-04 16:58:27

2024-03-11 12:20:40

AI模型

2025-04-08 09:10:00

模型訓(xùn)練AI

2023-10-16 09:23:24

自動(dòng)駕駛技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)