VLM集體「失明」?視力測試慘敗,GPT-4o、Claude 3.5全都不及格
最新一輪的語言模型,如GPT-4o和Gemini 1.5 Pro,在發(fā)布時都被定義為「原生多模態(tài)」,能夠理解圖像、音頻、文本等多種形式的輸入。
這些多模態(tài)LLM在相關的介紹、營銷,甚至是學術論文中,都使用了「視覺能力」(visual capability)、「視覺理解」(visual understanding)這樣的表述。
這似乎是想表達,模型在某種意義上是可以看見并理解事物的,而且這種能力已經能與人類相匹配。
那么我們開一個腦洞:如果對視覺語言模型進行視力測試,它們會是標準視力5.2或是大近視眼,還是壓根啥也看不見?
一項新研究表明,大語言模型實際上并沒有像期望的擁有類人的視覺能力。事實是,它們根本就是「盲人」。
奧本大學和阿爾伯塔大學的研究人員在一系列非常簡單的視覺任務上測試了4個當今最先進的多模態(tài)模型,發(fā)現(xiàn)結果并不如人意。
這些任務對人類來說極其簡單,比如兩個形狀是否重疊、圖片中有多少個五邊形,或者單詞中的哪個字母被圈了起來。
然而,這些先進模型的視覺充其量達到了「近視」程度,看到的細節(jié)非常模糊。最壞的情況下,模型就像一個「聰明的盲人」,做出一些有根據的猜測。
圖片
論文地址:https://arxiv.org/pdf/2407.06581
7大任務
現(xiàn)在,視力測試就正式開始了,VLM需要完成7個小任務。
論文合著者Anh Nguye特別強調,「我們的七項任務非常簡單,人類的表現(xiàn)準確率可達100%」。
那么,當AI模型面對這些一年級小學生都能做對的題目,會有怎樣的表現(xiàn)呢?
圖片
任務1:兩條折線有幾個交點?
鑒于VLM在之前有關圖表的基準測試中表現(xiàn)驚人,比如Claude 3.5 Sonnet在AI2D中的得分率為 94.7%,在ChartQA中的得分率為90.8%,我們可以合理推測,這種問題應該難不倒它們。
如下圖所示,白色畫布上共繪制了150幅折線圖,都由兩條折線組成,其中每條折線都由三個點定義。
這三個點的x坐標固定且等距,y坐標通過隨機采樣得到,這樣就創(chuàng)建出了交點個數為0、1或2的兩條折線。
圖片
實驗使用了兩種不同的措辭來詢問大模型,比如,「藍線和紅線圖互相交叉多少次?」以及「藍線和紅線交叉了幾次?」
通過計算每個模型回答這兩種問法的平均準確率,可以排除一些prompt方面的影響,達到更準確的結果。
圖片
相比較而言,Sonnet-3.5在這個任務中的表現(xiàn)稍好,平均準確率能達到77.33%,而其它模型的表現(xiàn)效果較差。
雖然77.33%聽上去是一個不錯的成績,但由于答案只有0、1、2三種可能性,因此隨機猜測的正確率就有33%。
值得注意的是,當兩條折線之間的距離變窄時,VLM的表現(xiàn)往往會更差??偠灾琕LM無法可靠地識別和計算線段交叉點。
圖片
任務2:圓的相交相切相離問題
圖片
這個問題屬于初中幾何的范疇:圓的相交、相切和相離(沒有人會不記得老師徒手畫圓的背影吧)。
但是,我們不會用這種術語來考察VLM,而是對其進行一個簡單的重疊形狀測試,這可以說是我們可以想象到的最簡單的視覺推理任務之一。
可惜的是,無論是兩個圓形稍微重疊、剛好接觸還是有一定距離,不管哪種情況,模型都始終無法做出正確的判斷。
圖片
相比較而言,當兩個圓形相距很遠時,GPT-4o的正確率超過 95%,但在零距離或很小距離時,只有18%的時間正確,小于隨機猜測時50%的正確率。
圖片
Gemini Pro 1.5表現(xiàn)最好,平均準確率達到92.78,但在兩圓距離較近時正確率也只有7成。
圖片
任務3:識別被圈起來的字母
用紅圈?圈出單詞中的字母,一次一個,任務要求VLM識別被圈出的字母。
顯然,這項任務對人類來說很容易,但作者的假設是,如果VLM的視覺模糊,它可能無法識別被圈出的確切字母,因為相鄰字母之間的間距很小。
圖片
之所以選擇單詞Acknowledgement、Subdermatoglyphic和字符串tHyUiKaRbNqWeOpXcZvM,是因為它們包含了寬度和高度都不同的字符。(冷知識,subdermatoglyphic是最長的沒有重復字母的單詞)
實驗發(fā)現(xiàn),雖然VLM可以準確識別紅圈這種形狀,并能完美拼出單詞,但「讀出被圈出的字母」難住了所有的模型。例如,當字母被紅色橢圓形稍微部分遮擋時,VLM識別往往會出錯。
圖片
當出現(xiàn)錯誤時,VLM通常會預測與被圈出的字母相鄰的字母。
有時模型會產生幻覺,盡管可以準確地拼寫單詞,但會出現(xiàn)Subdermatoglyphic中不存在的字符(例如9、n、?)。
圖片
除GPT-4o外,所有模型在兩個英文單詞上的表現(xiàn)都比隨機字符串略好(高出 2 到 6 分),這表明熟悉單詞本身可能有助于VLM做出更有根據的猜測。
Gemini-1.5和Sonnet-3.5是排名前兩名的模型(92.81% 和 89.22%),比GPT-4o和Sonnet-3高出近20分。
總而言之,VLM可能會根據詞語拼寫猜測圈出的字母是什么,略微提高準確性,但并不意味著VLM能夠看到紅色圓圈內的字母。
任務4:環(huán)環(huán)相扣問題
接下來,VLM需要面對的是一個「環(huán)環(huán)相扣」問題,即計算圖像中有幾個圓圈互鎖。
此處應響起B(yǎng)GM:啊啊啊啊~ 五環(huán),你比四環(huán)多一環(huán)~
圖片
這項測試的結果有一點離奇:當圖中有五個環(huán)時,模型都能100%正確;一旦多一個環(huán),VLM則完全摸不著頭腦了。
圖片
Gemini迷失了方向,一次都回答不正確,Sonnet-3.5有三分之一的時間是對的,GPT-4o的正確率接近一半。
圖片
作者提出,識別「五環(huán)」的準確率如此之高,和常見的奧運會「五環(huán)」標志有非常密切的關系。
表5中可以看到,4個模型都傾向于數出5個圓,遠遠大于數出5個五邊形的頻率。
圖片
這個測試表明,無論這些模型在做什么,它都不具備我們人類所理解的「視力」。主要問題在于它們的表現(xiàn)非常不穩(wěn)定,在不同數量、不同形狀組成的圖像中,識別成功率存在巨大差異。
圖片
任務5:嵌套正方形
任務2顯示VLM在計算相交圓方面存在困難,那么把正方形都完全嵌套在另一個更大的正方形中,使它們的邊緣不相交,VLM表現(xiàn)又會如何呢?
如下圖所示,在大小為C×C的畫布上,作者渲染N∈{2,3,4,5}個嵌套的正方形。
圖片
首先使用隨機邊長d∈{2,3,4}px渲染最外層的正方形。剩余的N-1個正方形使用0.75×d的縮小系數繪制,并放置在隨機坐標處,以確保它們不會接觸到外部正方形。
對于3種線條粗細的設置分別生成10張圖像(其中正方形具有不同的隨機位置),并對所有N值重復該過程,共得到120張圖像。
可以發(fā)現(xiàn),計算嵌套的正方形數量,對VLM來說都是難以準確完成的任務。
圖片
模型精度差異很大,GPT-4o(48.33%)和Gemini-1.5(55.00%)至少落后Gemini-1.5(80.00%)和Claude3.5(87.50%)30分。
圖片
任務6:表格有幾列和幾行?
之前任務的結果表明,VLM無力應對重疊(任務4)或嵌套(任務5)這樣的問題,作者決定給VLM換個方向,看看它們關于相鄰圖形相關問題的表現(xiàn)。
作者將正方形拼成一個網格,然后讓VLM來計數。這些VLM曾在DocVQA中有過出色表現(xiàn)(準確率≥ 90%),DocVQA中就包含許多帶有表格的問題,因此這項任務對于VLM來說應該是很簡單的。
為了簡化任務,作者僅要求模型計算給定表格中的行數和列數。
圖片
結果發(fā)現(xiàn),模型始終無法正確計算空白網格的行數和列數。
圖片
然而,當網格單元中包含文本時,所有VLM的性能都會提高,尤其是Sonnet-3.5。
圖片
任務7:識別路線圖
這項任務測試VLM識別特殊顏色路徑的能力,跟隨特定顏色的線條從給定的出發(fā)點追蹤到目的地,這是閱讀并理解地圖所需的重要能力。
如下圖所示,在大小為C×C的圖像上創(chuàng)建地鐵地圖,其中C∈{512,1024}px。
在4個固定坐標處寫4個站名(A、B、C、D)。將畫布劃分為一個由18×18個單元格組成的隱形網格,并初始化距離每個站C/18px的3個路徑起點。
使用深度優(yōu)先搜索算法從隨機站和隨機起點開始繪制一條路徑,其中每一步都可以沿任何方向移動一個單元格。重復這個過程,使每個站都有N∈{1,2,3}條輸出路徑,總共繪制出180個地圖。
圖片
給定兩個指定車站,任務要求VLM計算兩站之間有多少種不同顏色的路徑。
實驗結果發(fā)現(xiàn),即使兩站之間只有一條顏色的路徑,也沒有模型能達到100%的準確率。
圖片
準確率最高的是Sonnet-3.5,在只有一條路時能達到95%,然而到了兩條路的情況下,準確率就迅速降低到僅有50.18%。
圖片
隨著路徑復雜性提升,從1條路徑增加到3條路徑,大多數VLM都會表現(xiàn)出明顯的性能下降。
VLM的「盲目性」
為什么VLM在上述的視覺能力檢測中表現(xiàn)得極不穩(wěn)定呢?
或許我們能從任務4中模型對「奧運五環(huán)」的偏好中找到蛛絲馬跡。最符合常理的解釋就是:
VLM的訓練數據中,「奧運五環(huán)」的圖像反復出現(xiàn),而且在許多文字資料中有詳細的描述。
但是在VLM的訓練數據中,卻找不到6個或者7個互鎖的環(huán),這也是它們?yōu)槭裁椿卮鸩槐M如人意的原因。
因為VLM或許根本不知道它們「看」的是什么,也沒有真正理解什么是環(huán)、重疊或是任何其他概念。
可是,即便我們用blind(盲)來形容模型的這種表現(xiàn),也仍然是在把模型擬人化,就跟大模型公司宣傳其具有「視覺能力」一樣別無二致。
研究人員Nguyen也表示,「盲」即使對于人類來說也有很多定義,而且目前還沒有一個詞可以形容人工智能對我們所展示的圖像的這種盲目/不敏感。
VLM的行為是輸入文本提示、輸入圖像和數十億個權重的復雜函數,目前還沒有技術可以準確地可視化模型所看到的內容。
他推測,這些模型并不是完全「盲目」的,它們從圖像中只能提取出「近似」和抽象的視覺信息,但無法進行視覺判斷,因此表現(xiàn)得像一個了解圖像但實際上看不到圖像的人。
Nguyen用一個例子,很好地支持了上述假設:
圖片
用戶:兩個圓形重疊的區(qū)域是什么顏色的?
GPT-4o:兩個圓形的重疊區(qū)域是綠松石的顏色(青色陰影)。
Gemini-1.5:綠色圓形和藍色圓形的重疊區(qū)域會是青色的。
Sonnet-3.5:我很抱歉,但圖片里只有兩個單獨的圓形,一個是綠色,一個是藍色,不存在重疊區(qū)域。
很顯然,除了Sonnet-3.5以外,GPT-4o和Gemini-1.5只是在「想象」圖像,而不是真的「看到」了圖像。
那么,這項研究是否意味著這些「視覺」人工智能模型毫無用處?
事實并非如此。這些模型中的每一個都在很多任務上表現(xiàn)出高度的準確性,比如識別人類行為和表情、日常物品和環(huán)境照片等方面。
這項研究的意義在于,讓我們對VLM過于「擬人化」的營銷策略祛魅。
如果我們聽信科技巨頭的營銷話術,可能會真的認為視覺大模型能夠「看到」。
但只需要進行幾個小測試,我們就能輕易發(fā)現(xiàn)VLM和人類的本質區(qū)別。它被「擬人化」,其實正凸顯了其非人的本質。
參考資料:
https://arxiv.org/abs/2407.06581
https://techcrunch.com/2024/07/11/are-visual-ai-models-actually-blind/?_refluxos=a10




































