蒙娜麗莎讓大模型們幾乎全軍覆沒!網(wǎng)友:懂了,AI不會(huì)瞇眼睛
又一個(gè)讓大模型幾乎全軍覆沒的難題出現(xiàn)了。
注意看,這張圖畫的是誰(shuí)?

如果不夠明顯,那再瞇著眼睛看呢。沒錯(cuò),就是蒙娜麗莎。
這張來(lái)自日本藝術(shù)家北岡秋吉前幾天創(chuàng)作的一張圖,結(jié)果直接把一眾大模型難倒了。
ChatGPT只能分辨出這是一張臉。。

Gemini則是直接識(shí)別錯(cuò)了人。

網(wǎng)友:懂了,大模型不會(huì)瞇眼睛。

大模型不會(huì)瞇眼睛?
為了驗(yàn)證這一推論,咱們也進(jìn)行了一波簡(jiǎn)單實(shí)測(cè)。既然直接問「畫的是誰(shuí)」問不出來(lái),那給一點(diǎn)提示,讓它可以嘗試瞇著眼睛。

首先來(lái)看ChatGPT的表現(xiàn)。
它能準(zhǔn)確判斷出這是一張視覺錯(cuò)位圖,也通過「瞇著眼睛」識(shí)別出來(lái)了具體的臉部輪廓,結(jié)果在最后關(guān)頭識(shí)別錯(cuò)了。

而再讓它深度思考一下,答案給不出來(lái)了。

Gemini的回答則還停留在各種顏色的條紋,也辨認(rèn)出這是個(gè)側(cè)臉的輪廓。

Grok則直接表示無(wú)法辨認(rèn),讓我提供一張更清晰的照片,emmm…

再來(lái)看看國(guó)產(chǎn)玩家的表現(xiàn),還是挑出三個(gè)來(lái)看看。
豆包的回答與Gemini類似,能夠判斷出圖像的風(fēng)格、人臉輪廓,但是無(wú)法判斷具體任務(wù)。
但選擇深度思考之后,它深入研究了故障藝術(shù)的通道分離特性,然后從黑色輪廓中判斷出這是愛因斯坦(????
可能這蓬松的長(zhǎng)發(fā)不是一個(gè)類型的吧。

將這個(gè)問題交給Qwen。負(fù)責(zé)回答這個(gè)問題的是Qwen3-235B-A22B,在完成深度思考之后,它發(fā)現(xiàn)了這是個(gè)人的側(cè)臉剪影。但還是沒有判斷出畫的這個(gè)人是誰(shuí)。

而元寶、訊飛的回答如下:
△元寶
△訊飛星火
但o3-Pro一次性回答對(duì)
不過在一眾模型全軍覆沒之際,也還是有得分選手。
比如o3-Pro。

網(wǎng)友進(jìn)一步分析了原因。這可能與模型推理軌跡有關(guān)。比如像o3(非pro版)思考鏈路里,它通常會(huì)在 Python 中旋轉(zhuǎn)、增加對(duì)比度、裁剪等。而o3-pro顯然推理能力更強(qiáng)。

但有人懷疑了,它是不是用搜索了。
不過這被發(fā)現(xiàn)者駁回了。首先o3也可以用搜索,但無(wú)法做到這一點(diǎn)。而且從o3-pro的推理摘要中看,它只有在模糊后才能看到它(可能是通過使用工具)。而且如果只問“這是什么?”,它也不起作用。
還有嘗試了三次的GPT-4o。

不過這合理懷疑,只是它偶然猜對(duì)了。
因?yàn)榫W(wǎng)友在它第一次打錯(cuò)之后,就給模型提示說(shuō)這是一張著名的畫作。于是就莫名玩起了「海龜湯」的游戲。。。

又或者讓o4-mini-high先人為地模糊圖像以使其“瞇眼”,然后就能識(shí)別圖像。

好了,感興趣的朋友可以去嘗試一下。有挑戰(zhàn)成功的友友,可以在評(píng)論區(qū)分享下提示詞經(jīng)驗(yàn)~






























