Grok圖像理解功能上線，單挑ChatGPT結(jié)果驚人！無地標照片秒定位，18世紀手稿一眼識別

作者：新智元 2024-10-29 12:38:17

人工智能

能識別并轉(zhuǎn)錄18世紀手稿、還能推測無地標照片拍攝地……馬斯克本人也出來官宣：Grok現(xiàn)在能夠理解圖像了！

就在剛剛，xAI為Grok增加了圖像理解功能！

圖片

馬斯克本人也出來官宣了，并稱「Grok現(xiàn)在能夠理解圖像了，甚至還可以解釋笑話」。

圖片

在馬斯克舉的例子中，Grok根據(jù)給出的這張meme圖，從場景設(shè)置、笑話的前提、轉(zhuǎn)折、幽默之處、額外的幽默層面、視覺笑點6個方面來解釋了它。

圖片

這個笑話幽默地利用了對歷史和科學(xué)的誤解。以下是詳細解釋：

場景設(shè)置：漫畫展示了兩個守衛(wèi)站在山丘上，周圍有許多標著「物理學(xué)家」的尸體。守衛(wèi)們在討論這些物理學(xué)家是否真的死了，還是在裝死。

笑話的前提：幽默來自第二個畫面中的關(guān)鍵臺詞，一個守衛(wèi)說「艾薩克·牛頓發(fā)明了重力」。這句話暗示了這些物理學(xué)家之所以不動（因此看起來像是死了），是因為重力的存在。而實際上，牛頓并不是「發(fā)明」了重力，而是用數(shù)學(xué)描述了它。

轉(zhuǎn)折：笑話的關(guān)鍵在于，每次檢查尸體時，這些尸體都會被「發(fā)現(xiàn)」。這諷刺了科學(xué)方法中的「觀察與實驗」，即通過觀察來發(fā)現(xiàn)規(guī)律。

幽默之處：這個笑話結(jié)合了對科學(xué)歷史的誤解（牛頓沒有發(fā)明重力，而是描述了它）和對科學(xué)發(fā)現(xiàn)的字面理解。那些人躺在那里不動是因為重力的作用，但每次檢查時，守衛(wèi)卻當作是每次都在「發(fā)現(xiàn)」新東西，而不是認識到重力是他們不起來的原因。

額外的幽默層面：情境的荒謬性也增加了笑料。守衛(wèi)們在一個檢查尸體死活的場景里，用科學(xué)發(fā)現(xiàn)的術(shù)語，這種不恰當?shù)膽?yīng)用增強了喜劇效果。

視覺笑點：尸體周圍標有「發(fā)現(xiàn)」的標簽，而守衛(wèi)們認真地討論這些人是否真的死了，還是因為重力在「裝死」，這種視覺上的荒誕感也加強了笑話的幽默效果。

總體而言，漫畫通過這種情景幽默諷刺了科學(xué)概念的誤解或錯誤應(yīng)用，同時還調(diào)侃了物理學(xué)家們對復(fù)雜理論的過度關(guān)注，以至于忽略了簡單的現(xiàn)實狀況。

不少網(wǎng)友調(diào)侃道：Grok比美國政客還要聰明有趣！甚至連它都知道什么是笑話。

圖片

但其實，這個笑話解釋得太過復(fù)雜，讓人云里霧里！

有網(wǎng)友在評論區(qū)補充了更恰當?shù)慕忉專骸刚嬖愀?，我以為笑話是，物理學(xué)家們聽到牛頓『發(fā)明了重力』忍不住要起來糾正，所以才停止裝死...」

圖片

不少網(wǎng)友討論道：

「是的，Grok的解釋太過『高智商』以至于它重新變得愚蠢?！?/span>

「Grok解讀太多毀了這個笑話！」

圖片

還有網(wǎng)友直言：「整個評論區(qū)都很奇怪，因為幾乎沒有人意識到Grok完全沒理解這個笑話。那些知名的網(wǎng)紅們都表現(xiàn)得像機器人一樣?！?/span>

圖片

沒想到馬斯克本人出來官宣還鬧了個烏龍！

圖片

不過，除了理解笑話還不太行，Grok倒是在其他的圖像理解任務(wù)中展現(xiàn)出了不錯的水平。

AI Breakfast發(fā)帖稱：「Grok 2具有令人難以置信的OCR功能。它能夠完美地轉(zhuǎn)錄這份幾乎難以辨認的18世紀手稿文件?！?/span>

圖片

賓夕法尼亞大學(xué)沃頓商學(xué)院的副教授Ethan Mollick也發(fā)帖稱贊了Grok的圖像理解能力。

圖片

他將一張在日本大阪拍攝的照片傳給Grok和GPT-4o，并讓它們推測這張照片的拍攝地。據(jù)他所說，所有位置信息都從圖像中刪除，且沒有可見的路標和廣告牌。

圖片

GPT-4o回答道：「這張圖片展示了一座大型工業(yè)起重機，位于水邊，可能靠近一個港口或船廠。周圍的建筑和起重機的結(jié)構(gòu)表明，它可能位于一個具有大量海洋活動的城市的工業(yè)區(qū)。根據(jù)可見的細節(jié)，這個地點可能是在美國、日本或其他以重工業(yè)而聞名的沿海城市?！?/span>

圖片

在被要求進一步縮小范圍的時候，GPT-4o能直接猜到是日本。

圖片

Grok也同樣先分析了一遍照片的內(nèi)容，最后捕捉到了照片中的「亞洲感」，給到「很可能是像日本、韓國或新加坡這樣的亞洲船廠」的結(jié)論。

圖片

還有網(wǎng)友也分別給Grok和GPT-4o發(fā)了一張在葡萄牙首都里斯本拍攝的照片，讓它們推測這張照片的拍攝地。

圖片

Grok回答道：

圖片中的陶瓷作品的設(shè)計讓人聯(lián)想到傳統(tǒng)的代爾夫特陶器，這是一種荷蘭錫釉陶器，以其藍白配色而聞名。這種風(fēng)格與荷蘭有著密切的關(guān)聯(lián)。因此，這張照片很可能是在荷蘭拍攝的，或者是在一個荷蘭風(fēng)格陶瓷流行的地方拍攝的。

GPT-4o回答道：

這張圖片展示了一件陶瓷作品，其設(shè)計風(fēng)格讓人聯(lián)想到傳統(tǒng)的葡萄牙或荷蘭陶瓷，尤其是藍色花卉圖案配以白色背景的設(shè)計。這種風(fēng)格通常出現(xiàn)在葡萄牙（Azulejos）或荷蘭（Delftware）。鑒于你位于里斯本，因此葡萄牙很可能是拍攝地點。

顯然，ChatGPT完勝！但Grok的回答也不賴，已經(jīng)十分接近正確答案。

不過目前，Grok還不能處理某些文件格式（例如PDF）。一名用戶在馬斯克的帖子下評論道：

「埃隆，Grok怎么回事？它無法處理照片或PDF，老實說，它在功能上感覺遠遠落后于ChatGPT。你曾對它進行了很多宣傳，但作為用戶，我可以告訴你：Grok需要重大改進。如果目標是設(shè)定一個新標準，它還遠遠不夠。是時候讓它趕上來了，你不覺得嗎？」

圖片