Grok圖像理解功能上線,單挑ChatGPT結(jié)果驚人!無地標照片秒定位,18世紀手稿一眼識別
就在剛剛,xAI為Grok增加了圖像理解功能!
圖片
馬斯克本人也出來官宣了,并稱「Grok現(xiàn)在能夠理解圖像了,甚至還可以解釋笑話」。
圖片
圖片
在馬斯克舉的例子中,Grok根據(jù)給出的這張meme圖,從場景設(shè)置、笑話的前提、轉(zhuǎn)折、幽默之處、額外的幽默層面、視覺笑點6個方面來解釋了它。
圖片
這個笑話幽默地利用了對歷史和科學(xué)的誤解。以下是詳細解釋:
場景設(shè)置:漫畫展示了兩個守衛(wèi)站在山丘上,周圍有許多標著「物理學(xué)家」的尸體。守衛(wèi)們在討論這些物理學(xué)家是否真的死了,還是在裝死。
笑話的前提:幽默來自第二個畫面中的關(guān)鍵臺詞,一個守衛(wèi)說「艾薩克·牛頓發(fā)明了重力」。這句話暗示了這些物理學(xué)家之所以不動(因此看起來像是死了),是因為重力的存在。而實際上,牛頓并不是「發(fā)明」了重力,而是用數(shù)學(xué)描述了它。
轉(zhuǎn)折:笑話的關(guān)鍵在于,每次檢查尸體時,這些尸體都會被「發(fā)現(xiàn)」。這諷刺了科學(xué)方法中的「觀察與實驗」,即通過觀察來發(fā)現(xiàn)規(guī)律。
幽默之處:這個笑話結(jié)合了對科學(xué)歷史的誤解(牛頓沒有發(fā)明重力,而是描述了它)和對科學(xué)發(fā)現(xiàn)的字面理解。那些人躺在那里不動是因為重力的作用,但每次檢查時,守衛(wèi)卻當作是每次都在「發(fā)現(xiàn)」新東西,而不是認識到重力是他們不起來的原因。
額外的幽默層面:情境的荒謬性也增加了笑料。守衛(wèi)們在一個檢查尸體死活的場景里,用科學(xué)發(fā)現(xiàn)的術(shù)語,這種不恰當?shù)膽?yīng)用增強了喜劇效果。
視覺笑點:尸體周圍標有「發(fā)現(xiàn)」的標簽,而守衛(wèi)們認真地討論這些人是否真的死了,還是因為重力在「裝死」,這種視覺上的荒誕感也加強了笑話的幽默效果。
總體而言,漫畫通過這種情景幽默諷刺了科學(xué)概念的誤解或錯誤應(yīng)用,同時還調(diào)侃了物理學(xué)家們對復(fù)雜理論的過度關(guān)注,以至于忽略了簡單的現(xiàn)實狀況。
不少網(wǎng)友調(diào)侃道:Grok比美國政客還要聰明有趣!甚至連它都知道什么是笑話。
圖片
但其實,這個笑話解釋得太過復(fù)雜,讓人云里霧里!
有網(wǎng)友在評論區(qū)補充了更恰當?shù)慕忉專骸刚嬖愀?,我以為笑話是,物理學(xué)家們聽到牛頓『發(fā)明了重力』忍不住要起來糾正,所以才停止裝死...」
圖片
不少網(wǎng)友討論道:
「是的,Grok的解釋太過『高智商』以至于它重新變得愚蠢?!?/span>
「Grok解讀太多毀了這個笑話!」
圖片
還有網(wǎng)友直言:「整個評論區(qū)都很奇怪,因為幾乎沒有人意識到Grok完全沒理解這個笑話。那些知名的網(wǎng)紅們都表現(xiàn)得像機器人一樣?!?/span>
圖片
沒想到馬斯克本人出來官宣還鬧了個烏龍!
圖片
不過,除了理解笑話還不太行,Grok倒是在其他的圖像理解任務(wù)中展現(xiàn)出了不錯的水平。
AI Breakfast發(fā)帖稱:「Grok 2具有令人難以置信的OCR功能。它能夠完美地轉(zhuǎn)錄這份幾乎難以辨認的18世紀手稿文件?!?/span>
圖片
圖片
賓夕法尼亞大學(xué)沃頓商學(xué)院的副教授Ethan Mollick也發(fā)帖稱贊了Grok的圖像理解能力。
圖片
他將一張在日本大阪拍攝的照片傳給Grok和GPT-4o,并讓它們推測這張照片的拍攝地。據(jù)他所說,所有位置信息都從圖像中刪除,且沒有可見的路標和廣告牌。
圖片
GPT-4o回答道:「這張圖片展示了一座大型工業(yè)起重機,位于水邊,可能靠近一個港口或船廠。周圍的建筑和起重機的結(jié)構(gòu)表明,它可能位于一個具有大量海洋活動的城市的工業(yè)區(qū)。根據(jù)可見的細節(jié),這個地點可能是在美國、日本或其他以重工業(yè)而聞名的沿海城市?!?/span>
圖片
在被要求進一步縮小范圍的時候,GPT-4o能直接猜到是日本。
圖片
Grok也同樣先分析了一遍照片的內(nèi)容,最后捕捉到了照片中的「亞洲感」,給到「很可能是像日本、韓國或新加坡這樣的亞洲船廠」的結(jié)論。
圖片
還有網(wǎng)友也分別給Grok和GPT-4o發(fā)了一張在葡萄牙首都里斯本拍攝的照片,讓它們推測這張照片的拍攝地。
圖片
Grok回答道:
圖片中的陶瓷作品的設(shè)計讓人聯(lián)想到傳統(tǒng)的代爾夫特陶器,這是一種荷蘭錫釉陶器,以其藍白配色而聞名。這種風(fēng)格與荷蘭有著密切的關(guān)聯(lián)。因此,這張照片很可能是在荷蘭拍攝的,或者是在一個荷蘭風(fēng)格陶瓷流行的地方拍攝的。
GPT-4o回答道:
這張圖片展示了一件陶瓷作品,其設(shè)計風(fēng)格讓人聯(lián)想到傳統(tǒng)的葡萄牙或荷蘭陶瓷,尤其是藍色花卉圖案配以白色背景的設(shè)計。這種風(fēng)格通常出現(xiàn)在葡萄牙(Azulejos)或荷蘭(Delftware)。鑒于你位于里斯本,因此葡萄牙很可能是拍攝地點。
顯然,ChatGPT完勝!但Grok的回答也不賴,已經(jīng)十分接近正確答案。
不過目前,Grok還不能處理某些文件格式(例如PDF)。一名用戶在馬斯克的帖子下評論道:
「埃隆,Grok怎么回事?它無法處理照片或PDF,老實說,它在功能上感覺遠遠落后于ChatGPT。你曾對它進行了很多宣傳,但作為用戶,我可以告訴你:Grok需要重大改進。如果目標是設(shè)定一個新標準,它還遠遠不夠。是時候讓它趕上來了,你不覺得嗎?」
圖片
馬斯克回復(fù)說:「不久后就可以了。我們在幾個月內(nèi)完成的事情是其他人花費數(shù)年時間才能做到的。」
圖片
參考資料:
https://x.com/grok/status/1850808322074509434
https://x.com/AiBreakfast/status/1850961980892615161