偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

2025年了,AI還看不懂時(shí)鐘!90%人都能答對,頂尖AI全軍覆沒

人工智能
一般人準(zhǔn)確率89.1%,AI最好只有13.3%。在新視覺基準(zhǔn)ClockBench上,讀模擬時(shí)鐘這道「小學(xué)題」,把11個(gè)大模型難住了。為什么AI還是讀不準(zhǔn)表?是測試有問題還是AI真不行?

90%人都會(huì)的讀鐘題,頂尖AI全軍覆沒!

AI基準(zhǔn)創(chuàng)建者、連續(xù)創(chuàng)業(yè)者Alek Safar推出了視覺基準(zhǔn)測試ClockBench,專注于測試AI的「看懂」模擬時(shí)鐘的能力。

結(jié)果讓人吃驚:

人類平均準(zhǔn)確率89.1%,而參與測試的11個(gè)主流大模型最好的成績僅13.3%。

圖片圖片

就難度而言,這與「AGI終極測試」ARC-AGI-2相當(dāng),比「人類終極考試」更難。

圖片圖片

ClockBench共包含180個(gè)時(shí)鐘、720道問題,展示了當(dāng)前前沿大語言模型(LLM)的局限性。

圖片圖片

論文鏈接:https://clockbench.ai/ClockBench.pdf

雖然這些模型在多項(xiàng)基準(zhǔn)上展現(xiàn)出驚人的推理、數(shù)學(xué)與視覺理解能力,但這些能力尚未有效遷移到「讀表」??赡茉颍?/span>

訓(xùn)練數(shù)據(jù)未覆蓋足夠可記憶的時(shí)鐘特征與時(shí)間組合,模型不得不通過推理去建立指針、刻度與讀數(shù)之間的映射。

時(shí)鐘的視覺結(jié)構(gòu)難以完整映射到文本空間,導(dǎo)致基于文本的推理受限。

也有好消息:表現(xiàn)最好的模型已展現(xiàn)出一定的視覺推理(雖有限)。其讀時(shí)準(zhǔn)確率與中位誤差均顯著優(yōu)于隨機(jī)水平。

接下來需要更多研究,以判定這些能力能否通過擴(kuò)大現(xiàn)有范式(數(shù)據(jù)、模型規(guī)模、計(jì)算/推理預(yù)算)來獲得,還是必須采用全新的方法。

ClockBench如何拷打AI?

在過去的幾年里,大語言模型(LLM)在多個(gè)領(lǐng)域都取得了顯著進(jìn)展,前沿模型很快在許多流行基準(zhǔn)上達(dá)到了「飽和」。

圖片圖片

甚至是那些專門設(shè)計(jì)來同時(shí)考察「專業(yè)知識(shí)與強(qiáng)推理能力」的最新基準(zhǔn),也出現(xiàn)了快速突破。

一個(gè)典型例子是Humanity’s Last Exam):

在該基準(zhǔn)上,OpenAI GPT-4o的得分僅2.7%  ,而xAI Grok 4卻提升到  25.4%;

結(jié)合工具使用等優(yōu)化手段后,結(jié)果甚至能進(jìn)入40–50%區(qū)間。

然而,我們?nèi)匀话l(fā)現(xiàn)一些對人類而言輕而易舉的任務(wù),AI表現(xiàn)不佳。

圖片圖片

因此,出現(xiàn)了SimpleBench以及ARC-AGI這類基準(zhǔn),它們被專門設(shè)計(jì)為:對普通人來說很簡單,但對LLM卻很難。

ClockBench正是受這種「人類容易,AI困難」的思路啟發(fā)而設(shè)計(jì)。

研究團(tuán)隊(duì)基于一個(gè)關(guān)鍵觀察:對推理型和非推理型模型來說,讀懂模擬時(shí)鐘同樣很難

因此,ClockBench構(gòu)建了一個(gè)需要高度視覺精度和推理能力的穩(wěn)健數(shù)據(jù)集。

ClockBench究竟包含什么?

  • 36個(gè)全新設(shè)計(jì)的定制表盤,每個(gè)表盤生成5個(gè)樣本時(shí)鐘
  • 總計(jì)180個(gè)時(shí)鐘,每個(gè)時(shí)鐘設(shè)置4個(gè)問題,共720道測試題
  • 測試了來自6家實(shí)驗(yàn)室的11個(gè)具備視覺理解能力的模型,并招募5名人類參與者對比

圖片圖片

問題分為4大類:

1. 判斷時(shí)間是否有效

有一個(gè)時(shí)鐘???,大模型需要判斷這個(gè)時(shí)鐘顯示的時(shí)間是不是有效的。

圖片

如果時(shí)間是合法的,大模型需要把它分解成幾個(gè)部分,并以JSON格式輸出:

小時(shí)  (Hours)、分鐘  (Minutes)、秒  (Seconds)、日期  (Date)、月份  (Month)、 星期幾  (Day of the week)

只要表盤包含上述信息,就要求LLM一并輸出。

2. 時(shí)間的加減

該任務(wù)要求LLM對給定時(shí)間進(jìn)行加減,得到新時(shí)間。

3. 旋轉(zhuǎn)時(shí)鐘指針

這個(gè)任務(wù)是關(guān)于操作時(shí)鐘的指針。該任務(wù)要求模型選擇時(shí)/分/秒針,并按指定角度順時(shí)針或逆時(shí)針旋轉(zhuǎn)。

4. 時(shí)區(qū)轉(zhuǎn)換

這個(gè)任務(wù)是關(guān)于不同地方的時(shí)間??。比如,給定紐約的夏令時(shí),模型需推算不同地點(diǎn)的當(dāng)?shù)貢r(shí)間。

結(jié)果出乎意料

結(jié)果有哪些出乎意料的發(fā)現(xiàn)?

模型與人類不僅正確率差距巨大,錯(cuò)誤模式也截然不同:

  • 人類誤差中位數(shù)僅3分鐘,最佳模型卻高達(dá)1小時(shí)
  • 較弱模型的誤差約3小時(shí),結(jié)合12小時(shí)制表盤循環(huán)特性,相當(dāng)于隨機(jī)噪聲

圖片圖片

另一個(gè)有趣發(fā)現(xiàn)是,某些鐘表特征的讀取難度存在顯著差異:

  • 在讀取非常見的復(fù)雜鐘表及高精度要求場景時(shí),模型表現(xiàn)最差
  • 羅馬數(shù)字與環(huán)形數(shù)字的朝向最難識(shí)別,其次是秒針、雜亂背景和鏡像時(shí)鐘

圖片圖片

除了讀時(shí),其他問題對模型而言反而更簡單:

  • 表現(xiàn)最佳的模型能高精度回答時(shí)間加減、指針旋轉(zhuǎn)角度或時(shí)區(qū)轉(zhuǎn)換問題,部分場景準(zhǔn)確率可達(dá)100%

圖片圖片

在不同模型的表現(xiàn)對比中,總體趨勢是:規(guī)模更大的推理型模型普遍優(yōu)于規(guī)模較小或非推理型模型。

不過,也出現(xiàn)了一些值得注意的現(xiàn)象:

  • 谷歌的Gemini 2.5系列模型在各自類別中往往領(lǐng)先于其他模型;
  • Anthropic系列模型則普遍落后于同類模型;
  • Grok 4的表現(xiàn)遠(yuǎn)低于預(yù)期,與其規(guī)模和通用能力并不相稱。

圖片圖片

GPT-5排名第三,且推理預(yù)算對結(jié)果影響不大(中等與高預(yù)算得分高度接近)值得思考的是:何種因素制約了GPT-5在此類視覺推理任務(wù)的表現(xiàn)?

在原始數(shù)據(jù)集中,180個(gè)時(shí)鐘里有37個(gè)屬于無效(不可能存在)的時(shí)間。無論是人類還是模型,在識(shí)別「無效時(shí)間」時(shí)的成功率都更高:

  • 人類差異不大:在無效時(shí)鐘上的準(zhǔn)確率為96.2%,而在有效時(shí)鐘上為89.1%;
  • 模型差異明顯:在無效時(shí)鐘上的準(zhǔn)確率平均高出349%,并且所有模型在這類任務(wù)中的表現(xiàn)都更好;
  • Gemini 2.5 Pro依舊是總體最佳模型,準(zhǔn)確率達(dá)到40.5%;
  • Grok 4則是一個(gè)異常值:它在識(shí)別無效時(shí)鐘上的準(zhǔn)確率最高,達(dá)到64.9%,但問題在于,它把整個(gè)數(shù)據(jù)集里63.3%的時(shí)鐘都標(biāo)記為無效,這意味著結(jié)果很可能是「隨機(jī)撞對」。

在模型能夠正確讀時(shí)的鐘面上,存在明顯的重疊現(xiàn)象:

  • 61.7%的時(shí)鐘沒有被任何模型正確讀出;
  • 38.3%的時(shí)鐘至少被1個(gè)模型讀對;
  • 22.8%的時(shí)鐘至少被2個(gè)模型讀對;
  • 13.9%的時(shí)鐘至少被3個(gè)模型讀對;
  • 8.9%的時(shí)鐘至少被4個(gè)或以上的模型讀對。

整體來看,分布情況和有效性數(shù)據(jù)表明:模型的正確答案集中在某一小部分時(shí)鐘上,而不是均勻分布。

參考資料:

https://x.com/alek_safar/status/1964383077792141390

https://clockbench.ai/

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2024-08-12 12:40:40

2025-07-16 09:18:06

2025-07-07 08:42:00

大模型AIChatGPT

2020-09-09 11:32:41

Android漏洞應(yīng)用安全

2025-09-16 09:13:00

2014-10-13 10:04:42

2009-12-03 10:33:27

2022-02-07 09:05:00

GitHub功能AI

2018-05-24 14:01:47

服務(wù)器英特爾高通

2021-12-09 11:59:49

JavaScript前端提案

2023-06-30 08:01:04

Reactuse關(guān)鍵詞

2025-03-11 13:49:20

2025-10-15 09:02:25

2015-07-10 13:09:59

火車WiFi

2025-06-09 08:30:00

2019-12-09 08:29:26

Netty架構(gòu)系統(tǒng)

2020-10-19 08:41:21

UML類圖HashMap

2025-06-16 10:05:00

2022-12-12 07:40:36

服務(wù)器項(xiàng)目Serverless

2017-09-19 15:45:39

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)