2025年了,AI還看不懂時(shí)鐘!90%人都能答對,頂尖AI全軍覆沒
90%人都會(huì)的讀鐘題,頂尖AI全軍覆沒!
AI基準(zhǔn)創(chuàng)建者、連續(xù)創(chuàng)業(yè)者Alek Safar推出了視覺基準(zhǔn)測試ClockBench,專注于測試AI的「看懂」模擬時(shí)鐘的能力。
結(jié)果讓人吃驚:
人類平均準(zhǔn)確率89.1%,而參與測試的11個(gè)主流大模型最好的成績僅13.3%。
圖片
就難度而言,這與「AGI終極測試」ARC-AGI-2相當(dāng),比「人類終極考試」更難。
圖片
ClockBench共包含180個(gè)時(shí)鐘、720道問題,展示了當(dāng)前前沿大語言模型(LLM)的局限性。
圖片
論文鏈接:https://clockbench.ai/ClockBench.pdf
雖然這些模型在多項(xiàng)基準(zhǔn)上展現(xiàn)出驚人的推理、數(shù)學(xué)與視覺理解能力,但這些能力尚未有效遷移到「讀表」??赡茉颍?/span>
訓(xùn)練數(shù)據(jù)未覆蓋足夠可記憶的時(shí)鐘特征與時(shí)間組合,模型不得不通過推理去建立指針、刻度與讀數(shù)之間的映射。
時(shí)鐘的視覺結(jié)構(gòu)難以完整映射到文本空間,導(dǎo)致基于文本的推理受限。
也有好消息:表現(xiàn)最好的模型已展現(xiàn)出一定的視覺推理(雖有限)。其讀時(shí)準(zhǔn)確率與中位誤差均顯著優(yōu)于隨機(jī)水平。
接下來需要更多研究,以判定這些能力能否通過擴(kuò)大現(xiàn)有范式(數(shù)據(jù)、模型規(guī)模、計(jì)算/推理預(yù)算)來獲得,還是必須采用全新的方法。
ClockBench如何拷打AI?
在過去的幾年里,大語言模型(LLM)在多個(gè)領(lǐng)域都取得了顯著進(jìn)展,前沿模型很快在許多流行基準(zhǔn)上達(dá)到了「飽和」。
圖片
甚至是那些專門設(shè)計(jì)來同時(shí)考察「專業(yè)知識(shí)與強(qiáng)推理能力」的最新基準(zhǔn),也出現(xiàn)了快速突破。
一個(gè)典型例子是Humanity’s Last Exam):
在該基準(zhǔn)上,OpenAI GPT-4o的得分僅2.7% ,而xAI Grok 4卻提升到 25.4%;
結(jié)合工具使用等優(yōu)化手段后,結(jié)果甚至能進(jìn)入40–50%區(qū)間。
然而,我們?nèi)匀话l(fā)現(xiàn)一些對人類而言輕而易舉的任務(wù),AI表現(xiàn)不佳。
圖片
因此,出現(xiàn)了SimpleBench以及ARC-AGI這類基準(zhǔn),它們被專門設(shè)計(jì)為:對普通人來說很簡單,但對LLM卻很難。
ClockBench正是受這種「人類容易,AI困難」的思路啟發(fā)而設(shè)計(jì)。
研究團(tuán)隊(duì)基于一個(gè)關(guān)鍵觀察:對推理型和非推理型模型來說,讀懂模擬時(shí)鐘同樣很難。
因此,ClockBench構(gòu)建了一個(gè)需要高度視覺精度和推理能力的穩(wěn)健數(shù)據(jù)集。
ClockBench究竟包含什么?
- 36個(gè)全新設(shè)計(jì)的定制表盤,每個(gè)表盤生成5個(gè)樣本時(shí)鐘
- 總計(jì)180個(gè)時(shí)鐘,每個(gè)時(shí)鐘設(shè)置4個(gè)問題,共720道測試題
- 測試了來自6家實(shí)驗(yàn)室的11個(gè)具備視覺理解能力的模型,并招募5名人類參與者對比
圖片
問題分為4大類:
1. 判斷時(shí)間是否有效
有一個(gè)時(shí)鐘???,大模型需要判斷這個(gè)時(shí)鐘顯示的時(shí)間是不是有效的。

如果時(shí)間是合法的,大模型需要把它分解成幾個(gè)部分,并以JSON格式輸出:
小時(shí) (Hours)、分鐘 (Minutes)、秒 (Seconds)、日期 (Date)、月份 (Month)、 星期幾 (Day of the week)
只要表盤包含上述信息,就要求LLM一并輸出。
2. 時(shí)間的加減
該任務(wù)要求LLM對給定時(shí)間進(jìn)行加減,得到新時(shí)間。
3. 旋轉(zhuǎn)時(shí)鐘指針
這個(gè)任務(wù)是關(guān)于操作時(shí)鐘的指針。該任務(wù)要求模型選擇時(shí)/分/秒針,并按指定角度順時(shí)針或逆時(shí)針旋轉(zhuǎn)。
4. 時(shí)區(qū)轉(zhuǎn)換
這個(gè)任務(wù)是關(guān)于不同地方的時(shí)間??。比如,給定紐約的夏令時(shí),模型需推算不同地點(diǎn)的當(dāng)?shù)貢r(shí)間。
結(jié)果出乎意料
結(jié)果有哪些出乎意料的發(fā)現(xiàn)?
模型與人類不僅正確率差距巨大,錯(cuò)誤模式也截然不同:
- 人類誤差中位數(shù)僅3分鐘,最佳模型卻高達(dá)1小時(shí)
- 較弱模型的誤差約3小時(shí),結(jié)合12小時(shí)制表盤循環(huán)特性,相當(dāng)于隨機(jī)噪聲
圖片
另一個(gè)有趣發(fā)現(xiàn)是,某些鐘表特征的讀取難度存在顯著差異:
- 在讀取非常見的復(fù)雜鐘表及高精度要求場景時(shí),模型表現(xiàn)最差
- 羅馬數(shù)字與環(huán)形數(shù)字的朝向最難識(shí)別,其次是秒針、雜亂背景和鏡像時(shí)鐘
圖片
除了讀時(shí),其他問題對模型而言反而更簡單:
- 表現(xiàn)最佳的模型能高精度回答時(shí)間加減、指針旋轉(zhuǎn)角度或時(shí)區(qū)轉(zhuǎn)換問題,部分場景準(zhǔn)確率可達(dá)100%
圖片
在不同模型的表現(xiàn)對比中,總體趨勢是:規(guī)模更大的推理型模型普遍優(yōu)于規(guī)模較小或非推理型模型。
不過,也出現(xiàn)了一些值得注意的現(xiàn)象:
- 谷歌的Gemini 2.5系列模型在各自類別中往往領(lǐng)先于其他模型;
- Anthropic系列模型則普遍落后于同類模型;
- Grok 4的表現(xiàn)遠(yuǎn)低于預(yù)期,與其規(guī)模和通用能力并不相稱。
圖片
GPT-5排名第三,且推理預(yù)算對結(jié)果影響不大(中等與高預(yù)算得分高度接近)值得思考的是:何種因素制約了GPT-5在此類視覺推理任務(wù)的表現(xiàn)?
在原始數(shù)據(jù)集中,180個(gè)時(shí)鐘里有37個(gè)屬于無效(不可能存在)的時(shí)間。無論是人類還是模型,在識(shí)別「無效時(shí)間」時(shí)的成功率都更高:
- 人類差異不大:在無效時(shí)鐘上的準(zhǔn)確率為96.2%,而在有效時(shí)鐘上為89.1%;
- 模型差異明顯:在無效時(shí)鐘上的準(zhǔn)確率平均高出349%,并且所有模型在這類任務(wù)中的表現(xiàn)都更好;
- Gemini 2.5 Pro依舊是總體最佳模型,準(zhǔn)確率達(dá)到40.5%;
- Grok 4則是一個(gè)異常值:它在識(shí)別無效時(shí)鐘上的準(zhǔn)確率最高,達(dá)到64.9%,但問題在于,它把整個(gè)數(shù)據(jù)集里63.3%的時(shí)鐘都標(biāo)記為無效,這意味著結(jié)果很可能是「隨機(jī)撞對」。
在模型能夠正確讀時(shí)的鐘面上,存在明顯的重疊現(xiàn)象:
- 61.7%的時(shí)鐘沒有被任何模型正確讀出;
- 38.3%的時(shí)鐘至少被1個(gè)模型讀對;
- 22.8%的時(shí)鐘至少被2個(gè)模型讀對;
- 13.9%的時(shí)鐘至少被3個(gè)模型讀對;
- 8.9%的時(shí)鐘至少被4個(gè)或以上的模型讀對。
整體來看,分布情況和有效性數(shù)據(jù)表明:模型的正確答案集中在某一小部分時(shí)鐘上,而不是均勻分布。
參考資料:






























