偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<abbr id="ww7cv"><center id="ww7cv"><tbody id="ww7cv"></tbody></center></abbr>

<dfn id="ww7cv"><rp id="ww7cv"></rp></dfn>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

2025年了，AI還看不懂時(shí)鐘！90%人都能答對，頂尖AI全軍覆沒

2025-09-08 18:08:28

一般人準(zhǔn)確率89.1%，AI最好只有13.3%。在新視覺基準(zhǔn)ClockBench上，讀模擬時(shí)鐘這道「小學(xué)題」，把11個(gè)大模型難住了。為什么AI還是讀不準(zhǔn)表？是測試有問題還是AI真不行？

90%人都會(huì)的讀鐘題，頂尖AI全軍覆沒！

AI基準(zhǔn)創(chuàng)建者、連續(xù)創(chuàng)業(yè)者Alek Safar推出了視覺基準(zhǔn)測試ClockBench，專注于測試AI的「看懂」模擬時(shí)鐘的能力。

結(jié)果讓人吃驚：

人類平均準(zhǔn)確率89.1%，而參與測試的11個(gè)主流大模型最好的成績僅13.3%。

圖片

就難度而言，這與「AGI終極測試」ARC-AGI-2相當(dāng)，比「人類終極考試」更難。

圖片

ClockBench共包含180個(gè)時(shí)鐘、720道問題，展示了當(dāng)前前沿大語言模型（LLM）的局限性。

圖片

論文鏈接：https://clockbench.ai/ClockBench.pdf

雖然這些模型在多項(xiàng)基準(zhǔn)上展現(xiàn)出驚人的推理、數(shù)學(xué)與視覺理解能力，但這些能力尚未有效遷移到「讀表」?？赡茉颍?/span>

訓(xùn)練數(shù)據(jù)未覆蓋足夠可記憶的時(shí)鐘特征與時(shí)間組合，模型不得不通過推理去建立指針、刻度與讀數(shù)之間的映射。

時(shí)鐘的視覺結(jié)構(gòu)難以完整映射到文本空間，導(dǎo)致基于文本的推理受限。

也有好消息：表現(xiàn)最好的模型已展現(xiàn)出一定的視覺推理（雖有限）。其讀時(shí)準(zhǔn)確率與中位誤差均顯著優(yōu)于隨機(jī)水平。

接下來需要更多研究，以判定這些能力能否通過擴(kuò)大現(xiàn)有范式（數(shù)據(jù)、模型規(guī)模、計(jì)算/推理預(yù)算）來獲得，還是必須采用全新的方法。

ClockBench如何拷打AI？

在過去的幾年里，大語言模型（LLM）在多個(gè)領(lǐng)域都取得了顯著進(jìn)展，前沿模型很快在許多流行基準(zhǔn)上達(dá)到了「飽和」。

圖片

甚至是那些專門設(shè)計(jì)來同時(shí)考察「專業(yè)知識(shí)與強(qiáng)推理能力」的最新基準(zhǔn)，也出現(xiàn)了快速突破。

一個(gè)典型例子是Humanity’s Last Exam）：

在該基準(zhǔn)上，OpenAI GPT-4o的得分僅2.7% ，而xAI Grok 4卻提升到 25.4%；

結(jié)合工具使用等優(yōu)化手段后，結(jié)果甚至能進(jìn)入40–50%區(qū)間。

然而，我們?nèi)匀话l(fā)現(xiàn)一些對人類而言輕而易舉的任務(wù)，AI表現(xiàn)不佳。

圖片

因此，出現(xiàn)了SimpleBench以及ARC-AGI這類基準(zhǔn)，它們被專門設(shè)計(jì)為：對普通人來說很簡單，但對LLM卻很難。

ClockBench正是受這種「人類容易，AI困難」的思路啟發(fā)而設(shè)計(jì)。

研究團(tuán)隊(duì)基于一個(gè)關(guān)鍵觀察：對推理型和非推理型模型來說，讀懂模擬時(shí)鐘同樣很難。

因此，ClockBench構(gòu)建了一個(gè)需要高度視覺精度和推理能力的穩(wěn)健數(shù)據(jù)集。

ClockBench究竟包含什么？

36個(gè)全新設(shè)計(jì)的定制表盤，每個(gè)表盤生成5個(gè)樣本時(shí)鐘
總計(jì)180個(gè)時(shí)鐘，每個(gè)時(shí)鐘設(shè)置4個(gè)問題，共720道測試題
測試了來自6家實(shí)驗(yàn)室的11個(gè)具備視覺理解能力的模型，并招募5名人類參與者對比

圖片

問題分為4大類：

1. 判斷時(shí)間是否有效

有一個(gè)時(shí)鐘???，大模型需要判斷這個(gè)時(shí)鐘顯示的時(shí)間是不是有效的。

如果時(shí)間是合法的，大模型需要把它分解成幾個(gè)部分，并以JSON格式輸出：

小時(shí) (Hours)、分鐘 (Minutes)、秒 (Seconds)、日期 (Date)、月份 (Month)、星期幾 (Day of the week)

只要表盤包含上述信息，就要求LLM一并輸出。

2. 時(shí)間的加減

該任務(wù)要求LLM對給定時(shí)間進(jìn)行加減，得到新時(shí)間。

3. 旋轉(zhuǎn)時(shí)鐘指針

這個(gè)任務(wù)是關(guān)于操作時(shí)鐘的指針。該任務(wù)要求模型選擇時(shí)/分/秒針，并按指定角度順時(shí)針或逆時(shí)針旋轉(zhuǎn)。

4. 時(shí)區(qū)轉(zhuǎn)換

這個(gè)任務(wù)是關(guān)于不同地方的時(shí)間??。比如，給定紐約的夏令時(shí)，模型需推算不同地點(diǎn)的當(dāng)?shù)貢r(shí)間。

結(jié)果出乎意料

結(jié)果有哪些出乎意料的發(fā)現(xiàn)？

模型與人類不僅正確率差距巨大，錯(cuò)誤模式也截然不同：

人類誤差中位數(shù)僅3分鐘，最佳模型卻高達(dá)1小時(shí)
較弱模型的誤差約3小時(shí)，結(jié)合12小時(shí)制表盤循環(huán)特性，相當(dāng)于隨機(jī)噪聲

圖片

另一個(gè)有趣發(fā)現(xiàn)是，某些鐘表特征的讀取難度存在顯著差異：

在讀取非常見的復(fù)雜鐘表及高精度要求場景時(shí)，模型表現(xiàn)最差
羅馬數(shù)字與環(huán)形數(shù)字的朝向最難識(shí)別，其次是秒針、雜亂背景和鏡像時(shí)鐘

圖片

除了讀時(shí)，其他問題對模型而言反而更簡單：

表現(xiàn)最佳的模型能高精度回答時(shí)間加減、指針旋轉(zhuǎn)角度或時(shí)區(qū)轉(zhuǎn)換問題，部分場景準(zhǔn)確率可達(dá)100%

圖片

在不同模型的表現(xiàn)對比中，總體趨勢是：規(guī)模更大的推理型模型普遍優(yōu)于規(guī)模較小或非推理型模型。

不過，也出現(xiàn)了一些值得注意的現(xiàn)象：

谷歌的Gemini 2.5系列模型在各自類別中往往領(lǐng)先于其他模型；
Anthropic系列模型則普遍落后于同類模型；
Grok 4的表現(xiàn)遠(yuǎn)低于預(yù)期，與其規(guī)模和通用能力并不相稱。

圖片

GPT-5排名第三，且推理預(yù)算對結(jié)果影響不大（中等與高預(yù)算得分高度接近）值得思考的是：何種因素制約了GPT-5在此類視覺推理任務(wù)的表現(xiàn)？

在原始數(shù)據(jù)集中，180個(gè)時(shí)鐘里有37個(gè)屬于無效（不可能存在）的時(shí)間。無論是人類還是模型，在識(shí)別「無效時(shí)間」時(shí)的成功率都更高：

人類差異不大：在無效時(shí)鐘上的準(zhǔn)確率為96.2%，而在有效時(shí)鐘上為89.1%；
模型差異明顯：在無效時(shí)鐘上的準(zhǔn)確率平均高出349%，并且所有模型在這類任務(wù)中的表現(xiàn)都更好；
Gemini 2.5 Pro依舊是總體最佳模型，準(zhǔn)確率達(dá)到40.5%；
Grok 4則是一個(gè)異常值：它在識(shí)別無效時(shí)鐘上的準(zhǔn)確率最高，達(dá)到64.9%，但問題在于，它把整個(gè)數(shù)據(jù)集里63.3%的時(shí)鐘都標(biāo)記為無效，這意味著結(jié)果很可能是「隨機(jī)撞對」。

在模型能夠正確讀時(shí)的鐘面上，存在明顯的重疊現(xiàn)象：

61.7%的時(shí)鐘沒有被任何模型正確讀出；
38.3%的時(shí)鐘至少被1個(gè)模型讀對；
22.8%的時(shí)鐘至少被2個(gè)模型讀對；
13.9%的時(shí)鐘至少被3個(gè)模型讀對；
8.9%的時(shí)鐘至少被4個(gè)或以上的模型讀對。

整體來看，分布情況和有效性數(shù)據(jù)表明：模型的正確答案集中在某一小部分時(shí)鐘上，而不是均勻分布。

參考資料：

https://x.com/alek_safar/status/1964383077792141390

https://clockbench.ai/

責(zé)任編輯：武曉燕來源：新智元

AI ClockBench AGI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="gnlu4"><track id="gnlu4"></track></cite>