偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI為何讀不懂鐘表?模擬時鐘暴露的認(rèn)知短板與AI進(jìn)化隱憂?

譯文 精選
人工智能
中國與西班牙的聯(lián)合研究質(zhì)疑當(dāng)前AI通過數(shù)據(jù)擴(kuò)容實現(xiàn)類人泛化能力的可行性,強(qiáng)調(diào)需突破架構(gòu)限制以構(gòu)建抽象推理機(jī)制,并呼吁重新審視“智能”的本質(zhì)定義。

譯者 | 朱先忠

審校 | 重樓

中國和西班牙研究人員發(fā)表的一篇新論文發(fā)現(xiàn),即使是像GPT-4.1這樣的先進(jìn)多模態(tài)人工智能模型,也難以從模擬時鐘圖像中識別時間。時鐘中細(xì)微的視覺變化都可能導(dǎo)致嚴(yán)重的解讀錯誤,而微調(diào)也只對熟悉的示例有效。這一結(jié)果引發(fā)了人們對這些模型在現(xiàn)實世界任務(wù)中處理不熟悉圖像時的可靠性的擔(dān)憂。

當(dāng)人類對某個領(lǐng)域(例如重力或其他基本物理原理)有了足夠深入的理解時,我們就能超越具體的例子,掌握其背后的抽象概念。這使我們能夠創(chuàng)造性地跨情境運用這些知識,并通過識別實際應(yīng)用中的原理來識別新的實例,即使是那些我們從未見過的實例。

當(dāng)一個領(lǐng)域足夠重要時,我們甚至可能在它并不存在的地方感知到它,就像空想性錯視一樣,其驅(qū)動力在于無法識別真實實例的高昂代價。這種模式識別的生存機(jī)制如此強(qiáng)大,以至于它甚至促使我們在沒有模式的地方尋找更廣泛的模式

一個領(lǐng)域在我們心中灌輸?shù)迷皆?、越反?fù),它的基礎(chǔ)就越,并且會持續(xù)一生;我們在兒童時期接觸到的最早的視覺數(shù)據(jù)集之一就是教學(xué)時鐘,其中印刷材料或交互式模擬時鐘被用來教我們?nèi)绾慰磿r間:

幫助孩子學(xué)習(xí)認(rèn)識時間的教具

盡管手表設(shè)計時尚的變化有時會給我們帶來挑戰(zhàn),但這種早期領(lǐng)域掌握的彈性令人印象深刻,即使面對復(fù)雜或“古怪”的設(shè)計選擇,我們也能辨別模擬鐘面:

高級定制腕表中的一些挑戰(zhàn)性面孔

人類不需要成千上萬的例子來了解時鐘的工作原理;一旦掌握了基本概念,我們幾乎可以識別任何形式,即使是扭曲或抽象的形式。

相比之下,人工智能模型在完成這項任務(wù)時面臨的困難凸顯了一個更深層次的問題:它們的表面實力可能更多地取決于大量的曝光,而不是理解。

超越模仿游戲?

在近期對大型模型的研究中,表面表現(xiàn)與真正“理解”之間的矛盾反復(fù)浮現(xiàn)。上個月,浙江大學(xué)和西湖大學(xué)在一篇題為《博士級LLM真正掌握初等加法嗎?》(非本文重點)的論文中重新闡述了這個問題,并得出結(jié)論:

“盡管基準(zhǔn)令人印象深刻,但模型顯示出對模式匹配而非真正理解的嚴(yán)重依賴,這由符號表示的失敗和基本屬性的違反所證明。

明確的規(guī)則規(guī)定會損害性能,這表明存在固有的架構(gòu)限制。這些見解揭示了評估方面的差距,并強(qiáng)調(diào)了對能夠進(jìn)行超越模式識別的真正數(shù)學(xué)推理的架構(gòu)的需求?!?/p>

本周,這個問題再次被提出,由南京航空航天大學(xué)和西班牙馬德里理工大學(xué)合作完成。這篇題為《多模態(tài)大型語言模型(MLLM)真的學(xué)會了在模擬時鐘上報時嗎?》的新論文探討了多模態(tài)模型對報時理解的程度。

盡管論文中僅詳細(xì)介紹了研究進(jìn)展,但研究人員的初步測試表明,OpenAI的GPT-4.1多模態(tài)語言模型難以從多種時鐘圖像中正確讀取時間,即使在簡單的情況下也經(jīng)常給出錯誤的答案。

這表明模型的訓(xùn)練數(shù)據(jù)可能存在缺口,因此需要一個更均衡的數(shù)據(jù)集,以測試模型是否能夠真正學(xué)習(xí)其背后的概念。因此,作者整理了一個模擬時鐘的合成數(shù)據(jù)集,均勻地覆蓋了所有可能的時間,并避免了互聯(lián)網(wǎng)圖像中常見的偏差:

AI為何讀不懂鐘表?模擬時鐘暴露的認(rèn)知短板與AI進(jìn)化隱憂-AI.x社區(qū)AI為何讀不懂鐘表?模擬時鐘暴露的認(rèn)知短板與AI進(jìn)化隱憂-AI.x社區(qū)

研究人員合成模擬時鐘數(shù)據(jù)集中的一個示例,用于在新研究中微調(diào)GPT模型

在對新數(shù)據(jù)集進(jìn)行微調(diào)之前,GPT-4.1一直無法讀取這些時鐘。然而,在接觸了新數(shù)據(jù)集一段時間后,它的表現(xiàn)有所改善——但前提是新圖像與它之前見過的圖像相似。

當(dāng)時鐘的形狀或指針的樣式發(fā)生變化時,準(zhǔn)確度會急劇下降;即使是很小的調(diào)整,例如更細(xì)的指針或箭頭(下圖最右邊),也足以使其偏離目標(biāo);此外,GPT-4.1還難以解讀達(dá)利風(fēng)格的“融化時鐘”:

AI為何讀不懂鐘表?模擬時鐘暴露的認(rèn)知短板與AI進(jìn)化隱憂-AI.x社區(qū)AI為何讀不懂鐘表?模擬時鐘暴露的認(rèn)知短板與AI進(jìn)化隱憂-AI.x社區(qū)

標(biāo)準(zhǔn)設(shè)計的時鐘圖像(左)、變形的時鐘圖像(中)和修改后的指針圖像(右),以及GPT-4.1微調(diào)前后返回的時間

作者推斷,當(dāng)前的模型(例如GPT-4.1)可能主要通過視覺模式匹配來學(xué)習(xí)讀鐘,而不是通過任何更深層次的時間概念,并斷言:

“當(dāng)時鐘變形或指針變細(xì)并帶有箭頭時,GPT-4.1就會失效。在150個隨機(jī)時間上進(jìn)行的時間估計中,初始時鐘的平均絕對誤差(MAE)為232.48秒,形狀變形時為1380.69秒,指針改變時為3726.93秒。

這些結(jié)果表明,MLLM并沒有學(xué)會看時間,而是記住了模式?!?/p>

足夠的時間

大多數(shù)訓(xùn)練數(shù)據(jù)集依賴于抓取的網(wǎng)絡(luò)圖像,這些圖像往往會重復(fù)特定的時間——尤其是10:10,這是手表廣告中流行的設(shè)置

從新論文中,我們可以看到模擬時鐘圖像中“十點十分”時間的流行情況

由于所描繪的時間范圍有限,模型可能只能看到狹窄范圍的時鐘配置,從而限制了其超越這些重復(fù)模式進(jìn)行概括的能力。

關(guān)于模型為何無法正確解釋時鐘扭曲的問題,論文指出:

“盡管GPT-4.1在標(biāo)準(zhǔn)時鐘圖像上表現(xiàn)非常出色,但令人驚訝的是,通過使時鐘指針變細(xì)并添加箭頭來修改時鐘指針會導(dǎo)致其準(zhǔn)確性顯著下降。

直觀地看,人們可能會認(rèn)為視覺上更復(fù)雜的變化——扭曲的表盤——會對性能產(chǎn)生更大的影響,但這種修改似乎影響相對較小。

這就引出了一個問題:MLLM如何解讀時鐘,以及它們?yōu)槭裁磿??一種可能性是,較細(xì)的指針會削弱模型感知方向的能力,從而削弱其對空間方向的理解。

或者,當(dāng)模型嘗試將時針、分針和秒針組合成準(zhǔn)確的時間讀數(shù)時,可能會有其他因素造成混淆?!?/p>

作者認(rèn)為,找出這些失敗的根本原因是推進(jìn)多模態(tài)模型的關(guān)鍵:如果問題在于模型如何感知空間方向,微調(diào)可能會提供一個簡單的解決方案;但如果問題源于整合多種視覺線索的更大困難,那么這表明這些系統(tǒng)在處理信息的方式上存在更根本的弱點。

微調(diào)測試

為了測試模型的缺陷能否通過實踐克服,GPT-4.1在上述綜合合成數(shù)據(jù)集上進(jìn)行了微調(diào)。在進(jìn)行微調(diào)之前,它的預(yù)測結(jié)果非常分散,所有類型的鐘面都存在顯著的誤差。在對數(shù)據(jù)集進(jìn)行微調(diào)之后,其在標(biāo)準(zhǔn)鐘面上的準(zhǔn)確率顯著提高,而在變形鐘面上的準(zhǔn)確率則有所提升(但幅度較?。?/p>

然而,指針經(jīng)過修改的時鐘,例如指針變得更細(xì)或變成箭頭狀,仍然會產(chǎn)生很大的誤差。

出現(xiàn)了兩種截然不同的故障模式:在正常和變形的時鐘上,模型通常會錯誤判斷指針的方向;但在指針樣式改變的時鐘上,它經(jīng)?;煜扛羔樀墓δ埽瑢⑿r誤認(rèn)為分鐘,或?qū)⒎昼娬`認(rèn)為秒。

這張對比圖展示了模型最初的弱點以及通過微調(diào)實現(xiàn)的部分改進(jìn),圖中顯示了150個隨機(jī)選擇的時鐘的預(yù)測時間與實際時間(以秒為單位)。左側(cè)是微調(diào)之前,GPT-4.1的預(yù)測結(jié)果比較分散,并且通常與正確值相差甚遠(yuǎn),紅色對角線表示正確值。右側(cè)是在平衡合成數(shù)據(jù)集上進(jìn)行微調(diào)之后,預(yù)測結(jié)果與真實值更加接近,盡管仍然存在一些誤差。

這表明該模型已經(jīng)學(xué)會將指針的厚度等視覺特征與特定角色聯(lián)系起來,并且在這些線索發(fā)生變化時會遇到困難。

對不熟悉的設(shè)計的有限改進(jìn)進(jìn)一步引發(fā)了人們的懷疑:這種模型是否學(xué)習(xí)了報時的抽象概念,或者僅僅是改進(jìn)了其模式匹配。

指針類型

因此,盡管微調(diào)提高了GPT-4.1在傳統(tǒng)模擬時鐘上的性能,但它對指針較細(xì)或箭頭形狀的時鐘的影響要小得多,這增加了一種可能性,即該模型的失敗不是源于抽象推理,而是源于對哪根指針是哪根指針的混淆。

為了測試消除這種混淆后準(zhǔn)確率是否會提高,研究人員對模型對“修改后的指針”數(shù)據(jù)集的預(yù)測進(jìn)行了新的分析。輸出結(jié)果分為兩組:GPT-4.1正確識別時針、分針和秒針的情況;以及未能正確識別的情況。

在微調(diào)之前和之后,對預(yù)測的平均絕對誤差(MAE)進(jìn)行評估,并將結(jié)果與標(biāo)準(zhǔn)時鐘的結(jié)果進(jìn)行比較;還使用表盤位置作為基線測量了每個指針的角度誤差

修改后的指針數(shù)據(jù)集中,微調(diào)前后有和沒有指針類型混淆的時鐘的誤差比較

混淆時鐘指針的角色會導(dǎo)致最大的誤差。當(dāng)GPT-4.1將時針誤認(rèn)為分針或?qū)⒎轴樥`認(rèn)為時針時,最終的時間估算結(jié)果往往相差甚遠(yuǎn)。相比之下,錯誤判斷正確識別的指針方向所導(dǎo)致的誤差較小。在三個指針中,時針在微調(diào)前的角度誤差最大,而秒針的角度誤差最小。

在修改后的指針數(shù)據(jù)集中,經(jīng)過微調(diào)之前和之后,對于有和沒有指針角色混淆的預(yù)測,指針類型的角度誤差。

為了僅關(guān)注方向性誤差,分析僅限于模型正確識別每個指針功能的案例。如果該模型已經(jīng)內(nèi)化了一般的報時概念,那么它在這些示例上的表現(xiàn)應(yīng)該與在標(biāo)準(zhǔn)時鐘上的準(zhǔn)確度相當(dāng)。然而,它并沒有,準(zhǔn)確度仍然明顯下降。

為了檢驗指針形狀是否會影響模型的方向感,研究人員進(jìn)行了第二項實驗:創(chuàng)建了兩個新的數(shù)據(jù)集,每個數(shù)據(jù)集包含60個只有時針的合成時鐘,指向不同的分鐘刻度。一組數(shù)據(jù)集使用原始指針設(shè)計,另一組數(shù)據(jù)集使用修改后的版本。要求模型說出指針指向的刻度標(biāo)記的名稱。

結(jié)果表明,修改后的指針識別準(zhǔn)確率略有下降,但不足以解釋模型的整體缺陷。即使在之前表現(xiàn)良好的任務(wù)中,一個不熟悉的視覺特征似乎也足以擾亂模型的整體解讀。

GPT-4.1在標(biāo)準(zhǔn)、扭曲和修改后的時鐘上進(jìn)行微調(diào)前后的性能,突出了不均衡的收益和持續(xù)存在的弱點。

結(jié)論

雖然這篇論文的重點乍一看似乎無關(guān)緊要,但視覺語言模型能否學(xué)會以100%的準(zhǔn)確率讀取模擬時鐘,這一點其實也并不重要。這篇文章的真正意義在于它聚焦于一個更深層次的反復(fù)出現(xiàn)的問題:用更多(也更多樣化)的數(shù)據(jù)來填充模型,是否能夠獲得人類通過抽象和泛化獲得的那種領(lǐng)域理解;或者,唯一可行的途徑是否是向該領(lǐng)域注入足夠多的樣本,以便在推理過程中預(yù)測所有可能的變化。

這兩種方式都會引發(fā)人們對當(dāng)前架構(gòu)真正學(xué)習(xí)能力的懷疑。

譯者介紹

朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計算機(jī)教師,自由編程界老兵一枚。

原文標(biāo)題:AI’s Struggle to Read Analogue Clocks May Have Deeper Significance,作者:Martin Anderson

責(zé)任編輯:姜華 來源: 51CTO內(nèi)容精選
相關(guān)推薦

2021-03-22 17:16:04

AI 數(shù)據(jù)人工智能

2025-06-10 09:10:00

2021-08-02 19:37:27

AI人工智能新冠檢測

2018-05-07 10:23:27

AI 云計算

2024-03-25 11:37:40

機(jī)器學(xué)習(xí)人工智能進(jìn)化算法

2025-09-08 18:08:28

AIClockBenchAGI

2021-12-24 16:53:31

AI人工智能

2025-06-03 08:51:00

2024-04-15 12:43:26

人工智能LLM

2025-08-13 11:40:30

2023-12-14 11:19:52

開源AI

2025-01-21 08:00:00

2020-10-14 10:29:58

人工智能

2025-09-29 02:00:00

RAGAgentAI

2024-06-25 10:07:14

AI產(chǎn)品

2025-08-14 08:20:38

2020-09-22 07:48:19

AI

2021-09-06 09:56:10

人工智能AIAI 芯片

2017-08-10 10:51:58

云AI服務(wù)微軟
點贊
收藏

51CTO技術(shù)棧公眾號