偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

AI為何讀不懂鐘表？模擬時鐘暴露的認(rèn)知短板與AI進(jìn)化隱憂?

作者：朱先忠 2025-05-28 10:31:13

中國與西班牙的聯(lián)合研究質(zhì)疑當(dāng)前AI通過數(shù)據(jù)擴(kuò)容實現(xiàn)類人泛化能力的可行性，強(qiáng)調(diào)需突破架構(gòu)限制以構(gòu)建抽象推理機(jī)制，并呼吁重新審視“智能”的本質(zhì)定義。

譯者 | 朱先忠

審校 | 重樓

中國和西班牙研究人員發(fā)表的一篇新論文發(fā)現(xiàn)，即使是像GPT-4.1這樣的先進(jìn)多模態(tài)人工智能模型，也難以從模擬時鐘圖像中識別時間。時鐘中細(xì)微的視覺變化都可能導(dǎo)致嚴(yán)重的解讀錯誤，而微調(diào)也只對熟悉的示例有效。這一結(jié)果引發(fā)了人們對這些模型在現(xiàn)實世界任務(wù)中處理不熟悉圖像時的可靠性的擔(dān)憂。

當(dāng)人類對某個領(lǐng)域（例如重力或其他基本物理原理）有了足夠深入的理解時，我們就能超越具體的例子，掌握其背后的抽象概念。這使我們能夠創(chuàng)造性地跨情境運用這些知識，并通過識別實際應(yīng)用中的原理來識別新的實例，即使是那些我們從未見過的實例。

當(dāng)一個領(lǐng)域足夠重要時，我們甚至可能在它并不存在的地方感知到它，就像空想性錯視一樣，其驅(qū)動力在于無法識別真實實例的高昂代價。這種模式識別的生存機(jī)制如此強(qiáng)大，以至于它甚至促使我們在沒有模式的地方尋找更廣泛的模式。

一個領(lǐng)域在我們心中灌輸?shù)迷皆?、越反?fù)，它的基礎(chǔ)就越深，并且會持續(xù)一生；我們在兒童時期接觸到的最早的視覺數(shù)據(jù)集之一就是教學(xué)時鐘，其中印刷材料或交互式模擬時鐘被用來教我們?nèi)绾慰磿r間：

幫助孩子學(xué)習(xí)認(rèn)識時間的教具

盡管手表設(shè)計時尚的變化有時會給我們帶來挑戰(zhàn)，但這種早期領(lǐng)域掌握的彈性令人印象深刻，即使面對復(fù)雜或“古怪”的設(shè)計選擇，我們也能辨別模擬鐘面：

高級定制腕表中的一些挑戰(zhàn)性面孔

人類不需要成千上萬的例子來了解時鐘的工作原理；一旦掌握了基本概念，我們幾乎可以識別任何形式，即使是扭曲或抽象的形式。

相比之下，人工智能模型在完成這項任務(wù)時面臨的困難凸顯了一個更深層次的問題：它們的表面實力可能更多地取決于大量的曝光，而不是理解。

超越模仿游戲？

在近期對大型模型的研究中，表面表現(xiàn)與真正“理解”之間的矛盾反復(fù)浮現(xiàn)。上個月，浙江大學(xué)和西湖大學(xué)在一篇題為《博士級LLM真正掌握初等加法嗎？》（非本文重點）的論文中重新闡述了這個問題，并得出結(jié)論：

“盡管基準(zhǔn)令人印象深刻，但模型顯示出對模式匹配而非真正理解的嚴(yán)重依賴，這由符號表示的失敗和基本屬性的違反所證明。

明確的規(guī)則規(guī)定會損害性能，這表明存在固有的架構(gòu)限制。這些見解揭示了評估方面的差距，并強(qiáng)調(diào)了對能夠進(jìn)行超越模式識別的真正數(shù)學(xué)推理的架構(gòu)的需求?！?/p>

本周，這個問題再次被提出，由南京航空航天大學(xué)和西班牙馬德里理工大學(xué)合作完成。這篇題為《多模態(tài)大型語言模型（MLLM）真的學(xué)會了在模擬時鐘上報時嗎？》的新論文探討了多模態(tài)模型對報時理解的程度。

盡管論文中僅詳細(xì)介紹了研究進(jìn)展，但研究人員的初步測試表明，OpenAI的GPT-4.1多模態(tài)語言模型難以從多種時鐘圖像中正確讀取時間，即使在簡單的情況下也經(jīng)常給出錯誤的答案。

這表明模型的訓(xùn)練數(shù)據(jù)可能存在缺口，因此需要一個更均衡的數(shù)據(jù)集，以測試模型是否能夠真正學(xué)習(xí)其背后的概念。因此，作者整理了一個模擬時鐘的合成數(shù)據(jù)集，均勻地覆蓋了所有可能的時間，并避免了互聯(lián)網(wǎng)圖像中常見的偏差：

AI為何讀不懂鐘表？模擬時鐘暴露的認(rèn)知短板與AI進(jìn)化隱憂-AI.x社區(qū)

研究人員合成模擬時鐘數(shù)據(jù)集中的一個示例，用于在新研究中微調(diào)GPT模型

在對新數(shù)據(jù)集進(jìn)行微調(diào)之前，GPT-4.1一直無法讀取這些時鐘。然而，在接觸了新數(shù)據(jù)集一段時間后，它的表現(xiàn)有所改善——但前提是新圖像與它之前見過的圖像相似。

當(dāng)時鐘的形狀或指針的樣式發(fā)生變化時，準(zhǔn)確度會急劇下降；即使是很小的調(diào)整，例如更細(xì)的指針或箭頭（下圖最右邊），也足以使其偏離目標(biāo)；此外，GPT-4.1還難以解讀達(dá)利風(fēng)格的“融化時鐘”：

AI為何讀不懂鐘表？模擬時鐘暴露的認(rèn)知短板與AI進(jìn)化隱憂-AI.x社區(qū)

標(biāo)準(zhǔn)設(shè)計的時鐘圖像（左）、變形的時鐘圖像（中）和修改后的指針圖像（右），以及GPT-4.1微調(diào)前后返回的時間

作者推斷，當(dāng)前的模型（例如GPT-4.1）可能主要通過視覺模式匹配來學(xué)習(xí)讀鐘，而不是通過任何更深層次的時間概念，并斷言：

“當(dāng)時鐘變形或指針變細(xì)并帶有箭頭時，GPT-4.1就會失效。在150個隨機(jī)時間上進(jìn)行的時間估計中，初始時鐘的平均絕對誤差（MAE）為232.48秒，形狀變形時為1380.69秒，指針改變時為3726.93秒。

這些結(jié)果表明，MLLM并沒有學(xué)會看時間，而是記住了模式?！?/p>

足夠的時間

大多數(shù)訓(xùn)練數(shù)據(jù)集依賴于抓取的網(wǎng)絡(luò)圖像，這些圖像往往會重復(fù)特定的時間——尤其是10:10，這是手表廣告中流行的設(shè)置：

從新論文中，我們可以看到模擬時鐘圖像中“十點十分”時間的流行情況

由于所描繪的時間范圍有限，模型可能只能看到狹窄范圍的時鐘配置，從而限制了其超越這些重復(fù)模式進(jìn)行概括的能力。

關(guān)于模型為何無法正確解釋時鐘扭曲的問題，論文指出：

“盡管GPT-4.1在標(biāo)準(zhǔn)時鐘圖像上表現(xiàn)非常出色，但令人驚訝的是，通過使時鐘指針變細(xì)并添加箭頭來修改時鐘指針會導(dǎo)致其準(zhǔn)確性顯著下降。

直觀地看，人們可能會認(rèn)為視覺上更復(fù)雜的變化——扭曲的表盤——會對性能產(chǎn)生更大的影響，但這種修改似乎影響相對較小。

這就引出了一個問題：MLLM如何解讀時鐘，以及它們?yōu)槭裁磿?？一種可能性是，較細(xì)的指針會削弱模型感知方向的能力，從而削弱其對空間方向的理解。

或者，當(dāng)模型嘗試將時針、分針和秒針組合成準(zhǔn)確的時間讀數(shù)時，可能會有其他因素造成混淆?！?/p>

作者認(rèn)為，找出這些失敗的根本原因是推進(jìn)多模態(tài)模型的關(guān)鍵：如果問題在于模型如何感知空間方向，微調(diào)可能會提供一個簡單的解決方案；但如果問題源于整合多種視覺線索的更大困難，那么這表明這些系統(tǒng)在處理信息的方式上存在更根本的弱點。

微調(diào)測試

為了測試模型的缺陷能否通過實踐克服，GPT-4.1在上述綜合合成數(shù)據(jù)集上進(jìn)行了微調(diào)。在進(jìn)行微調(diào)之前，它的預(yù)測結(jié)果非常分散，所有類型的鐘面都存在顯著的誤差。在對數(shù)據(jù)集進(jìn)行微調(diào)之后，其在標(biāo)準(zhǔn)鐘面上的準(zhǔn)確率顯著提高，而在變形鐘面上的準(zhǔn)確率則有所提升（但幅度較?。?/p>

然而，指針經(jīng)過修改的時鐘，例如指針變得更細(xì)或變成箭頭狀，仍然會產(chǎn)生很大的誤差。

出現(xiàn)了兩種截然不同的故障模式：在正常和變形的時鐘上，模型通常會錯誤判斷指針的方向；但在指針樣式改變的時鐘上，它經(jīng)?；煜扛羔樀墓δ埽瑢⑿r誤認(rèn)為分鐘，或?qū)⒎昼娬`認(rèn)為秒。

這張對比圖展示了模型最初的弱點以及通過微調(diào)實現(xiàn)的部分改進(jìn)，圖中顯示了150個隨機(jī)選擇的時鐘的預(yù)測時間與實際時間（以秒為單位）。左側(cè)是微調(diào)之前，GPT-4.1的預(yù)測結(jié)果比較分散，并且通常與正確值相差甚遠(yuǎn)，紅色對角線表示正確值。右側(cè)是在平衡合成數(shù)據(jù)集上進(jìn)行微調(diào)之后，預(yù)測結(jié)果與真實值更加接近，盡管仍然存在一些誤差。

這表明該模型已經(jīng)學(xué)會將指針的厚度等視覺特征與特定角色聯(lián)系起來，并且在這些線索發(fā)生變化時會遇到困難。

對不熟悉的設(shè)計的有限改進(jìn)進(jìn)一步引發(fā)了人們的懷疑：這種模型是否學(xué)習(xí)了報時的抽象概念，或者僅僅是改進(jìn)了其模式匹配。

指針類型

因此，盡管微調(diào)提高了GPT-4.1在傳統(tǒng)模擬時鐘上的性能，但它對指針較細(xì)或箭頭形狀的時鐘的影響要小得多，這增加了一種可能性，即該模型的失敗不是源于抽象推理，而是源于對哪根指針是哪根指針的混淆。

為了測試消除這種混淆后準(zhǔn)確率是否會提高，研究人員對模型對“修改后的指針”數(shù)據(jù)集的預(yù)測進(jìn)行了新的分析。輸出結(jié)果分為兩組：GPT-4.1正確識別時針、分針和秒針的情況；以及未能正確識別的情況。

在微調(diào)之前和之后，對預(yù)測的平均絕對誤差（MAE）進(jìn)行評估，并將結(jié)果與標(biāo)準(zhǔn)時鐘的結(jié)果進(jìn)行比較；還使用表盤位置作為基線測量了每個指針的角度誤差：

修改后的指針數(shù)據(jù)集中，微調(diào)前后有和沒有指針類型混淆的時鐘的誤差比較

混淆時鐘指針的角色會導(dǎo)致最大的誤差。當(dāng)GPT-4.1將時針誤認(rèn)為分針或?qū)⒎轴樥`認(rèn)為時針時，最終的時間估算結(jié)果往往相差甚遠(yuǎn)。相比之下，錯誤判斷正確識別的指針方向所導(dǎo)致的誤差較小。在三個指針中，時針在微調(diào)前的角度誤差最大，而秒針的角度誤差最小。

在修改后的指針數(shù)據(jù)集中，經(jīng)過微調(diào)之前和之后，對于有和沒有指針角色混淆的預(yù)測，指針類型的角度誤差。

為了僅關(guān)注方向性誤差，分析僅限于模型正確識別每個指針功能的案例。如果該模型已經(jīng)內(nèi)化了一般的報時概念，那么它在這些示例上的表現(xiàn)應(yīng)該與在標(biāo)準(zhǔn)時鐘上的準(zhǔn)確度相當(dāng)。然而，它并沒有，準(zhǔn)確度仍然明顯下降。

為了檢驗指針形狀是否會影響模型的方向感，研究人員進(jìn)行了第二項實驗：創(chuàng)建了兩個新的數(shù)據(jù)集，每個數(shù)據(jù)集包含60個只有時針的合成時鐘，指向不同的分鐘刻度。一組數(shù)據(jù)集使用原始指針設(shè)計，另一組數(shù)據(jù)集使用修改后的版本。要求模型說出指針指向的刻度標(biāo)記的名稱。

結(jié)果表明，修改后的指針識別準(zhǔn)確率略有下降，但不足以解釋模型的整體缺陷。即使在之前表現(xiàn)良好的任務(wù)中，一個不熟悉的視覺特征似乎也足以擾亂模型的整體解讀。

GPT-4.1在標(biāo)準(zhǔn)、扭曲和修改后的時鐘上進(jìn)行微調(diào)前后的性能，突出了不均衡的收益和持續(xù)存在的弱點。

結(jié)論

雖然這篇論文的重點乍一看似乎無關(guān)緊要，但視覺語言模型能否學(xué)會以100%的準(zhǔn)確率讀取模擬時鐘，這一點其實也并不重要。這篇文章的真正意義在于它聚焦于一個更深層次的反復(fù)出現(xiàn)的問題：用更多（也更多樣化）的數(shù)據(jù)來填充模型，是否能夠獲得人類通過抽象和泛化獲得的那種領(lǐng)域理解；或者，唯一可行的途徑是否是向該領(lǐng)域注入足夠多的樣本，以便在推理過程中預(yù)測所有可能的變化。

這兩種方式都會引發(fā)人們對當(dāng)前架構(gòu)真正學(xué)習(xí)能力的懷疑。

譯者介紹

朱先忠，51CTO社區(qū)編輯，51CTO專家博客、講師，濰坊一所高校計算機(jī)教師，自由編程界老兵一枚。

原文標(biāo)題：AI’s Struggle to Read Analogue Clocks May Have Deeper Significance，作者：Martin Anderson

責(zé)任編輯：姜華來源： 51CTO內(nèi)容精選

視覺語言模型 MLLM 人工智能

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<u id="upeby"><rp id="upeby"></rp></u>

<blockquote id="upeby"></blockquote>

<optgroup id="upeby"><track id="upeby"><strike id="upeby"></strike></track></optgroup>

<style id="upeby"></style>

<cite id="upeby"><rp id="upeby"><form id="upeby"></form></rp></cite>