AI為何讀不懂鐘表?模擬時(shí)鐘暴露的認(rèn)知短板與AI進(jìn)化隱憂(yōu)? 原創(chuàng)
中國(guó)與西班牙的聯(lián)合研究質(zhì)疑當(dāng)前AI通過(guò)數(shù)據(jù)擴(kuò)容實(shí)現(xiàn)類(lèi)人泛化能力的可行性,強(qiáng)調(diào)需突破架構(gòu)限制以構(gòu)建抽象推理機(jī)制,并呼吁重新審視“智能”的本質(zhì)定義。
引言
中國(guó)和西班牙研究人員發(fā)表的一篇新論文發(fā)現(xiàn),即使是像GPT-4.1這樣的先進(jìn)多模態(tài)人工智能模型,也難以從模擬時(shí)鐘圖像中識(shí)別時(shí)間。時(shí)鐘中細(xì)微的視覺(jué)變化都可能導(dǎo)致嚴(yán)重的解讀錯(cuò)誤,而微調(diào)也只對(duì)熟悉的示例有效。這一結(jié)果引發(fā)了人們對(duì)這些模型在現(xiàn)實(shí)世界任務(wù)中處理不熟悉圖像時(shí)的可靠性的擔(dān)憂(yōu)。
當(dāng)人類(lèi)對(duì)某個(gè)領(lǐng)域(例如重力或其他基本物理原理)有了足夠深入的理解時(shí),我們就能超越具體的例子,掌握其背后的抽象概念。這使我們能夠創(chuàng)造性地跨情境運(yùn)用這些知識(shí),并通過(guò)識(shí)別實(shí)際應(yīng)用中的原理來(lái)識(shí)別新的實(shí)例,即使是那些我們從未見(jiàn)過(guò)的實(shí)例。
當(dāng)一個(gè)領(lǐng)域足夠重要時(shí),我們甚至可能在它并不存在的地方感知到它,就像??空想性錯(cuò)視??一樣,其驅(qū)動(dòng)力在于無(wú)法識(shí)別真實(shí)實(shí)例的高昂代價(jià)。這種模式識(shí)別的生存機(jī)制如此強(qiáng)大,以至于它甚至促使我們?cè)跊](méi)有模式的地方??尋找更廣泛的模式??。?
一個(gè)領(lǐng)域在我們心中灌輸?shù)迷皆纭⒃椒磸?fù),它的基礎(chǔ)就越??深??,并且會(huì)持續(xù)一生;我們?cè)趦和瘯r(shí)期接觸到的最早的視覺(jué)數(shù)據(jù)集之一就是教學(xué)時(shí)鐘,其中印刷材料或交互式模擬時(shí)鐘被用來(lái)教我們?nèi)绾慰磿r(shí)間:?
??幫助孩子學(xué)習(xí)認(rèn)識(shí)時(shí)間的教具???
盡管??手表設(shè)計(jì)時(shí)尚的變化??有時(shí)會(huì)給我們帶來(lái)挑戰(zhàn),但這種早期領(lǐng)域掌握的彈性令人印象深刻,即使面對(duì)復(fù)雜或“古怪”的設(shè)計(jì)選擇,我們也能辨別模擬鐘面:?
??高級(jí)定制腕表??中的一些挑戰(zhàn)性面孔?
人類(lèi)??不需要成千上萬(wàn)的例子??來(lái)了解時(shí)鐘的工作原理;一旦掌握了基本概念,我們幾乎可以識(shí)別任何形式,即使是扭曲或抽象的形式。?
相比之下,人工智能模型在完成這項(xiàng)任務(wù)時(shí)面臨的困難凸顯了一個(gè)更深層次的問(wèn)題:它們的表面實(shí)力可能更多地取決于大量的曝光,而不是理解。
超越模仿游戲?
在近期對(duì)大型模型的研究中,表面表現(xiàn)與真正“理解”之間的矛盾反復(fù)浮現(xiàn)。上個(gè)月,浙江大學(xué)和西湖大學(xué)在一篇題為《博士級(jí)LLM真正掌握初等加法嗎?》(非本文重點(diǎn))的?論文??中重新闡述了這個(gè)問(wèn)題,并得出結(jié)論:?
“盡管基準(zhǔn)令人印象深刻,但模型顯示出對(duì)模式匹配而非真正理解的嚴(yán)重依賴(lài),這由符號(hào)表示的失敗和基本屬性的違反所證明。
明確的規(guī)則規(guī)定會(huì)損害性能,這表明存在固有的架構(gòu)限制。這些見(jiàn)解揭示了評(píng)估方面的差距,并強(qiáng)調(diào)了對(duì)能夠進(jìn)行超越模式識(shí)別的真正數(shù)學(xué)推理的架構(gòu)的需求?!?/p>
本周,這個(gè)問(wèn)題再次被提出,由南京航空航天大學(xué)和西班牙馬德里理工大學(xué)合作完成。這篇題為《多模態(tài)大型語(yǔ)言模型(MLLM)真的學(xué)會(huì)了在模擬時(shí)鐘上報(bào)時(shí)嗎?》的??新論文?探討了多模態(tài)模型對(duì)報(bào)時(shí)理解的程度。?
盡管論文中僅詳細(xì)介紹了研究進(jìn)展,但研究人員的初步測(cè)試表明,OpenAI的?GPT-4.1??多模態(tài)語(yǔ)言模型難以從多種時(shí)鐘圖像中正確讀取時(shí)間,即使在簡(jiǎn)單的情況下也經(jīng)常給出錯(cuò)誤的答案。?
這表明模型的訓(xùn)練數(shù)據(jù)可能存在缺口,因此需要一個(gè)更均衡的數(shù)據(jù)集,以測(cè)試模型是否能夠真正學(xué)習(xí)其背后的概念。因此,作者整理了一個(gè)模擬時(shí)鐘的合成數(shù)據(jù)集,均勻地覆蓋了所有可能的時(shí)間,并避免了互聯(lián)網(wǎng)圖像中常見(jiàn)的偏差:
研究人員合成模擬時(shí)鐘數(shù)據(jù)集中的一個(gè)??示例?,用于在新研究中微調(diào)GPT模型?
??在對(duì)新數(shù)據(jù)集進(jìn)行微調(diào)?之前,GPT-4.1一直無(wú)法讀取這些時(shí)鐘。然而,在接觸了新數(shù)據(jù)集一段時(shí)間后,它的表現(xiàn)有所改善——但前提是新圖像與它之前見(jiàn)過(guò)的圖像相似。?
當(dāng)時(shí)鐘的形狀或指針的樣式發(fā)生變化時(shí),準(zhǔn)確度會(huì)急劇下降;即使是很小的調(diào)整,例如更細(xì)的指針或箭頭(下圖最右邊),也足以使其偏離目標(biāo);此外,GPT-4.1還難以解讀達(dá)利風(fēng)格的“?融化時(shí)鐘??”:?
??標(biāo)準(zhǔn)設(shè)計(jì)的時(shí)鐘圖像(左)、變形的時(shí)鐘圖像(中)和修改后的指針圖像(右),以及GPT-4.1微調(diào)前后返回的時(shí)間??
作者推斷,當(dāng)前的模型(例如GPT-4.1)可能主要通過(guò)視覺(jué)模式匹配來(lái)學(xué)習(xí)讀鐘,而不是通過(guò)任何更深層次的時(shí)間概念,并斷言:
“當(dāng)時(shí)鐘變形或指針變細(xì)并帶有箭頭時(shí),GPT-4.1就會(huì)失效。在150個(gè)隨機(jī)時(shí)間上進(jìn)行的時(shí)間估計(jì)中,初始時(shí)鐘的平均絕對(duì)誤差(MAE)為232.48秒,形狀變形時(shí)為1380.69秒,指針改變時(shí)為3726.93秒。
這些結(jié)果表明,MLLM并沒(méi)有學(xué)會(huì)看時(shí)間,而是記住了模式?!?/p>
足夠的時(shí)間
大多數(shù)訓(xùn)練數(shù)據(jù)集依賴(lài)于抓取的網(wǎng)絡(luò)圖像,這些圖像往往會(huì)重復(fù)特定的時(shí)間——尤其是10:10,這是??手表廣告中流行的設(shè)置??:?
從新論文中,我們可以看到模擬時(shí)鐘圖像中“十點(diǎn)十分”時(shí)間的流行情況
由于所描繪的時(shí)間范圍有限,模型可能只能看到狹窄范圍的時(shí)鐘配置,從而限制了其超越這些重復(fù)模式進(jìn)行概括的能力。
關(guān)于模型為何無(wú)法正確解釋時(shí)鐘扭曲的問(wèn)題,論文指出:
“盡管GPT-4.1在標(biāo)準(zhǔn)時(shí)鐘圖像上表現(xiàn)非常出色,但令人驚訝的是,通過(guò)使時(shí)鐘指針變細(xì)并添加箭頭來(lái)修改時(shí)鐘指針會(huì)導(dǎo)致其準(zhǔn)確性顯著下降。
直觀(guān)地看,人們可能會(huì)認(rèn)為視覺(jué)上更復(fù)雜的變化——扭曲的表盤(pán)——會(huì)對(duì)性能產(chǎn)生更大的影響,但這種修改似乎影響相對(duì)較小。
這就引出了一個(gè)問(wèn)題:MLLM如何解讀時(shí)鐘,以及它們?yōu)槭裁磿?huì)失敗?一種可能性是,較細(xì)的指針會(huì)削弱模型感知方向的能力,從而削弱其對(duì)空間方向的理解。
或者,當(dāng)模型嘗試將時(shí)針、分針和秒針組合成準(zhǔn)確的時(shí)間讀數(shù)時(shí),可能會(huì)有其他因素造成混淆。”
作者認(rèn)為,找出這些失敗的根本原因是推進(jìn)多模態(tài)模型的關(guān)鍵:如果問(wèn)題在于模型如何感知空間方向,微調(diào)可能會(huì)提供一個(gè)簡(jiǎn)單的解決方案;但如果問(wèn)題源于整合多種視覺(jué)線(xiàn)索的更大困難,那么這表明這些系統(tǒng)在處理信息的方式上存在更根本的弱點(diǎn)。
微調(diào)測(cè)試
為了測(cè)試模型的缺陷能否通過(guò)實(shí)踐克服,GPT-4.1在上述綜合合成數(shù)據(jù)集上進(jìn)行了微調(diào)。在進(jìn)行微調(diào)之前,它的預(yù)測(cè)結(jié)果非常分散,所有類(lèi)型的鐘面都存在顯著的誤差。在對(duì)數(shù)據(jù)集進(jìn)行微調(diào)之后,其在標(biāo)準(zhǔn)鐘面上的準(zhǔn)確率顯著提高,而在變形鐘面上的準(zhǔn)確率則有所提升(但幅度較?。?。
然而,指針經(jīng)過(guò)修改的時(shí)鐘,例如指針變得更細(xì)或變成箭頭狀,仍然會(huì)產(chǎn)生很大的誤差。
出現(xiàn)了兩種截然不同的故障模式:在正常和變形的時(shí)鐘上,模型通常會(huì)錯(cuò)誤判斷指針的方向;但在指針樣式改變的時(shí)鐘上,它經(jīng)?;煜扛羔樀墓δ?,將小時(shí)誤認(rèn)為分鐘,或?qū)⒎昼娬`認(rèn)為秒。
這張對(duì)比圖展示了模型最初的弱點(diǎn)以及通過(guò)微調(diào)實(shí)現(xiàn)的部分改進(jìn),圖中顯示了150個(gè)隨機(jī)選擇的時(shí)鐘的預(yù)測(cè)時(shí)間與實(shí)際時(shí)間(以秒為單位)。左側(cè)是微調(diào)之前,GPT-4.1的預(yù)測(cè)結(jié)果比較分散,并且通常與正確值相差甚遠(yuǎn),紅色對(duì)角線(xiàn)表示正確值。右側(cè)是在平衡合成數(shù)據(jù)集上進(jìn)行微調(diào)之后,預(yù)測(cè)結(jié)果與真實(shí)值更加接近,盡管仍然存在一些誤差。
這表明該模型已經(jīng)學(xué)會(huì)將指針的厚度等視覺(jué)特征與特定角色聯(lián)系起來(lái),并且在這些線(xiàn)索發(fā)生變化時(shí)會(huì)遇到困難。
對(duì)不熟悉的設(shè)計(jì)的有限改進(jìn)進(jìn)一步引發(fā)了人們的懷疑:這種模型是否學(xué)習(xí)了報(bào)時(shí)的抽象概念,或者僅僅是改進(jìn)了其模式匹配。
指針類(lèi)型
因此,盡管微調(diào)提高了GPT-4.1在傳統(tǒng)模擬時(shí)鐘上的性能,但它對(duì)指針較細(xì)或箭頭形狀的時(shí)鐘的影響要小得多,這增加了一種可能性,即該模型的失敗不是源于抽象推理,而是源于對(duì)哪根指針是哪根指針的混淆。
為了測(cè)試消除這種混淆后準(zhǔn)確率是否會(huì)提高,研究人員對(duì)模型對(duì)“修改后的指針”數(shù)據(jù)集的預(yù)測(cè)進(jìn)行了新的分析。輸出結(jié)果分為兩組:GPT-4.1正確識(shí)別時(shí)針、分針和秒針的情況;以及未能正確識(shí)別的情況。
在微調(diào)之前和之后,對(duì)預(yù)測(cè)的平均絕對(duì)誤差(MAE)進(jìn)行評(píng)估,并將結(jié)果與標(biāo)準(zhǔn)時(shí)鐘的結(jié)果進(jìn)行比較;還使用表盤(pán)位置作為基線(xiàn)測(cè)量了每個(gè)指針的角度誤差:
修改后的指針數(shù)據(jù)集中,微調(diào)前后有和沒(méi)有指針類(lèi)型混淆的時(shí)鐘的誤差比較
混淆時(shí)鐘指針的角色會(huì)導(dǎo)致最大的誤差。當(dāng)GPT-4.1將時(shí)針誤認(rèn)為分針或?qū)⒎轴樥`認(rèn)為時(shí)針時(shí),最終的時(shí)間估算結(jié)果往往相差甚遠(yuǎn)。相比之下,錯(cuò)誤判斷正確識(shí)別的指針?lè)较蛩鶎?dǎo)致的誤差較小。在三個(gè)指針中,時(shí)針在微調(diào)前的角度誤差最大,而秒針的角度誤差最小。
在修改后的指針數(shù)據(jù)集中,經(jīng)過(guò)微調(diào)之前和之后,對(duì)于有和沒(méi)有指針角色混淆的預(yù)測(cè),指針類(lèi)型的角度誤差。
為了僅關(guān)注方向性誤差,分析僅限于模型正確識(shí)別每個(gè)指針功能的案例。如果該模型已經(jīng)內(nèi)化了一般的報(bào)時(shí)概念,那么它在這些示例上的表現(xiàn)應(yīng)該與在標(biāo)準(zhǔn)時(shí)鐘上的準(zhǔn)確度相當(dāng)。然而,它并沒(méi)有,準(zhǔn)確度仍然明顯下降。
為了檢驗(yàn)指針形狀是否會(huì)影響模型的方向感,研究人員進(jìn)行了第二項(xiàng)實(shí)驗(yàn):創(chuàng)建了兩個(gè)新的數(shù)據(jù)集,每個(gè)數(shù)據(jù)集包含60個(gè)只有時(shí)針的合成時(shí)鐘,指向不同的分鐘刻度。一組數(shù)據(jù)集使用原始指針設(shè)計(jì),另一組數(shù)據(jù)集使用修改后的版本。要求模型說(shuō)出指針指向的刻度標(biāo)記的名稱(chēng)。
結(jié)果表明,修改后的指針識(shí)別準(zhǔn)確率略有下降,但不足以解釋模型的整體缺陷。即使在之前表現(xiàn)良好的任務(wù)中,一個(gè)不熟悉的視覺(jué)特征似乎也足以擾亂模型的整體解讀。
GPT-4.1在標(biāo)準(zhǔn)、扭曲和修改后的時(shí)鐘上進(jìn)行微調(diào)前后的性能,突出了不均衡的收益和持續(xù)存在的弱點(diǎn)。
結(jié)論
雖然這篇論文的重點(diǎn)乍一看似乎無(wú)關(guān)緊要,但視覺(jué)語(yǔ)言模型能否學(xué)會(huì)以100%的準(zhǔn)確率讀取模擬時(shí)鐘,這一點(diǎn)其實(shí)也并不重要。這篇文章的真正意義在于它聚焦于一個(gè)更深層次的反復(fù)出現(xiàn)的問(wèn)題:用更多(也更多樣化)的數(shù)據(jù)來(lái)填充模型,是否能夠獲得人類(lèi)通過(guò)抽象和泛化獲得的那種領(lǐng)域理解;或者,唯一可行的途徑是否是向該領(lǐng)域注入足夠多的樣本,以便在推理過(guò)程中預(yù)測(cè)所有可能的變化。
這兩種方式都會(huì)引發(fā)人們對(duì)當(dāng)前架構(gòu)真正學(xué)習(xí)能力的懷疑。
譯者介紹
朱先忠,51CTO社區(qū)編輯,51CTO專(zhuān)家博客、講師,濰坊一所高校計(jì)算機(jī)教師,自由編程界老兵一枚。
原文標(biāo)題:??AI’s Struggle to Read Analogue Clocks May Have Deeper Significance??,作者:Martin Anderson
