AI圖像為何看起來有創(chuàng)意?斯坦福團隊揭示:不是靈感,是算法帶來的“誤打誤撞”
人工智能的“創(chuàng)造力”并不是神秘魔法,它或許只是算法自身架構(gòu)的必然產(chǎn)物。
ICML 2025(International Conference on Machine Learning 2025) 上的一篇論文研究表明:擴散模型在生成圖像時表現(xiàn)出的“創(chuàng)意”,其實來源于去噪過程中的技術(shù)缺陷。
AI的“創(chuàng)造力”不是魔法,而是結(jié)構(gòu)性的副產(chǎn)物
該論文由斯坦福大學(xué)應(yīng)用物理專業(yè)的研究生梅森·坎布(Mason Kamb)主導(dǎo)完成。
圖片
他和導(dǎo)師、物理學(xué)家蘇里亞·岡古利(Surya Ganguli)構(gòu)建了一套名為“等變局部評分機”(Equivariant Local Score Machine,簡稱ELS)的數(shù)學(xué)模型。
這套系統(tǒng)不是訓(xùn)練后的AI模型,而是一套純數(shù)學(xué)公式,完全基于“局部性”和“等變性”這兩個機制,預(yù)測AI去噪圖像的構(gòu)成。
圖片
圖注:這兩個公式定義了 ELS模型 的核心機制,用于生成擴散模型中的逆向更新流
這里的局部性指的是模型只關(guān)注圖像中的一個個像素塊,而不是整體圖像。
而等變性則意味著圖像被稍微移動時,AI生成的圖像也會做出相應(yīng)調(diào)整,以保持結(jié)構(gòu)一致性。
圖片
論文鏈接:https://arxiv.org/abs/2412.20292
傳統(tǒng)看法認(rèn)為,這些只是技術(shù)局限。但坎布認(rèn)為,這兩個機制本身就是AI“創(chuàng)造力”的源泉。
他大膽提出,如果一個系統(tǒng)只追求局部性和等變性,它自然就會表現(xiàn)出擴散模型那樣的創(chuàng)造行為。
他和導(dǎo)師隨后用ELS模型將一系列被轉(zhuǎn)換為“數(shù)字噪聲”的圖像重新“去噪”,再與真正的擴散模型輸出的圖像進行對比。
結(jié)果令人震驚。
ELS如何解釋擴散模型的“創(chuàng)意”
ELS模型的預(yù)測結(jié)果與真實AI模型輸出圖像平均相似度高達90%,這種準(zhǔn)確率在機器學(xué)習(xí)領(lǐng)域前所未見。
圖片
圖注:論文提出的解析理論可以逐例準(zhǔn)確預(yù)測卷積擴散模型在 MNIST、CIFAR10、FashionMNIST 和 CelebA 數(shù)據(jù)集上的輸出,即使這些輸出非常原創(chuàng)且遠離訓(xùn)練數(shù)據(jù)。
“這太不可思議了,”作者表示,“我們以前從未在這個領(lǐng)域見過如此高的擬合度?!?/p>
這意味著所謂的“創(chuàng)造”,可能只是AI系統(tǒng)對局部片段的專注所帶來的副產(chǎn)物。從圖像的角度來說,AI根本不知道整個圖要長成什么樣。
它只是對一個個像素塊做出最合理的“猜測”,然后通過一種叫“評分函數(shù)”的數(shù)學(xué)機制把這些局部片段拼到一起。
拼接過程中可能發(fā)生微小偏差,也可能出現(xiàn)“異常”組合,比如多出幾根手指的人臉圖像。
這正是研究者們最初觀察到的“多指人”現(xiàn)象的來源。
作者在看到AI生成圖像中的這些異常時,立刻聯(lián)想到自己長期研究的“形態(tài)發(fā)生”理論。形態(tài)發(fā)生,是解釋生物體如何從胚胎發(fā)展為完整身體結(jié)構(gòu)的自然過程。
這一理論源于圖靈模式,由計算機科學(xué)先驅(qū)艾倫·圖靈提出,解釋細(xì)胞如何通過相互作用形成特定組織結(jié)構(gòu)。
圖靈模式強調(diào):每個細(xì)胞只響應(yīng)周圍鄰居的信號,沒有一個中央“大腦”控制整體構(gòu)造。
AI的擴散模型也是類似機制:沒有“全局大腦”,只是局部決策。
從這個角度看,AI在“創(chuàng)作”時的行為,和自然界細(xì)胞構(gòu)建身體的行為幾乎一致。
這一發(fā)現(xiàn)提供了一個全新的視角:創(chuàng)造力,也許并不是頂層智能的象征,而是從底層結(jié)構(gòu)中自然“冒出來”的現(xiàn)象。
正如坎布所說,“只要你引入了局部性,創(chuàng)造力就自然而然地出現(xiàn)了?!?/p>
以往研究者一直試圖把AI的“創(chuàng)造”解釋為某種高級認(rèn)知模擬。他們認(rèn)為AI是通過“學(xué)習(xí)人類風(fēng)格”來創(chuàng)作的,仿佛它具備某種類似于人類意識的抽象能力。
圖注:即使訓(xùn)練集里只有一張全黑圖和一張全白圖,模型也能通過“拼小塊”的方式,組合出各種新圖,只要這些小塊在局部看起來是合理的(比如一個小區(qū)域內(nèi)大多數(shù)顏色和中心像素一致)。但如果模型“走得太快”(步長太大),就可能拼出看起來不協(xié)調(diào)的圖像。
這項工作表明,這種看法可能走反了方向。AI的創(chuàng)造力,并不來自它學(xué)會了“如何創(chuàng)造”。而是來自它“不知道”如何看全局,只能靠局部組裝,從而不斷“誤打誤撞”出新的內(nèi)容。
正因如此,它才像是在拼接一幅從未見過的拼圖。
創(chuàng)造力不是神秘靈感,而是結(jié)構(gòu)與組合的產(chǎn)物
這讓我們不得不重新思考另一個更大的問題:人類的創(chuàng)造力,是否也源于類似的機制?
有專家認(rèn)為,人類的創(chuàng)作行為,很多時候也是在片段信息中“填補空白”。我們憑借經(jīng)歷、夢境、記憶、愿望,把碎片拼成作品,AI也是一樣,只不過它拼的是看到過的圖像或指令。
在這種理解下,人類和AI的“創(chuàng)造力”,可能共享一種本質(zhì)機制,對不完整世界的修補嘗試。
當(dāng)我們試圖彌補知識的空缺,最終卻做出一個別人從未想到的組合時,我們稱之為“創(chuàng)新”。
如果AI的創(chuàng)造力也能被數(shù)學(xué)形式精確預(yù)測,是否意味著“創(chuàng)意”從來不是“神來之筆”,而是“計算之果”?
而現(xiàn)在,這篇論文提出的ELS模型可能找到了這個機制。它不僅揭示了AI圖像生成背后的“黑箱”,也打開了通往理解人類思維內(nèi)部結(jié)構(gòu)的大門。
當(dāng)然,擴散模型的創(chuàng)造機制依賴“局部性”和“等變性”,但語言模型等其他AI系統(tǒng),并不依賴這些。
但這項研究告訴我們:創(chuàng)造力不是奇跡,是結(jié)構(gòu)性的必然。
在一個復(fù)雜系統(tǒng)里,當(dāng)局部與局部之間不斷試探、不斷組合,一種“整體圖景”就會在無意識中浮現(xiàn)。
正如圖靈模式下的胚胎細(xì)胞那樣,它們從未見過整個人體,卻能長出完整的手腳。
AI模型也從未見過一幅完整的“圖像”,卻能拼出看起來像是藝術(shù)的產(chǎn)物。
或許,這才是真正的創(chuàng)造。