「我受夠了Transformer」:其作者Llion Jones稱AI領(lǐng)域已僵化,正錯失下一個突破
這兩天,VentureBeat 一篇報道在 Hacker News 上引發(fā)熱議。
顛覆性論文《Attention is all you need》的作者之一,現(xiàn)任 Sakana AI CTO 的 Llion Jones 在近日的 TED AI 大會上表示他已經(jīng)厭倦了 Transformer。

是什么,讓這位 Transformer 的創(chuàng)造者發(fā)出了如此言論?
近日在舊金山舉行的 TED AI 大會上,Llion Jones 表示:盡管前所未有的投資和人才正涌入 AI 領(lǐng)域,但該領(lǐng)域已經(jīng)僵化在單一的架構(gòu)方法上,這可能會讓研究人員對下一個重大突破視而不見。
他說:「盡管(該領(lǐng)域)從未有過如此多的關(guān)注、資源、資金和人才,但這在某種程度上導(dǎo)致了我們正在進行的研究變得狹隘?!顾J(rèn)為,罪魁禍?zhǔn)资莵碜酝顿Y者的回報要求以及研究人員在過度擁擠的領(lǐng)域中爭相脫穎而出的「巨大壓力」。
當(dāng)然,不得不承認(rèn),這個言論并不新鮮。但考慮到 Llion Jones 的身份,還是頗為讓人驚訝也更引人重視。
如前所言,Jones 是論文《Attention is all you need》的作者之一。不僅如此,也正是他將這個后面改變了世界的 AI 架構(gòu)命名為「Transformer」。

注意該論文的所有作者皆為共一作者,名字以隨機方式排列
現(xiàn)如今,這篇發(fā)表于 2017 年的論文已經(jīng)收獲了超過 20 萬引用量,絕對算是本世紀(jì)最具影響力的計算機科學(xué)論文之一(甚至或許沒有之一)。

現(xiàn)在,作為總部位于東京的 Sakana AI 的 CTO 和聯(lián)合創(chuàng)始人,Jones 卻正在放棄自己的造物。他說:「我個人在今年年初做出了一個決定,我將大幅減少我在 Transformer 上花費的時間。我現(xiàn)在正明確地探索和尋找下一個重大突破?!?/span>

資金更多,創(chuàng)新卻更少?
在 Llion Jones 的演講中,AI 領(lǐng)域正面臨著一個重大悖論:資源更多了,但創(chuàng)造力卻在下降。
他說,研究者們正在不斷檢查自己是否被研究相同想法的競爭對手「搶先」(scooped),學(xué)者們也選擇安全、易于發(fā)表的項目,而不是高風(fēng)險、具有潛在變革性的項目。
實際上,我們在近日的報道中也發(fā)現(xiàn)了兩個比較顯著的案例。
其一是有 4 篇不同論文幾乎同時提出了與謝賽寧表征自編碼器(RAE)類似的思想,我們也報道了其中兩個(另外兩篇是 arXiv:2509.25162 和 arXiv:2510.18457)
其二則是智譜的 Glyph 與深度求索的 DeepSeek-OCR 撞車,都研究了用視覺方式來 token 化文本的方法。


針對這種情況,Llion Jones 進一步解釋說:「如果你現(xiàn)在正在做標(biāo)準(zhǔn)的 AI 研究,你必須假設(shè)大概有三、四個其他團隊在做非常相似,甚至完全一樣的事情。不幸的是,這種壓力損害了科學(xué),因為人們倉促發(fā)表論文,這降低了創(chuàng)造力?!?/span>
他從 AI 自身中引出一個類比,即「探索與利用」(exploration versus exploitation) 的權(quán)衡:當(dāng)一個系統(tǒng)過度「利用」而「探索」不足時,它會找到平庸的局部最優(yōu)解,同時錯失更優(yōu)越的替代方案。他認(rèn)為:「我們幾乎可以肯定,AI 行業(yè)目前就處于這種情況。」

這背后的含義發(fā)人深省。Jones 回憶起 Transformer 出現(xiàn)前的那段時期,當(dāng)時研究人員們正無休止地調(diào)整循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN,這是之前的主導(dǎo)架構(gòu))以獲取微小的增量收益。
當(dāng) Transformer 出現(xiàn)后,所有這些工作突然顯得無關(guān)緊要。他提出了問題:「你認(rèn)為,如果那些研究人員知道像 Transformer 這樣的東西即將出現(xiàn),他們會花多少時間試圖改進循環(huán)神經(jīng)網(wǎng)絡(luò)?」
他擔(dān)心該領(lǐng)域正在重復(fù)這種模式。「我擔(dān)心我們現(xiàn)在正處于這樣一種境地:我們只專注于一種架構(gòu),不斷對其進行排列組合和嘗試不同的東西,而真正的突破可能近在咫尺?!?/span>
《Attention is all you need》誕生于自由,而非壓力
為了強調(diào)他的觀點,Jones 描述了 Transformer 得以誕生的條件,從而這與當(dāng)今的環(huán)境形成了鮮明對比。他說,這個項目是「非常有機的、自下而上」的,誕生于「午餐時的交談或在辦公室白板上的隨意涂鴉」。
Jones 回憶道:「關(guān)鍵在于,我們最初實際上并沒有一個成熟的想法,但我們有自由真正花時間去研究它…… 更重要的是,我們沒有來自管理層的任何壓力 —— 沒有壓力要求我們必須做某個特定項目,或者必須發(fā)表多少篇論文來提升某個特定指標(biāo)?!?/span>
Jones 暗示,那種自由在今天是普遍缺失的。
即使是那些以天價招聘來的研究人員,也可能感覺沒有權(quán)力去冒險。他問道:「你認(rèn)為當(dāng)他們開始新職位時,他們是感到有權(quán)嘗試自己瘋狂、更具投機性的想法,還是感到巨大壓力必須證明自己的價值,并再次去摘取那些唾手可得的成果?」
不知道 Meta 的研究者對此有何看法。
研究自由勝過百萬美元年薪?
Jones 提出了一個解決方案:調(diào)高「探索旋鈕」(explore dial),并公開分享研究結(jié)果,即使這會帶來競爭代價。他承認(rèn)自己立場的諷刺性?!嘎牭?Transformer 的作者之一站在舞臺上告訴你他已經(jīng)受夠了 Transformer,這可能聽起來有點爭議…… 但這在某種程度上是合理的,對吧?除了其他七個人之外,我研究 Transformer 的時間比任何人都長?!?/span>
Jones 表示,在 Sakana AI,他正試圖重現(xiàn) Transformer 出現(xiàn)之前的環(huán)境,進行受自然啟發(fā)的 (nature-inspired) 研究,并且將追逐論文發(fā)表或與對手直接競爭的壓力降至最低。他向研究人員提供了來自工程師 Brian Cheung 的一句箴言:「你只應(yīng)該做那些如果你不做就不會出現(xiàn)的研究。」
一個例子是 Sakana 的「連續(xù)思維機器」(continuous thought machine),它將類腦同步機制整合到了神經(jīng)網(wǎng)絡(luò)中。

提出這個想法的一名員工告訴 Jones,如果是在以前的雇主或?qū)W術(shù)職位上,他會面臨質(zhì)疑和壓力,被認(rèn)為是在浪費時間。在 Sakana,Jones 給了他一周時間去探索。這個項目最終大獲成功,被 AI 頂級會議 NeurIPS 接收為 Spotlight 論文。
Jones 甚至表示,在招聘方面,自由勝過薪酬?!高@是吸引人才的一種非常、非常好的方式?!顾劦竭@種探索性環(huán)境時說?!赶胍幌耄胁湃A、聰明、有抱負(fù)的人,會自然而然地尋找這樣的環(huán)境?!?/span>
前些天 The Information 報道稱,Sakana AI 將以 25 億美元估值籌集 1 億美元,這或許將為其研究理念贏得更多資金支持。
Transformer 很成功,但也可能正在阻礙 AI 的下一個突破
不僅如此,Llion Jones 還暗示 Transformer 可能已成為其自身成功的受害者。他說:「當(dāng)前技術(shù)如此強大和靈活的事實阻止了我們?nèi)ふ腋玫模夹g(shù))。不難理解,如果當(dāng)前的技術(shù)更差,就會有更多的人去尋找更好的替代品?!?/span>

他謹(jǐn)慎地澄清,他并非在貶低正在進行的 Transformer 研究?!冈诂F(xiàn)有技術(shù)上仍有大量非常重要的工作要做,并將在未來幾年帶來巨大價值。我只是說,鑒于我們目前擁有的人才和資源,我們完全有能力做得更多。」
他最終傳達(dá)的信息是合作而非競爭。Jones 總結(jié)道:「坦率地說,從我的角度來看,這不是一場競賽。我們都有相同的目標(biāo)。我們都希望看到這項技術(shù)進步,以便我們所有人都能從中受益。因此,如果我們能夠共同調(diào)高探索旋鈕,然后公開分享我們的發(fā)現(xiàn),我們就能更快地實現(xiàn)目標(biāo)。」
這一觀點也是網(wǎng)友們關(guān)注和討論的核心,在 Hacker News 上,有不少人分享了自己的看法。


AI 探索問題的高風(fēng)險
這番言論發(fā)表于 AI 發(fā)展的關(guān)鍵時刻。
現(xiàn)在有越來越多的證據(jù)似乎表明:簡單地構(gòu)建更大的 Transformer 模型可能正接近收益遞減的瓶頸。頂尖研究者已經(jīng)開始公開討論當(dāng)前范式是否存在根本局限性,一些人認(rèn)為,要讓 AI 系統(tǒng)持續(xù)進步并變得更強大,需要的將是架構(gòu)創(chuàng)新,而不僅僅是規(guī)模。
Jones 的警告表明,要找到這些創(chuàng)新,可能需要顛覆現(xiàn)有的激勵機制,即便這些機制確實推動了 AI 的近期繁榮。每年有數(shù)百億美元流入 AI 研發(fā)領(lǐng)域,實驗室之間的激烈競爭導(dǎo)致現(xiàn)在人們更傾向于保密,以及加快論文發(fā)表周期。他所描述的那種探索性研究環(huán)境似乎正漸行漸遠(yuǎn)。

然而,他的內(nèi)部人士視角具有非凡的分量。作為幫助創(chuàng)造了當(dāng)今主導(dǎo)技術(shù)的人,Jones 既了解實現(xiàn)突破性創(chuàng)新需要什么,也了解行業(yè)放棄這種創(chuàng)新方法所面臨的風(fēng)險。他決定告別成就其聲譽的 Transformer 架構(gòu),這為他的信息增添了可信度 —— 否則,這些話聽起來可能只是標(biāo)新立異的立場。
當(dāng)然,我們無法確定 AI 領(lǐng)域的巨頭們是否會響應(yīng)這一呼吁。
但 Jones 尖銳地提醒人們注意風(fēng)險所在:下一個 Transformer 規(guī)模的突破可能近在咫尺,正由那些擁有探索自由的研究人員追尋。它可能正被束之高閣、無人探索;而與此同時,成千上萬的研究人員正競相發(fā)表對某個架構(gòu)的增量改進。
用 Jones 的話來說,這位 Transformer 架構(gòu)的創(chuàng)造者之一已經(jīng)「受夠了它(absolutely sick of)」。

Hacker News 上的犀利評論
畢竟,他研究 Transformer 的時間比幾乎任何人都長。他自然知道什么時候該翻篇了。


























