Transformer八周年!Attention Is All You Need被引破18萬封神
Transformer,八歲了!
開創(chuàng)如今這場生成式AI革命的論文《Attention Is All You Need》迎來了第8個年頭。
Transformer催生了ChatGPT、Gemini、Claude等諸多前沿產(chǎn)品。
更重要的是,它讓人類真正跨入了生成式AI時代。
人類和生成式AI的命運從2017年6月12日周一下午17點57分開始交匯。

Transformer的影響依然還在繼續(xù)!
到今天為止,這篇論文的被引次數(shù)已經(jīng)到了184376!
僅僅過去兩年時間,被引用次數(shù)翻了2倍還多!

網(wǎng)友們也紛紛為Transformer 8歲生日送上祝福。

但和所有傳奇故事的開頭都非常相似,這篇論文當年甚至沒有引起人們的Attention(注意)。
一篇未獲人們「Attention」的傳奇論文
Transformer發(fā)表在2017年的NeurIPS上,這是全球頂級的人工智能會議之一。
然而,它甚至沒有獲得Oral演講,更不用說獲獎了。

2017年的NeurlPS獲獎論文
從如今的影響力和現(xiàn)實意義來看,谷歌公開這篇文章算得上是「功德無量」。
網(wǎng)友也盛贊谷歌的做事方式,允許任何人完全免費使用,甚至不需要許可證授權(quán)。

但隨著生成式AI的發(fā)展,各家巨頭的加入,谷歌也開始逐漸收回自己的「善意」。
在大模型如今競爭白熱化的當下,谷歌DeepMind要求所有科研人員的生成式AI相關論文設定6個月禁發(fā)期!
DeepMind的CEO Hassabis曾表示:不接受,就辭職,這里是公司,不是大學校園;想在大學那樣的環(huán)境工作,那就請你離開。

不僅如此,創(chuàng)新成果不發(fā),Gemini短板也不能提。
或許谷歌一開始也并沒有預料到Transformer會影響人類歷史如此深遠。
人人都愛Transformer
作為一篇嚴肅的機器學習向論文,《Attention Is All You Need》自發(fā)布以來,已經(jīng)有無數(shù)人進行了解讀。
不論是否和機器學習行業(yè)相關,人們「渴望」搞清楚目前生成式AI的能力究竟來源于哪里。
不論是國內(nèi)還是海外,試圖帶你讀懂論文的視頻都有很高的熱度,并且直到今天,「教你學會」、「帶你看懂」等內(nèi)容依然有非常高的播放量。


科技領域的頂級KOL Lex Fridman和AI界的頂級科學家Andrej Karpathy 認為Transformer是AI世界中「最棒的想法」,沒有之一。

而「XXX Is All You Need」甚至成為了嚴肅學界樂此不疲的玩梗素材。
論文題目直接套用了披頭士名曲《All You Need Is Love》的說法,也正因其簡潔而響亮的表達方式,迅速被AI學界和網(wǎng)絡社區(qū)廣泛引用和調(diào)侃——

從「Attention Is All You Need」延伸為「X Is All You Need」的各種變體,形成一整套互聯(lián)網(wǎng)meme式的幽默結(jié)構(gòu) 。
「標題的成功」還引發(fā)了一連串同樣玩梗的論文出現(xiàn),這些論文的標題或內(nèi)容都借用了這一俏皮話。
有研究人員甚至制作了一張圖展示了對所有這些論文的綜述,使讀者能夠總結(jié)出這些論斷出現(xiàn)的背景及其原因。


Transformer后時代:AI八年狂飆
自Transformer問世以來的八年間,研究者和工程師們圍繞這一架構(gòu)進行了大量探索和改進。
Transformer的發(fā)展歷程既包括模型本身的架構(gòu)優(yōu)化,也包括模型規(guī)模的指數(shù)級擴展,以及向多模態(tài)領域的延伸融合。
Transformer架構(gòu)天然適合并行計算,這使得研究人員能夠不斷堆高模型參數(shù)規(guī)模,驗證「大模型是否更聰明」。
事實也證明,參數(shù)和數(shù)據(jù)規(guī)模的擴張帶來了質(zhì)的飛躍。
從最初論文中的億級參數(shù)模型,到2018年的BERT(3.4億參數(shù))和GPT-2(15億參數(shù)),再到2020年的GPT-3(1750億參數(shù)),模型大小呈指數(shù)級增長。
OpenAI等機構(gòu)的研究揭示了清晰的Scaling Law(規(guī)模定律):模型越大,數(shù)據(jù)越多,性能越佳且涌現(xiàn)出小模型不具備的新能力。
隨著規(guī)模擴張,Transformer模型展現(xiàn)出令人驚嘆的零樣本/小樣本學習能力,即無需或只需極少示例就能完成新任務。
模型規(guī)模的擴展帶來了AI能力的質(zhì)變,使Transformer成為真正的基礎模型(Foundation Model)——一經(jīng)訓練即可泛化支持眾多下游應用。
不過,每個傳奇故事似乎都沒有那么Happy Ending的結(jié)尾。
曾經(jīng)聯(lián)手打造出谷歌最強Transformer的「變形金剛們」如今也已分道揚鑣。

8年前一篇不起眼的論文,卻徹底開啟了人類的生成式AI時代。
這個被忽視的小論文,徹底開啟了AI的大時代。
它的故事還遠遠沒有結(jié)束。
目前的AI仍然繼續(xù)在Transformer架構(gòu)基礎上狂飆突進。
Transformer的影響力還能持續(xù)多久,也許只有等AGI實現(xiàn)那天來回答了。
但無論未來AI技術(shù)如何演變,Transformer已經(jīng)在歷史上留下永久且深刻的印記。















 
 
 






 
 
 
 