Transformer八周年!Attention Is All You Need被引破18萬(wàn)封神
Transformer,八歲了!
開(kāi)創(chuàng)如今這場(chǎng)生成式AI革命的論文《Attention Is All You Need》迎來(lái)了第8個(gè)年頭。
Transformer催生了ChatGPT、Gemini、Claude等諸多前沿產(chǎn)品。
更重要的是,它讓人類(lèi)真正跨入了生成式AI時(shí)代。
人類(lèi)和生成式AI的命運(yùn)從2017年6月12日周一下午17點(diǎn)57分開(kāi)始交匯。
Transformer的影響依然還在繼續(xù)!
到今天為止,這篇論文的被引次數(shù)已經(jīng)到了184376!
而在兩年前的6周年時(shí)候,被引次數(shù)是77926。
僅僅過(guò)去兩年時(shí)間,被引用次數(shù)翻了2倍還多!
網(wǎng)友們也紛紛為T(mén)ransformer 8歲生日送上祝福。
但和所有傳奇故事的開(kāi)頭都非常相似,這篇論文當(dāng)年甚至沒(méi)有引起人們的Attention(注意)。
一篇未獲人們「Attention」的傳奇論文
Transformer發(fā)表在2017年的NeurIPS上,這是全球頂級(jí)的人工智能會(huì)議之一。
然而,它甚至沒(méi)有獲得Oral演講,更不用說(shuō)獲獎(jiǎng)了。
2017年的NeurlPS獲獎(jiǎng)?wù)撐?/span>
從如今的影響力和現(xiàn)實(shí)意義來(lái)看,谷歌公開(kāi)這篇文章算得上是「功德無(wú)量」。
網(wǎng)友也盛贊谷歌的做事方式,允許任何人完全免費(fèi)使用,甚至不需要許可證授權(quán)。
但隨著生成式AI的發(fā)展,各家巨頭的加入,谷歌也開(kāi)始逐漸收回自己的「善意」。
在大模型如今競(jìng)爭(zhēng)白熱化的當(dāng)下,谷歌DeepMind要求所有科研人員的生成式AI相關(guān)論文設(shè)定6個(gè)月禁發(fā)期!
DeepMind的CEO Hassabis曾表示:不接受,就辭職,這里是公司,不是大學(xué)校園;想在大學(xué)那樣的環(huán)境工作,那就請(qǐng)你離開(kāi)。
不僅如此,創(chuàng)新成果不發(fā),Gemini短板也不能提。
或許谷歌一開(kāi)始也并沒(méi)有預(yù)料到Transformer會(huì)影響人類(lèi)歷史如此深遠(yuǎn)。
人人都愛(ài)Transformer
作為一篇嚴(yán)肅的機(jī)器學(xué)習(xí)向論文,《Attention Is All You Need》自發(fā)布以來(lái),已經(jīng)有無(wú)數(shù)人進(jìn)行了解讀。
不論是否和機(jī)器學(xué)習(xí)行業(yè)相關(guān),人們「渴望」搞清楚目前生成式AI的能力究竟來(lái)源于哪里。
不論是國(guó)內(nèi)還是海外,試圖帶你讀懂論文的視頻都有很高的熱度,并且直到今天,「教你學(xué)會(huì)」、「帶你看懂」等內(nèi)容依然有非常高的播放量。
科技領(lǐng)域的頂級(jí)KOL Lex Fridman和AI界的頂級(jí)科學(xué)家Andrej Karpathy 認(rèn)為T(mén)ransformer是AI世界中「最棒的想法」,沒(méi)有之一。
而「XXX Is All You Need」甚至成為了嚴(yán)肅學(xué)界樂(lè)此不疲的玩梗素材。
論文題目直接套用了披頭士名曲《All You Need Is Love》的說(shuō)法,也正因其簡(jiǎn)潔而響亮的表達(dá)方式,迅速被AI學(xué)界和網(wǎng)絡(luò)社區(qū)廣泛引用和調(diào)侃——
從「Attention Is All You Need」延伸為「X Is All You Need」的各種變體,形成一整套互聯(lián)網(wǎng)meme式的幽默結(jié)構(gòu) 。
「標(biāo)題的成功」還引發(fā)了一連串同樣玩梗的論文出現(xiàn),這些論文的標(biāo)題或內(nèi)容都借用了這一俏皮話(huà)。
有研究人員甚至制作了一張圖展示了對(duì)所有這些論文的綜述,使讀者能夠總結(jié)出這些論斷出現(xiàn)的背景及其原因。
Transformer后時(shí)代:AI八年狂飆
自Transformer問(wèn)世以來(lái)的八年間,研究者和工程師們圍繞這一架構(gòu)進(jìn)行了大量探索和改進(jìn)。
Transformer的發(fā)展歷程既包括模型本身的架構(gòu)優(yōu)化,也包括模型規(guī)模的指數(shù)級(jí)擴(kuò)展,以及向多模態(tài)領(lǐng)域的延伸融合。
Transformer架構(gòu)天然適合并行計(jì)算,這使得研究人員能夠不斷堆高模型參數(shù)規(guī)模,驗(yàn)證「大模型是否更聰明」。
事實(shí)也證明,參數(shù)和數(shù)據(jù)規(guī)模的擴(kuò)張帶來(lái)了質(zhì)的飛躍。
從最初論文中的億級(jí)參數(shù)模型,到2018年的BERT(3.4億參數(shù))和GPT-2(15億參數(shù)),再到2020年的GPT-3(1750億參數(shù)),模型大小呈指數(shù)級(jí)增長(zhǎng)。
OpenAI等機(jī)構(gòu)的研究揭示了清晰的Scaling Law(規(guī)模定律):模型越大,數(shù)據(jù)越多,性能越佳且涌現(xiàn)出小模型不具備的新能力。
隨著規(guī)模擴(kuò)張,Transformer模型展現(xiàn)出令人驚嘆的零樣本/小樣本學(xué)習(xí)能力,即無(wú)需或只需極少示例就能完成新任務(wù)。
模型規(guī)模的擴(kuò)展帶來(lái)了AI能力的質(zhì)變,使Transformer成為真正的基礎(chǔ)模型(Foundation Model)——一經(jīng)訓(xùn)練即可泛化支持眾多下游應(yīng)用。
不過(guò),每個(gè)傳奇故事似乎都沒(méi)有那么Happy Ending的結(jié)尾。
曾經(jīng)聯(lián)手打造出谷歌最強(qiáng)Transformer的「變形金剛們」如今也已分道揚(yáng)鑣。
8年前一篇不起眼的論文,卻徹底開(kāi)啟了人類(lèi)的生成式AI時(shí)代。
這個(gè)被忽視的小論文,徹底開(kāi)啟了AI的大時(shí)代。
它的故事還遠(yuǎn)遠(yuǎn)沒(méi)有結(jié)束。
目前的AI仍然繼續(xù)在Transformer架構(gòu)基礎(chǔ)上狂飆突進(jìn)。
Transformer的影響力還能持續(xù)多久,也許只有等AGI實(shí)現(xiàn)那天來(lái)回答了。
但無(wú)論未來(lái)AI技術(shù)如何演變,Transformer已經(jīng)在歷史上留下永久且深刻的印記。