word2vec作者爆料:seq2seq是我的想法、GloVe抄襲技巧,反擊來了
隨著 NeurIPS 2023 獲獎論文的公布,十年前的詞嵌入技術(shù) word2vec 可謂是實至名歸的獲得了時間檢驗獎。這篇論文「Distributed Representations of Words and Phrases and their Compositionality」由當時都還在谷歌的 Tomas Mikolov、Ilya Sutskever、Kai Chen、Greg Corrado、Jeffrey Dean 撰寫。
不過,Word2vec 首篇論文是 Tomas Mikolov 等同一作者的「Efficient Estimation of Word Representations in Vector Space」。對比作者欄,只是增加了 Ilya。而投稿到當年 NeurIPS 的這篇「Distributed Representations of Words and Phrases and their Compositionality」算是真正讓 Word2vec 被廣泛應用的改進論文。
本該是件值得高興的事,但論文一作 Tomas Mikolov 似乎對有些事情并不滿意,最近他分享了論文背后的更多故事。感興趣的讀者可以參考《論文遭首屆 ICLR 拒稿、代碼被過度優(yōu)化,word2vec 作者 Tomas Mikolov 分享背后的故事》。
原文地址:https://www.facebook.com/tomas.mikolov/posts/pfbid0avhBpB2WULd3KNtAieyiDCFpP9MQggxW1xSh6RXZDjWF6sGzgpYa638KMAyF75JSl
Tomas 在 Facebook 上發(fā)表的這篇獲獎感言,爆料了很多內(nèi)容,文章發(fā)出之后,得到了很多人的關(guān)注。
word2vec 原始論文曾被 ICLR 拒稿
Tomas Mikolov 表示 word2vec 原始論文(即 Efficient Estimation of Word Representations in Vector Space)在 2013 年首屆 ICLR 會議被拒絕接收了,盡管當時的接收率很高。在當年的評選中,審稿人給出了一次「弱拒絕」和四次「強烈拒絕」。
感興趣的讀者,可以前去查看:https://openreview.net/forum?id=idpCdOWtqXd60
這個問題很多人表示有同感,LoRA 作者 Weizhu Chen 表示,自己也有相似的經(jīng)歷,LoRA 論文在第一次投稿時也被拒絕了,因為審稿人認為 LoRA 太簡單了。
「SIFT 在 1997 年 ICCV 和 1998 年 CVPR 兩次被拒稿?!?/span>
除了 word2vec 原始論文被拒稿之外,Tomas Mikolov 還透漏了其他事情,我們接著往下看。
seq2seq 的最初想法到底是誰
Tomas Mikolov 表示他于 2012 年加入谷歌大腦團隊,在谷歌大腦工作期間曾與 Quoc Le 和 Ilya Sutskever 討論過一些想法,關(guān)于這個想法 Tomas Mikolov 是這么說的:「其實在加入谷歌之前,我就提出了一個非常簡單的想法,通過在句子對(比如法語 - 英語)上訓練神經(jīng)語言模型來實現(xiàn)端到端的翻譯,然后在看到第一句話后使用生成模式生成翻譯。這對短句子效果很好,但在長句子上就不那么奏效了。」
他曾與谷歌的其他人包括 Quoc Le、Ilya Sutskever 在內(nèi)多次討論了這個項目。然而,事情開始出現(xiàn)轉(zhuǎn)折,Tomas Mikolov 選擇離開谷歌加入 Facebook AI,而這個項目也被其他人接手了。
Tomas Mikolov 指出:「谷歌最終以從序列到序列(sequence to sequence)為名發(fā)表了我的想法,不僅沒有提到我是共同作者,而且在長長的致謝部分提及了谷歌大腦中幾乎所有的人,唯獨沒有我。那時是資金大量涌入人工智能領域的時期,每一個想法都價值連城??吹缴疃葘W習社區(qū)迅速變成某種權(quán)力的游戲,我感到很悲哀?!?/span>
論文地址(上)以及致謝名單(下):https://arxiv.org/pdf/1409.3215.pdf
在 Tomas Mikolov 看來,正是這些想法促進了從序列到序列(sequence to sequence,seq2seq)的研究,也就是說 seq2seq 的想法最初來自于 Tomas Mikolov。
然而,作為 seq2seq 作者的 Quoc Le 并不認同 Tomas 的說法,Quoc Le 先是對 Tomas 參與的 word2vec 論文獲獎表示祝賀。然后話鋒一轉(zhuǎn),「關(guān)于 seq2seq,Tomas 的說法有不準確的地方。特別是,我們都記得非常清楚,他沒有向我們提出這個想法,而且當我們與他分享端到端的翻譯想法時,他實際上非常懷疑。事實上,盡管他持懷疑態(tài)度,我們還是非常努力地讓這個想法發(fā)揮作用。」
圖源:https://twitter.com/quocleix/status/1736523075943125029
GloVe 論文中引用了 Tomas 的研究 7 次
除了 seq2seq,Tomas 還提到了另一個項目,即斯坦福 NLP 小組的 GloVe 項目(全局詞表示向量,被很多人認為優(yōu)于 word2vec)。這項研究由 Jeffrey Pennington、Richard Socher、Christopher D. Manning 共同完成。
論文地址:https://aclanthology.org/D14-1162.pdf
Tomas 表示:「雖然該項目從我們的項目中復刻了很多技巧,但總感覺 GloVe 倒退了一步:速度較慢,還需要更多內(nèi)存,生成的向量質(zhì)量比 word2vec 低。然而,GloVe 是基于在更多數(shù)據(jù)上預訓練的詞向量發(fā)布的,因而很受歡迎。之后,我們在 fastText 項目中修復了相關(guān)問題,在使用相同數(shù)據(jù)進行訓練時,word2vec 比 GloVe 好得多?!?/span>
GloVe 的作者之一 Richard Socher 對此進行了反擊(以下內(nèi)容進行了部分概括)。
圖源:https://twitter.com/RichardSocher/status/1736161332259614989
「我很高興 Tomas Mikolov 和他的合著者贏得了時間檢驗獎。這是當之無愧的,幾天前我已經(jīng)在 Facebook 上向他表示祝賀了。
Tomas 的做法有點像 Schmidhuber(Schmidhuber 多次公開挑戰(zhàn)其他研究人員原創(chuàng)性研究),這是可以理解的。學術(shù)界經(jīng)常會出現(xiàn)這種情況:(一項研究)成功了,會有很多人認領,可以將其理解為『父母』,只有失敗了才是『孤兒』(言外之意是沒有人會在意)。
一個有意義的主題可以激發(fā)聰明的大腦和創(chuàng)造性的想象,這些人往往有相似的想法,許多想法都是不確定的。的確,很多想法在某些時候被提及,但沒有大規(guī)模實施或執(zhí)行?!?/span>
Richard Socher 繼續(xù)說道,當 Mikolov 以一種有點不滿的方式說我們抄襲了其研究的許多技巧時,我們有點不明白,因為我們實際上在 GloVe 論文中引用了他的研究 7 次。
確實,在這篇論文中,我們搜索關(guān)鍵詞 Mikolov,除去參考文獻出現(xiàn)的 3 次,論文中確實是 7 次。
最后,Richard 表示「早在 2010 年,只有少數(shù)人真正關(guān)注并致力于語言網(wǎng)絡的研究:Ronan Collobert、Jason Weston、Tomas Mikolov、Yoshua Bengio、我自己、Chris Manning 和其他一些人?,F(xiàn)在這個領域發(fā)展得如此之快,除非你繼續(xù)做出令人驚嘆的工作,否則很快就會被人們忘記。AI 以及深度 NLP 領域在過去的一年里發(fā)展很快,許多剛剛加入或注意到它的人都不知它從何而來??梢岳斫獾氖?,這讓一些已經(jīng)從事了一段時間并奠定了基礎的人感到不安。但是,我們應該對我們的想法以如此巨大的速度擴展感到興奮?!?/span>
前面我們提到 Tomas 認為 GloVe 比 word2vec 倒退了一步,但是有人針對這一點也進行了反駁:「盡管 word2vec 是詞嵌入的第一個介紹,但我發(fā)現(xiàn) Glove 更直觀且易于移植。你從任何語料庫構(gòu)建詞嵌入的腳本都非常方便。我們在生產(chǎn)中仍然使用 Glove 與 SIF 一起作為輕量級第一過濾器?!?/span>
盡管 Tomas Mikolov 的文章引發(fā)的一系列討論與爭議還在繼續(xù),但不管事實如何,好在 word2vec 獲得了 NeurIPS 2023 時間檢驗獎。
最后想問一句,2014 年發(fā)表到 NeurIPS 的 Seq2Seq 會獲得明年的 NeurIPS 時間檢驗獎嗎?