8/8/6/3的Mamba論文,最終還是被ICLR 2024拒了,網(wǎng)友:懸著的心終于死了
幾天前,ICLR 2024 的最終接收結(jié)果出來(lái)了。
大家應(yīng)該還記得,Mamba 被 ICLR 2024 大會(huì) Decision Pending(待定)的消息在 1 月份引發(fā)過(guò)一波社區(qū)熱議。
當(dāng)時(shí),多位領(lǐng)域內(nèi)的研究者分析,Decision Pending 的意思是延遲決定,雖然也可能會(huì)被拒,但這篇論文得到了 8/8/6/3 的打分,按理說(shuō)不至于真被拒。
論文審稿頁(yè)面:https://openreview.net/forum?id=AL1fq05o7H
如今,Decision 已出,Mamba 徹底被拒,懸著的心終于死了。
「Mamba」發(fā)布之初即被視為「Transformer 的強(qiáng)勁競(jìng)爭(zhēng)者」,它是一種選擇性狀態(tài)空間模型(selective state space model),在語(yǔ)言建模方面可以媲美甚至擊敗 Transformer。而且,它可以隨上下文長(zhǎng)度的增加實(shí)現(xiàn)線性擴(kuò)展,其性能在實(shí)際數(shù)據(jù)中可提高到百萬(wàn) token 長(zhǎng)度序列,并實(shí)現(xiàn) 5 倍的推理吞吐量提升。
但對(duì)于 ICLR 審稿人來(lái)說(shuō),這篇論文還存在重大缺陷(至少針對(duì)當(dāng)前版本)。
手握 8/8/6/3 得分,究竟為什么被拒?
重新查看 OpenReview 頁(yè)面之后,我們發(fā)現(xiàn)了新的審稿意見(jiàn)。
ICLR 區(qū)域主席給出的最終說(shuō)法是:論文使用的評(píng)估方法有爭(zhēng)議。
審稿意見(jiàn)整理如下:
本文介紹了一種為遠(yuǎn)距離語(yǔ)言建模而設(shè)計(jì)的新型狀態(tài)空間模型變體。實(shí)驗(yàn)表明,在語(yǔ)言建模任務(wù)的困惑度指標(biāo)下,該模型與現(xiàn)有模型相比有顯著進(jìn)步。值得注意的是,兩位審稿人給出了非常積極的評(píng)價(jià)(盡管其中一位審稿人在語(yǔ)言模型方面經(jīng)驗(yàn)有限)。然而,第三位審稿人,一位在語(yǔ)言模型方面更有經(jīng)驗(yàn)的專(zhuān)家,提出了兩個(gè)與基準(zhǔn)和評(píng)估指標(biāo)有關(guān)的重大問(wèn)題:
1. 缺少 LRA(Long Range Arena)的結(jié)果:審稿人強(qiáng)調(diào)缺少 LRA 的結(jié)果,而 LRA 是公認(rèn)的長(zhǎng)序列建?;鶞?zhǔn)。在之前的狀態(tài)空間模型研究中,LRA 已成為慣例,因此必須對(duì)其進(jìn)行全面評(píng)估。
2. 使用困惑度進(jìn)行評(píng)估:審稿人質(zhì)疑將困惑度作為主要評(píng)價(jià)指標(biāo)的做法。論文引用了 Sun et al. (2021)(《Do Long-Range Language Models Actually Use Long-Range Context?》)的觀點(diǎn),他們認(rèn)為較低的困惑度并不一定意味著最終 NLP 應(yīng)用的建模能力有所提高。Zhang et al. (2023)(《Efficient Long-Range Transformers: You Need to Attend More, but Not Necessarily at Every Layer》)進(jìn)一步加強(qiáng)了他們的觀點(diǎn),他們強(qiáng)調(diào)了一些 transformer 模型的局限性,這些模型雖然實(shí)現(xiàn)了較低的困惑度,但在生成任務(wù)(如摘要和問(wèn)題解答)中卻舉步維艱。
此外,還有人對(duì)長(zhǎng)序列語(yǔ)言模型在短文本序列中的潛在性能差距表示擔(dān)憂。我建議加入補(bǔ)充實(shí)驗(yàn)結(jié)果來(lái)解決這方面的問(wèn)題。
為了調(diào)和這些不同的觀點(diǎn),我們與審稿人 du8a 進(jìn)行了討論,隨后又與高級(jí)區(qū)域主席進(jìn)行了討論。在對(duì)論文進(jìn)行細(xì)致審查并考慮到所提出的合理關(guān)切后,最終決定建議拒絕該論文。這些問(wèn)題,尤其是與實(shí)驗(yàn)方法和所選評(píng)價(jià)指標(biāo)有關(guān)的問(wèn)題,被認(rèn)為是實(shí)質(zhì)性的,在所提供的 rebuttal 中沒(méi)有得到充分解決。我們認(rèn)為,通過(guò)增加額外的實(shí)驗(yàn)來(lái)解決這些問(wèn)題,對(duì)論文將大有裨益。
同樣被 ICLR 拒絕的神作:「 Word2vec」
Mamba 的經(jīng)歷,讓人們想起了十年前的一篇論文。
圖中提到的是關(guān)于的 Word2vec 首篇論文《Efficient Estimation of Word Representations in Vector Space》,由 Tomas Mikolov 等四位谷歌研究者共同完成。
論文鏈接:https://arxiv.org/pdf/1301.3781.pdf
這篇論文在 2013 年首屆 ICLR 會(huì)議被拒了,盡管當(dāng)年的接收率比較高。去年, Tomas Mikolov 在梳理 Word2vec 發(fā)展歷程的時(shí)候還遺憾提到:「這讓我想到審稿人預(yù)測(cè)論文的未來(lái)影響是多么困難。」
但細(xì)看之下,Word2vec 被拒的原因倒是和一般論文不同。
在 OpenReview 的頁(yè)面,我們看到當(dāng)時(shí)幾位審稿人針對(duì)提交版本給到了一波意見(jiàn),比如補(bǔ)充定義模型的方程等等。
審稿頁(yè)面:https://openreview.net/forum?id=idpCdOWtqXd60
而 Tomas Mikolov 的回復(fù)態(tài)度偏強(qiáng)硬,顯然也沒(méi)有充分完善對(duì)應(yīng)每條審稿意見(jiàn)的材料,導(dǎo)致幾位審稿人看完了 rebuttal,更生氣了。
一位審稿人最終給出「Strong Reject」:
另一位審稿人曾給出「大部分內(nèi)容清晰良好」的評(píng)論,但后來(lái)也修改為「Weak Reject」:
圖
還有一位審稿人直白地指出:
「令人遺憾的是,答辯作者似乎只關(guān)心他的模型和模型組合的每一個(gè)可能的調(diào)整,卻對(duì)合理的科學(xué)對(duì)比表現(xiàn)出強(qiáng)烈的漠視?!?/span>
「作者寫(xiě)道,有許多顯而易見(jiàn)的實(shí)際任務(wù),他們的詞向量應(yīng)該有所幫助,但卻沒(méi)有展示或提及任何任務(wù)?!?/span>
「除了他自己的模型、數(shù)據(jù)集和任務(wù)之外,作者似乎更愿意忽略所有其他的東西。我仍然不清楚是模型的哪個(gè)部分帶來(lái)了性能提升。是頂層任務(wù)還是詞向量的平均化?」
「鏈接到作者在維基百科上發(fā)表的一篇文章并不能作為有力的論據(jù),還不如顯示出指出實(shí)際差異的方程式。經(jīng)過(guò)審稿人之間的討論,我們一致認(rèn)為論文的修訂版和隨附的 rebuttal 并沒(méi)有解決審稿人提出的許多問(wèn)題,審稿人的許多問(wèn)題(如哪些模型包含非線性)仍未得到回答?!?/span>
總之,這次審稿鬧得不太愉快。
后來(lái),四位作者 Tomas Mikolov、Kai Chen、Greg Corrado、Jeffrey Dean 和當(dāng)時(shí)在谷歌任職的 Ilya Sutskever 又寫(xiě)了一篇關(guān)于 Word2vec 的論文《Distributed Representations of Words and Phrases and their Compositionality》,轉(zhuǎn)投 NeurIPS 且被順利接收了。
去年,這篇論文還獲得了 NeurIPS 2023 的時(shí)間檢驗(yàn)獎(jiǎng),獲獎(jiǎng)理由是「這項(xiàng)工作引入了開(kāi)創(chuàng)性的詞嵌入技術(shù) word2vec,展示了從大量非結(jié)構(gòu)化文本中學(xué)習(xí)的能力,推動(dòng)了自然語(yǔ)言處理新時(shí)代的到來(lái)」。
可惜的是,后續(xù)幾位作者的關(guān)系陷入僵局,Tomas Mikolov 透露的版本是:
我在谷歌 Brain 內(nèi)部多次討論過(guò)這個(gè)項(xiàng)目,主要是與 Quoc 和 Ilya,在我轉(zhuǎn)到 Facebook AI 后他們接手了這個(gè)項(xiàng)目。我感到非常意外的是,他們最終以「從序列到序列(sequence to sequence)」為名發(fā)表了我的想法,不僅沒(méi)有提到我是共同作者,而且在長(zhǎng)長(zhǎng)的致謝部分提及了谷歌 Brain 中幾乎所有的人,唯獨(dú)沒(méi)有我。那時(shí)是資金大量涌入人工智能領(lǐng)域的時(shí)期,每一個(gè)想法都價(jià)值連城??吹缴疃葘W(xué)習(xí)社區(qū)迅速變成某種權(quán)力的游戲,我感到很悲哀。
神作的影響力,時(shí)間自會(huì)證明
從 Mamba 的 OpenReview 頁(yè)面來(lái)看,本次審稿過(guò)程中并沒(méi)有「不夠冷靜」的成員。
匯總所有審稿人的意見(jiàn)之后,作者團(tuán)隊(duì)及時(shí)對(duì)論文內(nèi)容進(jìn)行了修改和完善,補(bǔ)充了詳盡的實(shí)驗(yàn)結(jié)果和分析。但正如審稿人所說(shuō),仍然「缺少 LRA(Long Range Arena)的結(jié)果」,導(dǎo)致最終被拒。
與此同時(shí),一位細(xì)心的網(wǎng)友發(fā)現(xiàn),熱門(mén)的開(kāi)源多模態(tài)大模型 CogVLM 也被這次 ICLR 拒了。
對(duì)于 Mamba、CogVLM 的作者團(tuán)隊(duì)來(lái)說(shuō),拒稿是一種令人遺憾的結(jié)果,但換個(gè)角度想,研究的真正價(jià)值不會(huì)僅由某一個(gè)學(xué)術(shù)會(huì)議而界定,也不會(huì)因此被埋沒(méi)。伴隨著理論研究的不斷突破,Mamba 和 CogVLM 或許將衍生出更多有意義的成果,同樣有機(jī)會(huì)開(kāi)啟一個(gè)新的時(shí)代。