首篇AI自寫論文通過ICLR 2025同行評(píng)審!6.25高分碾壓人類,AI獨(dú)挑科研大梁
首篇完全由AI生成的論文,竟通過了ICLR 2025同行評(píng)審!
剛剛,Sakana AI正式亮相AI Scientist-v2版本,直接踢破了AI頂會(huì)的大門。
從提出科學(xué)假設(shè)、設(shè)計(jì)實(shí)驗(yàn)、到編寫代碼、運(yùn)行實(shí)驗(yàn)、分析數(shù)據(jù)、繪制圖表,再到撰寫完整論文,所有環(huán)節(jié)均由AI完成。

研究人員向2025 ICLR Workshop,一共提交了3篇AI生成的論文,全部進(jìn)入雙盲評(píng)審。
顯然,審稿人完全不知道,他們?cè)u(píng)審的是AI生成的作品,并且按照評(píng)審人類科學(xué)家論文的標(biāo)準(zhǔn),進(jìn)行嚴(yán)格評(píng)判。
3篇論文中,只有一篇Compositional Regularization: Unexpected Obstacles in Enhancing Neural Network Generalization,平均獲6.25的高分(6,7,6,6),遠(yuǎn)高于許多人類作者的論文。

論文地址:https://github.com/SakanaAI/AI-Scientist-ICLR2025-Workshop-Experiment/blob/master/compositional-regularization/annotated_paper.pdf
另外兩篇全部敗北。

Sakana AI特別強(qiáng)調(diào),這是首次通過「與人類科學(xué)家相同標(biāo)準(zhǔn)」的同行評(píng)審論文。
AI科研歷史性時(shí)刻來了!
AI闖入科研殿堂,全程無人干預(yù)
要知道,ICLR與NeurIPS、ICML并稱機(jī)器學(xué)習(xí)和人工智能研究領(lǐng)域三大頂級(jí)會(huì)議。
如前所述,Sakana AI在由2025 ICLR主辦的Workshop——ICBINB上,展開了這項(xiàng)實(shí)驗(yàn)。
這個(gè)研討會(huì)涉及的議題非常廣泛,挑戰(zhàn)者(包括AI科學(xué)家)需要處理多樣化研究課題,去解決深度學(xué)習(xí)的實(shí)際局限性。

https://sites.google.com/view/icbinb-2025
那么,AI論文是如何參與評(píng)審過程的呢?
評(píng)審過程
通過與ICLR Workshop商定,研究團(tuán)隊(duì)提交了3篇AI生成的論文,參與同行評(píng)審。
審稿人并未明確被告知,他們所評(píng)審的論文是由AI生成的。在ICLR Workshop「評(píng)審指南」中,明確規(guī)定了這一點(diǎn)。

關(guān)鍵在于,Sakana AI提交的AI生成論文,完全由「AI端到端」生成,未經(jīng)任何人類修改。
AI Scientist-v2不僅提出了科學(xué)假設(shè),設(shè)計(jì)了測(cè)試假設(shè)的實(shí)驗(yàn),還編寫并優(yōu)化了實(shí)驗(yàn)代碼,運(yùn)行實(shí)驗(yàn),分析數(shù)據(jù),將數(shù)據(jù)可視化為圖表。
并且,它還撰寫了整篇科學(xué)稿件的每一個(gè)字,從標(biāo)題到最后的參考文獻(xiàn),包括圖表放置和所有格式。
全程沒有人類參與,為了監(jiān)督研究,Sakana AI研究員僅是為AI提供了研究的廣泛主題,并提交了3篇他們自認(rèn)為比較好的論文。
在提交的3篇論文中,其中兩篇未達(dá)到接受標(biāo)準(zhǔn)。
另外一篇論文的平均得分為6.25,在所有提交中排名約45%。這一分?jǐn)?shù)高于研討會(huì)中許多被接受的人類撰寫論文,高于平均接受門檻。具體評(píng)分為:
- 評(píng)分:6:略高于接受門檻
- 評(píng)分:7:好論文,接受
- 評(píng)分:6:略高于接受門檻
- 評(píng)分:6:略高于接受門檻

對(duì)AI生成論文的分析
除了同行評(píng)審過程,作為人類AI研究者,Sakana AI還對(duì)所有3篇AI生成論文進(jìn)行了自己的分析和評(píng)審。
團(tuán)隊(duì)為每篇論文撰寫了全面的評(píng)審意見。

除了自己的評(píng)審之外,Sakana AI還為每篇AI生成的論文添加了內(nèi)聯(lián)評(píng)論
他們扮演了ICLR會(huì)議審稿人的角色,向論文作者AI Scientist提出了自己發(fā)現(xiàn)的問題,并建議作者如何通過回應(yīng)我們提出的問題改進(jìn)論文。
與研討會(huì)評(píng)審過程不同,這種雙向交流是頂會(huì)或期刊典型同行評(píng)審過程的一部分,審稿人與作者共同改進(jìn)作品。
如下圖所示,AI Scientist偶爾會(huì)犯令人尷尬的引用錯(cuò)誤。
在這里,研究團(tuán)隊(duì)發(fā)現(xiàn)它錯(cuò)誤地將「基于LSTM神經(jīng)網(wǎng)絡(luò)」引用寫成Goodfellow(2016),而正確的作者應(yīng)是 Hochreiter 和 Schmidhuber(1997)。

除了評(píng)審和評(píng)論外,研究團(tuán)隊(duì)還在初審階段,為每篇論文提供了初步評(píng)估分?jǐn)?shù),評(píng)估依據(jù)頂級(jí)ML會(huì)議(如NeurIPS、ICLR)的指南進(jìn)行。
最終,他們得出結(jié)論:這3篇論文在其當(dāng)前形式下,均未達(dá)到內(nèi)部認(rèn)為能被ICLR主會(huì)場(chǎng)接受的內(nèi)部標(biāo)準(zhǔn)。
然而,他們認(rèn)為提交至Workshop的論文能夠提出有趣、原創(chuàng)的初步想法,可以進(jìn)一步的大發(fā)展,因此研究人員認(rèn)為它們可能更適合ICLR Workshop分會(huì)場(chǎng)。
目前,Sakana AI已在GitHub倉(cāng)庫(kù)中,公開了內(nèi)部人類評(píng)審意見,以及這3篇AI生成論文。

項(xiàng)目地址:https://github.com/SakanaAI/AI-Scientist-ICLR2025-Workshop-Experiment?tab=readme-ov-file
AI中的不是主會(huì),內(nèi)部評(píng)審未通過
Sakana AI團(tuán)隊(duì)坦承,目前AI生成的論文,在其內(nèi)部標(biāo)準(zhǔn)下尚未達(dá)到ICLR主會(huì)場(chǎng)的接受水平。
在ICLR、ICML、NeurIPS三大頂會(huì)主場(chǎng),接受率通常在20-30%之間,而ICBINB Workshop接受率在60-70%之間。
盡管這只是Workshop,而非主會(huì)場(chǎng)的成果,但這一里程碑式突破預(yù)示著更大變革即將到來。
在未來的研究中,團(tuán)隊(duì)打算繼續(xù)改進(jìn)流程,生成更高質(zhì)量的科學(xué)論文,爭(zhēng)取通過頂級(jí)會(huì)議的標(biāo)準(zhǔn)。
Sakana AI還指出,AI Scientist主要基于當(dāng)前最先進(jìn)的LLM打造,因此其表現(xiàn)直接與這些LLM的性能相關(guān)。
如果前沿基礎(chǔ)模型得到持續(xù)改進(jìn),那么AI Scientist也將不斷提升。
主動(dòng)撤回論文,科學(xué)規(guī)范不能破
值得一提的是,Sakana AI在進(jìn)行這項(xiàng)研究時(shí),高度重視透明度與倫理規(guī)范。
他們認(rèn)為,科學(xué)界研究AI生成研究的質(zhì)量非常重要,而最好的方法之一是,將少量樣本提交至與評(píng)估人類科學(xué)研究相同的嚴(yán)格同行評(píng)審過程(前提是已獲得管理這些過程的相關(guān)方許可)。
Sakana AI與ICLR組委會(huì),以及Workshop組織者全面合作才展開的實(shí)驗(yàn),并獲得了不列顛哥倫比亞大學(xué)機(jī)構(gòu)審查委員會(huì)(IRB)的批準(zhǔn)。
此外,AI生成論文不會(huì)在OpenReview的公共論壇上公開。根據(jù)事先約定的實(shí)驗(yàn)協(xié)議,Sakana AI主動(dòng)撤回了被接受的論文。
這是因?yàn)椋珹I和科學(xué)界尚未決定是否希望在相同場(chǎng)合發(fā)表AI生成的稿件。
團(tuán)隊(duì)認(rèn)為,「作為一個(gè)共同體,我們需要制定關(guān)于AI生成科學(xué)的規(guī)范,包括何時(shí)以及如何聲明一篇論文由AI生成」。
「AI科學(xué)家」的未來
Sakana AI堅(jiān)信相信,AI Scientist的下一代將開啟科學(xué)的新時(shí)代。
AI能夠生成一篇通過頂級(jí)ML Workshop同行評(píng)審的完整科學(xué)論文,展現(xiàn)了非常有前景的早期進(jìn)展跡象。
但,這只是開始。
隨著AI繼續(xù)改進(jìn),AI Scientist的能力可能呈指數(shù)級(jí)增長(zhǎng)。
在未來某個(gè)時(shí)候,AI很可能會(huì)生成達(dá)到甚至超越人類水平的論文,不僅能在頂級(jí)ML頂會(huì)上被接受,還能在頂級(jí)科學(xué)期刊中發(fā)表。






































