誰殺死了那篇好論文?AI頂會亂象:好論文被刷,低分論文被捧上天
在AI頂會上當審稿人,本該是一份體面又嚴肅的工作。
但對這位AAAI 2026的評審來說,今年的經(jīng)歷卻奇怪得離譜。
他在Reddit上寫道:
這是我見過最混亂的審稿流程。
打分、討論、反駁、再討論——好的論文被刷下,弱的論文卻被力挺。
有人認真寫了上千字評語,有人幾句護航就能讓分數(shù)直線上升。
而在這場混亂背后,還有AI在幫忙「總結(jié)」審稿意見。
學術(shù)公正,仿佛被卷進了一場算法實驗。
幕后「憤怒爆料」
一位審稿人的深夜自述
這是我遇到過最奇怪的審稿流程。
一位AAAI 2026的匿名評審,在Reddit上留下了這樣一句話。
他沒有投稿,只是今年負責評審幾篇論文。但他形容,這次經(jīng)歷讓他「開始懷疑整套機制是不是出問題了」。
在AAAI 2026的官方流程中,審稿被分為Phase 1與Phase 2兩個階段。

同行評審流程圖:從投稿到接收,隱藏在流程里的權(quán)力節(jié)點。
第一輪由少量評審初篩,不符合標準的論文直接被淘汰;第二輪再由新的評審補充打分、討論,并由程序委員會決定最終結(jié)果。
聽上去科學又嚴謹??稍谶@位評審的眼中,一切卻亂得離譜。
他在帖子中寫道:
第一輪我審了四篇論文,分別打了3、4、5和5分。雖然有些問題,但整體還不錯,我甚至打算在討論后調(diào)高分數(shù)??勺詈蟆急痪芰恕?/span>
而進入第二輪的論文,卻更讓他震驚:
我現(xiàn)在拿到的幾篇新稿,打分只有3和4,但質(zhì)量明顯比第一輪更差。
也就是說,好論文被刷掉,弱論文晉級。他感到,整個評審體系好像失去了邏輯。
更讓他不安的,是其中一篇論文的評審分歧。
他認真地寫了上千字評論,指出論文「缺乏技術(shù)細節(jié)」「邏輯解釋不清」,并給出3分。
另一位評審卻給了高達7分(滿分10),甚至在討論階段試圖把分提到8。
那位評審還在系統(tǒng)中留言:
作者已經(jīng)解決了大部分評審的疑問,只是有些實驗受限于監(jiān)管要求。
可問題在于,這位爆料人根本沒提過實驗問題。他所有的關(guān)鍵質(zhì)疑,都被對方「自動略過」。
于是,一個念頭在他腦海里浮現(xiàn):難道這就是所謂的「關(guān)系稿」?但他也不敢貿(mào)然下結(jié)論,只能在帖末留下試探:
我該不該把這件事上報?如果那篇論文最后被接收,我可能再也不會審AAAI的稿了。
這條帖子很快登上r/MachineLearning熱門,評論區(qū)也炸開了鍋。
有人說「我也遇到過同樣的情況」;有人吐槽「AI在幫忙總結(jié)評審意見,壞批次+AI評審,簡直是災(zāi)難」;甚至有人直接寫道:「串評不是bug,它已經(jīng)成了制度的一部分?!?/span>

一場原本學術(shù)圈內(nèi)部的討論,就這樣被推上了臺面。
而這次風波,也揭開了一個更深的問題:AI頂會的評審,正在變成一場沒有人能真正信任的實驗。
評審機制的「黑箱升級」
AI也在審AI
表面上看,AAAI 的評審流程已經(jīng)相當完善:兩輪篩選、分階段打分、集中討論、匿名機制。
但在不少審稿人看來,這套新機制更像是一場算法化的實驗——高效,卻讓人愈發(fā)不安。

詳細鏈接:https://aaai.org/conference/aaai/aaai-26/review-process/?utm_source=chatgpt.com
AAAI 官網(wǎng)的官方說明今年會議首次采用Phase 1/Phase 2雙階段評審制度。
- Phase 1(初篩階段):每篇論文只分配兩位審稿人,如果兩人都打低分,論文會直接被淘汰;
- Phase 2(復(fù)審階段):只有當兩人意見不一致,或論文「有潛力」時,才會進入第二輪,由新的評審和領(lǐng)域主席(AC)做最終決策。
也就是說,評審人寫下的幾千字評論,最終可能會被AI歸納成幾句話,而程序委員會則依賴這些摘要來決定去留。
第一階段的兩個人,擁有幾乎「一票否決」的權(quán)利。
一旦其中一位審稿人主觀、偏激、或者「Reviewer 2式」地吹毛求疵,一篇原本有價值的論文可能在討論開始前就被淘汰。
更復(fù)雜的是,AAAI 2026還正式啟用了AI輔助審稿系統(tǒng)。這不是坊間傳言,而是會議組委會親自確認的試點項目。
在2025年8月發(fā)布的「AI-Assisted Peer Review Pilot Program 常見問答」中,AAAI官方明確寫道:
AI系統(tǒng)將協(xié)助評審委員會成員,通過總結(jié)評審意見與作者答辯(rebuttal),檢測缺失信息與潛在沖突,并向領(lǐng)域主席(AC)提供概覽報告。
也就是說,AI不僅參與分配稿件,還能自動生成評審總結(jié),供領(lǐng)域主席決策參考。
官方強調(diào)它「僅是輔助」,不會直接決定論文去留,但在實際操作中,不少審稿人懷疑, 這套AI總結(jié)的語氣和傾向,已經(jīng)在無形中影響最終結(jié)果。
Reddit評論區(qū)中就有審稿人吐槽:
他們甚至說要用AI來總結(jié)所有rebuttal和評論。換句話說,論文被接不接,可能取決于AI的情緒。
也就是說,人類的判斷正被AI間接取代。這讓原本已經(jīng)主觀的評審,更加不可控。
而雙階段制的問題,也在這次風波中被放大。
第一階段由少量評審快速篩稿,極大依賴個人判斷;第二階段的新審稿人再加入,卻常常缺乏前情背景。
于是,就出現(xiàn)了那位審稿人說的情況:第一輪質(zhì)量更好的論文被拒,第二輪弱稿反而入選。
多位評審在不同論壇也提到類似經(jīng)歷。有人在另一條Reddit討論串中寫道:
我給出了一份詳細的負面評語,但另一位評審寫了兩行優(yōu)點,打了滿分10。最后論文進了。

當審稿結(jié)果越來越像一場運氣游戲,再加上AI的參與,人類評審的邊界開始模糊。
到底是誰在決定論文的命運?是專家,還是模型?
當人類評審還沒達成共識時,AI就已生成「結(jié)論」;當領(lǐng)域主席依賴摘要做決定,爭議就被算法「壓平」。
原本為了提升效率的制度設(shè)計,如今反而讓權(quán)力更集中、過程更不透明。
Phase 1決定誰能被討論,AI幫忙決定誰能被接受。
學術(shù)評審,正一步步變成一個由算法與人類共同運作的黑箱。
同行評審的信任塌陷
AI頂會的「人情」與「算法」
在AI學術(shù)圈,同行評審曾被視為最后的質(zhì)量守門人。可如今,這道門越來越難守。
Reddit上那位AAAI評審的帖子之所以引爆輿論,并不是因為一句「關(guān)系稿」有多驚悚, 而是因為太多研究者都有似曾相識的無力感。
有人留言說:「 一個小領(lǐng)域的論文,幾乎都出自同一個實驗室,用的同一份數(shù)據(jù)、同一張表格。 」

另一位用戶干脆寫道:「 我不做那個方向了,真心做不下去?!?/span>
這種情緒并非個例。在過去幾年,AI頂會幾乎每年都會出現(xiàn)類似爭議:某些熱門領(lǐng)域被少數(shù)團隊壟斷,互相引用、互相評審,新研究者要么進不去,要么被打低分。
當研究越來越碎片化、投稿量暴漲、專家資源被反復(fù)調(diào)用,系統(tǒng)本身就難以保持平衡。
AI的介入,本該緩解負擔,卻在效率和理解之間制造了新的縫隙。
AI可以幫人總結(jié)評論,卻無法判斷「 真正重要的問題」;它能統(tǒng)計誰打分更高,卻無法感受「偏見 」;它能在幾秒內(nèi)讀完幾千字,但卻不知道,一句“「作者回應(yīng)充分」可能只是敷衍的外交辭令。
結(jié)果就是,論文越來越多,審稿越來越快,但學術(shù)的公信力卻在變薄。
有評論這樣諷刺:「AAAI對原創(chuàng)性的把關(guān),比利物浦的轉(zhuǎn)會策略還要保守?!?/span>

另一位網(wǎng)友更直白:「串評不是漏洞,是規(guī)則。」

這些話聽起來刺耳,卻也是事實寫照。
同行評審原本是學術(shù)最核心的信任機制,可當AI參與決策、人情左右分數(shù)、效率凌駕思考,這份信任正一點點崩塌。
而崩塌的,不只是某個會議的口碑,還有整整一代研究者對學術(shù)規(guī)則的信仰。
于是,科研人開始用另一種方式表達無奈——在表情包的世界里,他們把那個永遠打低分的「Reviewer 2」,變成了所有投稿者的共同敵人。

「Reviewer 2」梗圖:所有科研人的共同噩夢。
當AI審AI,我們還能相信什么?
在這場圍繞AAAI的爭議中,沒有人能給出確鑿的證據(jù)。
沒有郵件往來、沒有后臺記錄,甚至連論文編號都沒有。但這并不妨礙它成為一次象征性事件。
它暴露的,不只是某個會議的漏洞,更是一種普遍的焦慮:當AI技術(shù)深入到學術(shù)生產(chǎn)的每一個環(huán)節(jié)—— 寫論文、查重、審稿、甚至決定哪篇論文能被接收——人類的判斷正在被算法稀釋。
AAAI的AI輔助審稿機制,本意是提高效率。但它也讓我們第一次直面這樣的問題:
如果AI的總結(jié)比人工閱讀還權(quán)威,那人類評審的責任還剩多少?
這種結(jié)構(gòu)性的不透明,正在侵蝕學術(shù)體系最脆弱、也最寶貴的東西——信任。
研究者開始質(zhì)疑:會議的接收結(jié)果,是學術(shù)實力的體現(xiàn),還是算法、批次、關(guān)系、人情共同計算的「概率事件」?
當AI成為評審的一部分,它既是工具,也是鏡子,照出一個正在加速的學術(shù)世界:
論文越來越多,周期越來越短,而真正的思考,卻越來越稀缺。
在Reddit討論的最后,那位審稿人寫下這樣一句話:
如果這篇論文被接收,我可能再也不會審AAAI的稿了。

這不是憤怒的宣言,更像一聲嘆息。因為他所失去的,不是一次評審的公平,而是對整個學術(shù)體系的信任。
當AI終于學會替我們審稿,也許我們該問的,不是它能否勝任,而是——我們還相信它嗎?






























