上交大揭露大模型審稿風(fēng)險:一句話就能讓論文評分飛升
大語言模型(LLMs)正以前所未有的方式,深刻影響著學(xué)術(shù)同行評審的格局。同行評審作為科學(xué)研究的基石,其重要性毋庸置疑。然而,隨著大語言模型逐漸滲透到這一核心過程,我們是否已經(jīng)準(zhǔn)備好面對它可能帶來的深遠影響?在這場變革之前,我們必須清醒地認(rèn)識到其中潛藏的風(fēng)險,并采取切實可行的防范措施。
近年來,大語言模型在多個領(lǐng)域展現(xiàn)出了令人驚嘆的潛力。同行評審作為一項既繁瑣又至關(guān)重要的任務(wù),正在引起越來越多學(xué)者的關(guān)注并嘗試?yán)么笳Z言模型來輔助甚至替代審稿,力圖提高這一傳統(tǒng)流程的效率。
斯坦福大學(xué)的研究團隊便在《NEJM AI》子刊上發(fā)布了相關(guān)研究,指出大語言模型能夠生成與人類審稿人相似的審稿意見。而根據(jù)斯坦福團隊的估算,最近的若干個 AI 頂會中,竟有高達 6.5% 至 16.9% 的論文內(nèi)容由大語言模型顯著調(diào)整過!同樣,瑞士洛桑聯(lián)邦理工大學(xué)(EPFL)的研究發(fā)現(xiàn),ICLR 2024 的審稿過程中,約 15.8% 的評審意見是 AI 輔助生成的!與此同時,越來越多的人開始在社交媒體上抱怨審稿人利用大語言模型進行審稿。
種種現(xiàn)象表明,大語言模型已經(jīng)悄然滲透到了學(xué)術(shù)審稿的最前線,顯現(xiàn)出一種不容忽視的趨勢。然而,在其大規(guī)模使用之前,我們對其潛在的風(fēng)險卻沒有一個清醒的認(rèn)知。這無疑給同行評議的可靠性帶來了巨大的風(fēng)險。
在此背景下,上海交通大學(xué)、佐治亞理工學(xué)院、上海市人工智能實驗室、佐治亞大學(xué)與牛津大學(xué)的科研團隊聯(lián)合展開了深入研究,發(fā)表了最新論文《Are we there yet? Revealing the risks of utilizing large language models in scholarly peer review》,揭示了大語言模型在審稿中潛藏的風(fēng)險。研究表明:
- 操控風(fēng)險:作者可能通過在文章中巧妙插入肉眼無法察覺的文本,直接操控大語言模型生成的審稿意見,甚至操控最終的論文評分。
- 隱性操控:大語言模型傾向于復(fù)述作者主動在文章中揭示的局限性,令作者可以通過有意暴露輕微缺陷,從而隱秘地操控審稿過程。
- 幻覺問題:更為嚴(yán)重的是,大語言模型可能對空白文章生成虛構(gòu)的審稿意見,揭示了「模型幻覺」問題在審稿中的潛在威脅。
- 偏見問題:大語言模型在審稿過程中也暴露了明顯的偏好,尤其對文章長度和著名作者及機構(gòu)的偏愛,極大影響評審的公正性。
這些發(fā)現(xiàn)暴露出了我們在擁抱新技術(shù)的同時,可能忽視的重大風(fēng)險。為此,研究者們發(fā)出了警示:學(xué)界應(yīng)當(dāng)暫停使用大語言模型替代審稿工作,并呼吁制定有效的防范措施,確??萍歼M步能夠在更加健康、透明的框架內(nèi)進行。
- 論文鏈接:https://arxiv.org/pdf/2412.01708
- 項目主頁:https://rui-ye.github.io/BadLLMReviewer
- 調(diào)查問卷:https://forms.gle/c9tH3sXrVFtnDgjQ6
顯式操縱
研究者們首先揭示了一種低成本卻十分有效操縱手段:文章的作者可以通過在文中插入微小、幾乎不可見的指令性文字,即可輕松引導(dǎo)審稿模型強調(diào)文章的創(chuàng)新性與影響力,同時弱化文章的缺陷(如語法錯誤等)!插入的文字,盡管在常規(guī)人工審稿過程中幾乎不可見,但在當(dāng)前常見的自動化的 LLM 審稿過程中,依然會被提取并與文章內(nèi)容一同解析,能夠被審稿模型誤認(rèn)為提示詞,進而操縱模型生成高度正面的反饋,極大提高文章接收概率,危害審稿系統(tǒng)的公平可靠性。
圖 1. 作者可在文章中插入肉眼不可見、極小的白色文字
研究團隊對三款主流大語言模型審稿系統(tǒng)進行了測試,結(jié)果令人震驚:在面對這種顯式操控時,所有模型都未能幸免。測試前,文章的評分僅接近邊界分?jǐn)?shù)(Borderline);然而,插入操控文字后,文章的評分暴漲,甚至高達 8 分!—— 這一分?jǐn)?shù)在 ICLR 等頂級會議中,意味著論文被接收概率極大。
這一現(xiàn)象清晰地表明,操控手段能夠以驚人的效率扭曲審稿系統(tǒng)的判斷,顯著改變文章的最終命運。如果沒有強有力的防范機制,這種操控行為可能會極大地影響學(xué)術(shù)評審的公平性,甚至對整個科研環(huán)境的可信度造成無法估量的損害。
圖 2. 顯式操縱可使論文評分飛漲
隱式操縱
然而,顯式操控雖然有效,卻也容易被學(xué)術(shù)界視為不道德甚至作弊行為,因此一些 「謹(jǐn)慎」的作者可能會選擇回避這種方法。那么,是否還有一種更為微妙、隱蔽且更具潛在威脅的操控方式呢?答案是肯定的。
研究者們發(fā)現(xiàn)了一種更為隱蔽的操控方式:作者主動披露文章的局限性,尤其是在論文的「Limitations」章節(jié)中。這種做法,甚至是學(xué)術(shù)會議的推薦做法。然而,研究顯示,大語言模型審稿時,生成的審稿內(nèi)容與論文局限性部分的內(nèi)容竟高度一致!
圖 3. 大語言模型容易復(fù)述作者在文章中主動揭露的 Limitations
研究者們接著系統(tǒng)對比了人類審稿與論文局限性內(nèi)容之間的一致性,以及大語言模型審稿與局限性內(nèi)容之間的一致性。結(jié)果顯示大語言模型審稿與局限性內(nèi)容之間的一致性遠遠高于人類審稿與局限性內(nèi)容之間的一致性。這意味著,不同于人類審稿人,大語言模型容易被文章本身的信息所左右,缺乏獨立批判性思維,而這正是合格審稿人需具備的基本條件。
這一發(fā)現(xiàn)揭示了一個深刻的風(fēng)險:學(xué)術(shù)作者可以故意暴露一些微不足道的問題,從而間接引導(dǎo)大語言模型產(chǎn)生有利于論文的審稿意見。更嚴(yán)重的是,與顯式操控相比,隱式操控更難察覺,更難防范,也更難定性,卻能對學(xué)術(shù)評審的公平性構(gòu)成嚴(yán)重威脅。
圖 4. 大語言模型比真人更容易復(fù)述作者在文章中主動揭露的 Limitations
內(nèi)在缺陷:幻覺
更令人震驚的是,研究者們還發(fā)現(xiàn)了大語言模型審稿過程中的一個根本性缺陷 —— 幻覺問題。有時,即使一篇文章根本沒有內(nèi)容,審稿模型依然能生成長篇大論的審稿意見。在測試中,研究者們輸入了一個空白文章,結(jié)果發(fā)現(xiàn)其中一款審稿模型竟然對這篇空白文章生成了完整的審稿意見!雖然另外兩款模型識別出了輸入為空白并未作出評價,但這種「無中生有」的現(xiàn)象依然令人不寒而栗。
圖 5. 大語言模型可能無中生有的審稿內(nèi)容
更進一步,研究者們不斷增加輸入給審稿模型的內(nèi)容(空白 -> 僅標(biāo)題 -> 標(biāo)題摘要引言 -> 全篇),發(fā)現(xiàn)當(dāng)進一步加入摘要和引言部分后,所有三種審稿系統(tǒng)的評分竟幾乎與完整論文一致。
這一發(fā)現(xiàn)揭示了大語言模型在同行評審中的巨大不可靠性:即使文章內(nèi)容尚未完善,模型仍可能生成似是而非的評審意見,給出與完整論文相似的評分,嚴(yán)重扭曲了評審的實際質(zhì)量。
圖 6. 大語言模型可能給不完整的文章高分
內(nèi)在缺陷:偏好
除了幻覺問題,大語言模型在同行評審中還可能表現(xiàn)出令人擔(dān)憂的偏見。研究者們深入探討了大語言模型評分與文章長度之間的關(guān)系,結(jié)果發(fā)現(xiàn):大部分審稿系統(tǒng)對論文長度有顯著的偏好:論文越長,接受的概率越高。這一偏好無疑會使得那些寫得更長、更繁復(fù)的文章在評審中占得先機,極大削弱了評審的公正性。
圖 7. 大語言模型偏向于更長的文章
此外,研究者們還對大語言模型是否會受到作者機構(gòu)的影響進行了測試。在單盲審稿模式下,他們嘗試將作者的機構(gòu)名替換為計算機科學(xué)領(lǐng)域頂尖的大學(xué)(如 MIT 等)或 LLMs 領(lǐng)域的領(lǐng)先公司(如 OpenAI 等),并將作者名字替換為圖靈獎得主。結(jié)果令人驚訝,所有這些替換均顯著提高了文章的接受概率,揭示了大語言模型在審稿過程中存在的系統(tǒng)性偏見。
這一現(xiàn)象表明,若大語言模型成為同行評審的一部分,它將極有可能加劇現(xiàn)有學(xué)術(shù)評價體系中的不公平問題,進一步放大「名校效應(yīng)」和「名人效應(yīng)」。
圖 8. 大語言模型審稿被作者機構(gòu)顯著影響
倡議與總結(jié)
隨著大語言模型(LLM)在學(xué)術(shù)同行評審中的應(yīng)用日益增多,研究者們深入分析了其潛在風(fēng)險,并提出了相應(yīng)的建議,旨在確保學(xué)術(shù)審稿過程的公正性和嚴(yán)謹(jǐn)性?;谘芯拷Y(jié)果,研究者們提出以下倡議:
- 暫停 LLM 在同行評審中的替代性使用:研究者們呼吁在充分了解 LLM 的風(fēng)險并采取有效防范措施之前,暫停其在同行評審中的替代式應(yīng)用。
- 引入檢測工具與問責(zé)機制:研究者們呼吁期刊和會議組織者引入全面的檢測工具與問責(zé)機制,以識別并應(yīng)對審稿過程中可能的操控行為;并引入懲罰措施來遏制這些行為的發(fā)生。
- 將 LLM 作為輔助工具使用:展望未來,研究者們認(rèn)為隨著投稿數(shù)量的持續(xù)增加,LLM 在審稿過程中的自動化潛力不可忽視。盡管 LLM 目前還無法完全取代人類審稿,但其仍有潛力作為審稿過程的補充工具,提供額外反饋以提升審稿質(zhì)量。
- 增強 LLM 審稿系統(tǒng)的穩(wěn)健性與安全性:未來應(yīng)致力于開發(fā)一種能夠有效整合 LLM 的同行評審流程,既能最大化它們的潛力,又能有效防范我們已識別的風(fēng)險,增強其穩(wěn)健性和安全性。
總結(jié)而言,雖然 LLM 在提升審稿效率和質(zhì)量方面有潛力,研究者們強調(diào)必須謹(jǐn)慎推進其應(yīng)用。只有在確保其風(fēng)險可控且有有效的防范機制后,才能負(fù)責(zé)任地將 LLM 整合進學(xué)術(shù)同行評審中,避免破壞學(xué)術(shù)出版的公正性和嚴(yán)謹(jǐn)性。