ChatGPT 與 AI 會議同行評審:大規(guī)模監(jiān)測 AI
最近,一篇題為“MonitoringAI-ModifiedContentatScale:ACaseStudyontheImpactofChatGPTonAIConferencePeerReviews”的論文引起了廣泛關(guān)注。該論文探討了ChatGPT對AI會議同行評審的影響,并提出了一種估計(jì)大型語料庫中被AI大幅修改或生成的文本比例的方法。
一、研究背景
隨著大型語言模型(LLM)的廣泛應(yīng)用,如在教育、科學(xué)和全球媒體等領(lǐng)域,準(zhǔn)確測量其使用規(guī)模以及評估生成文本對信息生態(tài)系統(tǒng)的影響變得愈發(fā)重要。然而,目前很難區(qū)分LLM生成的文本和人類撰寫的內(nèi)容,這給科學(xué)研究帶來了挑戰(zhàn),例如ChatGPT生成的醫(yī)學(xué)摘要可能繞過AI檢測器和專家,以及媒體中出現(xiàn)的不可靠AI生成的新聞網(wǎng)站可能誤導(dǎo)消費(fèi)者。
二、相關(guān)工作
1、Zero-shotLLM檢測:許多LLM檢測方法旨在檢測單個文檔中AI生成的文本,如利用語言模型的熵、對數(shù)概率分?jǐn)?shù)、困惑度和不常見n-gram頻率等指標(biāo)來區(qū)分人類和機(jī)器文本。但這些方法在實(shí)際應(yīng)用中效果有限,且當(dāng)許多商業(yè)LLM不開放源代碼時,這些方法往往依賴于假設(shè)與閉源LLM機(jī)制相似的代理LLM,這引入了一定的局限性。
2、Training-basedLLM檢測:通過微調(diào)預(yù)訓(xùn)練模型來區(qū)分人類和AI生成的文本,但這種方法存在過擬合訓(xùn)練數(shù)據(jù)和語言模型的傾向,且許多分類器在對抗侵入面前表現(xiàn)脆弱,對非主導(dǎo)語言變體的作者存在偏見。
3、LLM水?。和ㄟ^在文本中嵌入獨(dú)特的、可算法檢測的信號(水?。﹣頇z測AI生成的文本,但水印的嵌入需要模型或服務(wù)所有者的參與,且可能會降低文本生成質(zhì)量和連貫性。
三、研究方法
1、記號與問題陳述:用表示文檔或句子,表示令牌,表示語料庫,表示詞匯表。假設(shè)目標(biāo)語料庫中的文檔是從科學(xué)家編寫的文檔分布和AI生成的文檔分布的混合分布中生成的,目標(biāo)是估計(jì)AI生成的文檔的比例。
2、統(tǒng)計(jì)估計(jì)方法概述:采用最大似然估計(jì)(MLE)方法,包括訓(xùn)練數(shù)據(jù)生成、文檔概率分布估計(jì)和計(jì)算AI生成或修改的文本的最終估計(jì)比例。具體步驟為收集原始語料庫的寫作指令,用LLM生成AI文檔,估計(jì)參考令牌使用分布和,在合成目標(biāo)語料庫上驗(yàn)證方法性能,最后基于估計(jì)的和,使用MLE估計(jì)目標(biāo)語料庫中AI生成或修改的文檔的比例。
3、MLE框架:給定從混合分布中獨(dú)立抽取的文檔集合,通過對數(shù)似然函數(shù)來估計(jì)。
4、生成訓(xùn)練數(shù)據(jù):需要訪問歷史數(shù)據(jù)來估計(jì)和,具體為已知的僅包含人類撰寫文本的評論集合以及相關(guān)的評論問題和被評審的論文。將評審指令提示和與人類語料庫中評論相關(guān)的論文輸入AI語言工具(如ChatGPT),生成AI語料庫。
5、估計(jì)和從數(shù)據(jù):將每個文檔表示為令牌出現(xiàn)的列表(即一個集合),而不是令牌計(jì)數(shù)的列表。通過計(jì)算令牌在文檔中出現(xiàn)的文檔數(shù)量占總文檔數(shù)量的比例來估計(jì)人類文檔分布的出現(xiàn)概率,類似地估計(jì),然后通過和類似的公式估計(jì)和。
6、驗(yàn)證方法:將人類和AI語料庫劃分為兩個不相交的部分,80%用于訓(xùn)練,20%用于驗(yàn)證。選擇一系列可行的值,從AI驗(yàn)證語料庫和人類驗(yàn)證語料庫中抽樣生成目標(biāo)語料庫,計(jì)算目標(biāo)語料庫的MLE估計(jì),如果,則說明系統(tǒng)工作正常。
四、實(shí)驗(yàn)結(jié)果
1、在合成數(shù)據(jù)上的驗(yàn)證:算法在識別混合驗(yàn)證集中LLM生成的文本比例方面具有較高的準(zhǔn)確性,預(yù)測誤差在人口水平上小于1.8%。
2、與基于實(shí)例的檢測方法比較:與BERT分類器基線和其他兩個最近發(fā)布的先進(jìn)AI文本檢測方法相比,該方法減少了內(nèi)部分布估計(jì)誤差3.4倍,外部分布估計(jì)誤差4.6倍,并且在推理時間上計(jì)算效率更高,超過1000萬倍(即7個數(shù)量級)。
3、對真實(shí)評論的估計(jì):ML會議的評論中,在ChatGPT發(fā)布后,AI生成的句子顯著增加,但Nature期刊的評論中沒有明顯證據(jù)表明使用了AI。例如,ICLR會議中,估計(jì)的從1.6%增加到10.6%,NeurIPS從1.9%增加到9.1%,CoRL從2.4%增加到6.5%,而EMNLP會議的估計(jì)約為16.9%。
4、對校對的魯棒性:將方法應(yīng)用于僅由ChatGPT進(jìn)行校對(非實(shí)質(zhì)性編輯)的同行評審,發(fā)現(xiàn)估計(jì)的雖有增加,但幅度遠(yuǎn)小于在真實(shí)評審語料庫中的效果。
5、使用LLM大幅擴(kuò)展評論大綱:通過模擬評審者先創(chuàng)建簡要大綱,然后使用LLM擴(kuò)展大綱的過程,發(fā)現(xiàn)算法能夠檢測到這種LLM的使用情況,估計(jì)的與實(shí)際情況相符。
6、與估計(jì)LLM使用相關(guān)的因素:
(1)截止日期效應(yīng):在截止日期前3天或更少時間提交的評論中,估計(jì)的有小幅但一致的增加,表明評審者可能會在臨近截止日期時依賴LLM來節(jié)省時間。
(2)參考效應(yīng):包含學(xué)術(shù)引用的評論中估計(jì)的較低,這表明LLM往往難以準(zhǔn)確生成包含引用的內(nèi)容,同時也說明使用ChatGPT的人可能不太傾向于引用來源。
(3)低回復(fù)率效應(yīng):作者回復(fù)較少的評論中,估計(jì)的ChatGPT使用量較高,這可能是因?yàn)樵u審者使用LLM作為快速解決方案來避免額外的參與,或者是因?yàn)樵u審工作量增加導(dǎo)致學(xué)者依賴工具。
(4)同質(zhì)化效應(yīng):“趨同”(與其他評論相似)的評論往往具有更高的估計(jì),這表明LLM生成的文本可能導(dǎo)致反饋的同質(zhì)化,減少了語言和認(rèn)知的多樣性,可能會使學(xué)者失去接受來自多個獨(dú)立專家的多樣化反饋的機(jī)會。
(5)低信心效應(yīng):評審者信心低的評論與ChatGPT使用量的增加相關(guān),這可能是因?yàn)長LM的融入使評審者對生成內(nèi)容的個人投入感或準(zhǔn)確性信心降低。
五、討論與結(jié)論
該研究提出了一種估計(jì)大型語料庫中被AI修改或生成的文本比例的有效方法,并通過對AI會議和期刊評論的研究,揭示了ChatGPT對科學(xué)出版的潛在影響。盡管研究存在一定局限性,但為社會分析提供了有價值的視角,希望能促進(jìn)關(guān)于LLM在信息生態(tài)系統(tǒng)中使用程度和影響的建設(shè)性討論和政策決策。
以上就是對這篇論文的主要解讀,希望能對大家了解該研究有所幫助。如有不足之處,歡迎大家批評指正??▕W斯智能交互引擎_工業(yè)知識智能搜索,解決方案精準(zhǔn)生成。

















