冒充人類作者,ChatGPT等濫用引擔(dān)憂,一文綜述AI生成文本檢測方法
自然語言生成 (NLG) 技術(shù)的最新進展顯著提高了大型語言模型生成文本的多樣性、控制力和質(zhì)量。一個值得注意的例子是 OpenAI 的 ChatGPT,它在回答問題、撰寫電子郵件、論文和代碼等任務(wù)中展示了卓越的性能。然而,這種新發(fā)現(xiàn)的高效生成文本的能力也引起了人們對檢測和防止大型語言模型在網(wǎng)絡(luò)釣魚、虛假信息 和學(xué)術(shù)造假等任務(wù)中濫用的擔(dān)憂。例如,由于擔(dān)心學(xué)生利用 ChatGPT 寫作業(yè),紐約公立學(xué)校全面禁止了 ChatGPT 的使用,媒體也對大型語言模型產(chǎn)生的假新聞發(fā)出警告。這些對大型語言模型 濫用的擔(dān)憂嚴重阻礙了自然語言生成在媒體和教育等重要領(lǐng)域的應(yīng)用。
最近關(guān)于是否可以正確檢測大型語言模型生成的文本以及如何檢測的討論越來越多,這篇文章對現(xiàn)有檢測方法進行了全面的技術(shù)介紹。
- 論文地址:https://github.com/datamllab/The-Science-of-LLM-generated-Text-Detection
- 相關(guān)研究地址:https://github.com/datamllab/awsome-LLM-generated-text-detection/tree/main
現(xiàn)有的方法大致可分為兩類:黑盒檢測和白盒檢測。
大型語言模型生成文本檢測概述
- 黑盒檢測方法對大型語言模型通常只有 API 級別的訪問權(quán)限。因此,這類方法依靠于收集人類和機器的文本樣本來訓(xùn)練分類模型;
- 白盒檢測,這類方法擁有對大型語言模型的所有訪問權(quán)限,并且可以通過控制模型的生成行為或者在生成文本中加入水?。╳atermark)來對生成文本進行追蹤和檢測。
在實踐中,黑盒檢測器通常由第三方構(gòu)建,例如 GPTZero,而白盒檢測器通常由大型語言模型開發(fā)人員構(gòu)建。
大型語言模型生成的文本檢測分類學(xué)
黑盒檢測
黑盒檢測一般有三個步驟,分別是數(shù)據(jù)收集,特征選擇和模型建立。
對于人類文本的收集,一種方法是招募專業(yè)人員進行數(shù)據(jù)采集,但是這種方法費時費力,不適于大型數(shù)據(jù)集的收集,更加高效的方法是利用現(xiàn)有的人類文本數(shù)據(jù),比如從維基百科上收集各種專家編輯的詞條,或者是從媒體上收集數(shù)據(jù),例如 Reddit。
特征的選取一般分為統(tǒng)計特征,語言特征和事實特征。其中統(tǒng)計特征一般是用來檢查大型語言模型生成文本是否在一些常用的文本統(tǒng)計指標(biāo)上于人類文本不同,常用的有 TFIDF、齊夫定律等。語言特征一般是找一些語言學(xué)特征,比如詞性,依存分析,情感分析等。最后,大型語言模型常常會生成一些反事實的言論,因此事實驗證也可以提供一些區(qū)分大型語言模型生成文本的信息。
現(xiàn)有的分類模型一般分為傳統(tǒng)的機器學(xué)習(xí)模型,例如 SVM 等。最新的研究傾向于利用語言模型來做主干, 例如 BERT,RoBERTa, 并且取得了更高的檢測表現(xiàn)。
這兩種文本之間有明顯的不同。human-written 文本來自 Chalkbeat New York。
白盒檢測
白盒檢測一般默認是大型語言模型開發(fā)人員提供的檢測。不同于黑盒檢測,白盒檢測對模型擁有完全訪問權(quán)力, 因此能通過改變模型的輸出來植入水印,以此達到檢測的目的。
目前的檢測方法可以分為 post-hoc 水印和 inference time 水印:
- 其中 post-hoc 水印是在大型語言模型生成完文本后,再在文本中加入一些隱藏的信息用于之后的檢測;
- Inference time 水印則是改變大型語言模型對 token 的采樣機制來加入水印,在大型語言模型生成每一個 token 的過程中,其會根據(jù)所有 token 的概率和預(yù)設(shè)的采樣策略來選擇下一個生成的詞,這個選擇的過程就可以加入水印。
Inference time 水印
作者擔(dān)憂
(1)對于黑盒模型,數(shù)據(jù)的收集是非常關(guān)鍵的一步,但是這個過程非常容易引入偏見(biases)。例如現(xiàn)有的數(shù)據(jù)集主要集中在問答,故事生成幾個任務(wù),這就引入了主題的偏見。此外,大模型生成的文本經(jīng)常會出現(xiàn)固定的風(fēng)格或者格式。這些偏見常常會被黑盒分類器作為分類的主要特征而降低了檢測的魯棒性。
隨著大型語言模型能力的提升,大型語言模型生成的文本和人類的差距會越來越小,導(dǎo)致黑盒模型的檢測準確性越來越低,因此白盒檢測是未來更有前景的檢測方式。
(2)現(xiàn)有的檢測方法默認大型語言模型是被公司所有,因而所有的用戶都是通過 API 來獲得公司的大型語言模型服務(wù),這種多對一的關(guān)系非常有利用檢測系統(tǒng)的部署。但是如果公司開源了大型語言模型,這將導(dǎo)致現(xiàn)有的檢測方法幾乎全部失效。
對于黑盒檢測,因為用戶可以微調(diào)他們的模型,改變模型輸出的風(fēng)格或者格式,從而導(dǎo)致黑盒檢測無法找到通用的檢測特征。
白盒檢測可能是一個解決辦法,公司在開源模型之前可以給模型中加入一個水印。但是用戶同樣可以通過微調(diào)模型,改變模型 token 的采樣機制來移除水印。現(xiàn)在還沒有一種水印技術(shù)能夠抵御用戶的這些潛在威脅。