大模型×文本水?。呵迦A、港中文、港科廣、UIC、北郵聯(lián)合發(fā)布首個大模型時代下的文本水印綜述
- 論文:A Survey of Text Watermarking in the Era of Large Language Models
- 論文鏈接:https://arxiv.org/abs/2312.07913
大模型時代:文本水印新紀元
文本水印是一種信息隱藏技術(shù),起源可以追溯到上個世紀 90 年代。它通過將機密信息(水?。┣度胛谋局?,實現(xiàn)了在共享水印規(guī)則的個體之間進行安全、隱式的消息傳遞。
隨著大語言模型(LLMs)的崛起,文本水印技術(shù)煥發(fā)新生,涌現(xiàn)出多種可能:
- 將現(xiàn)有文本水印算法應用于 LLMs?
- 將 LLMs 運用于文本水印算法設(shè)計?
- 將水印直接植入 LLMs?
特別是隨著 ChatGPT 的出現(xiàn),文本水印技術(shù)更是被推向研究熱潮。本綜述將揭秘 LLMs 與文本水印技術(shù)的夢幻聯(lián)動,深入探索文本水印新紀元!
1. 文本水印技術(shù)保障大模型使用安全
近年來,大語言模型在自然語言處理領(lǐng)域取得顯著進展,但其快速生成文本的能力也帶來了信息傳播和知識產(chǎn)權(quán)方面的挑戰(zhàn)。文本水印技術(shù)通過嵌入可識別的標記來實現(xiàn)內(nèi)容追蹤和來源歸屬,是解決大語言模型濫用問題的有效方法。
2. 大模型輔助文本水印算法設(shè)計
在文本水印算法設(shè)計中一個關(guān)鍵挑戰(zhàn)是在不扭曲原始文本的含義或可讀性的情況下嵌入水印。傳統(tǒng)方法通常無法在修改文本時做到較好的語義保持。然而,大語言模型(LLMs)顯著改變了這一格局。由于它們對語義和上下文的精準把握,LLMs 能夠?qū)崿F(xiàn)精細的水印嵌入方法,對文本的內(nèi)在含義影響最小化。
3. 大模型 × 文本水印全新探索:水印植入大模型
隨著越來越多的文本直接由大模型生成,研究直接針對大模型的水印技術(shù)已經(jīng)成為一種趨勢。被植入水印的大模型(Watermarked LLMs)可以直接生成水印文本,以從而實現(xiàn)更為直接、快捷的水印嵌入。
文本水印算法大匯總
現(xiàn)有的文本水印算法可以根據(jù)植入水印的對象不同分為兩大類:Watermarking for Existing Text,向現(xiàn)有文本中嵌入水??;Watermarking for LLMs, 向大模型中植入水印。其中,Watermarking for Existing Text 又可以根據(jù)水印規(guī)則的不同細粒度地劃分為:
- Format-based Watermarking
- Lexical-based Watermarking
- Syntactic-based Watermarking
- Generation-based Watermarking
Watermarking for LLMs 可以根據(jù)水印加入的時間劃分為:
- Watermarking during LLM Training
- Watermarking during Logits Generation
- Watermarking during Token Sampling
近期,隨著 LLM 的興起和廣泛使用,Watermarking for LLMs 類別下的研究層出不窮。尤其在 Watermarking for Logits Generation 子類下,更是有許多側(cè)重于各個角度的創(chuàng)新方法被提出,例如如何應對低熵文本、如何讓文本攜帶多比特信息、如何高魯棒地應對攻擊者的篡改、如何抵御水印偽造等等。
如何評估一個文本水印算法?
在該綜述中,作者系統(tǒng)性地將文本水印算法的評估總結(jié)為四個角度:Success Rate(成功率)、Text Quality(文本質(zhì)量)、Robustness(魯棒性)、Unforgeability(不可偽造性)。
- Success Rate:檢測水印信息的準確性
- Text Quality:水印算法對文本質(zhì)量的影響
- Robustness:應對 “水印移除攻擊” 的魯棒性
- Unforgeability:抵制水印偽造的能力
作者還對每個評估角度下現(xiàn)有的評估指標做了全面的總結(jié)。
1. Success Rate(成功率):對于零比特水印算法(Zero-bit),檢測過程等價于一個二分類問題,評估指標包括 F1、TPR、FPR、TNR、FNR 等;對于多比特水印算法(Multi-bit),則需要考慮文本水印算法能夠攜帶的負載量(Payload),同時在檢測時需要關(guān)注比特正確率(Bit Accuracy)。
2. Text Quality(文本質(zhì)量):評估水印算法對生成文本質(zhì)量的影響有多種指標,例如 PPL(困惑度)、基于預訓練模型編碼的語義相似度檢測、文本豐富性評估等。此外,還有許多研究在下游的 NLP 傳統(tǒng)任務上對水印文本的質(zhì)量進行評估。這些下游任務包括:機器翻譯、情感分類、知識理解、代碼生成、文本總結(jié)、故事續(xù)寫、問答、指令遵循等。
3. Robustness(魯棒性):用于測試水印算法魯棒性的水印移除攻擊可以分為字符級(character-level)、單詞級(word-level)和文檔級(document-level)三大類。字符級的攻擊方式包括 Homoglyph Attack(同形字符替換攻擊)等,單詞級的攻擊方式包含同義詞替換、Emoji Attack 等,文檔級攻擊包括重寫攻擊、Copy-Paste Attack 等。
4. Unforgeability(不可偽造性):不可偽造性需要在兩種不同的檢測場景下分別考慮。在私密檢測場景(Private Detection Scenario)下,也就是水印檢測器不公開的情況下,攻擊者只能從生成的文本中尋找蛛絲馬跡,試圖攻破水印規(guī)則。這里的攻擊方式包括訓練分類器,以及詞頻分析(Spoofing Attack)等。在公開檢測場景(Public Detection Scenario)下,也就是水印檢測器公開的情況下,攻擊者不僅可以從生成的文本中尋找線索,還可以通過分析檢測器的結(jié)構(gòu)和算法來反推生成器的設(shè)計。這里的攻擊方式在私密場景攻擊方式的基礎(chǔ)上,還包括逆向工程(Reverse Training)等等。
此外,作者還整理了現(xiàn)有的文本水印算法在這四個評估角度下做出的優(yōu)化嘗試,▲代表基礎(chǔ)優(yōu)化目標,● 代表首要優(yōu)化目標,○ 代表次要優(yōu)化目標。
文本水印技術(shù)的應用場景
大模型時代下,文本水印技術(shù)的應用場景得到了進一步的拓廣。本綜述關(guān)注了新紀元下文本水印技術(shù)的三大應用場景:版權(quán)保護、學術(shù)誠信和虛假新聞檢測。
1. 版權(quán)保護:文本水印在保護文本 / 數(shù)據(jù)集版權(quán)以及保護大模型版權(quán)上發(fā)揮了至關(guān)重要的作用。
- 文本 / 數(shù)據(jù)集版權(quán)保護:在數(shù)字時代,隨著數(shù)據(jù)的共享和利用不斷增加,保護這些資產(chǎn)免受非法復制和濫用的影響變得至關(guān)重要。文本水印技術(shù)通過在文本和數(shù)據(jù)集中嵌入不可察覺的標記,有助于維護知識產(chǎn)權(quán)。
- 大模型版權(quán)保護:大模型版權(quán)保護的關(guān)鍵目標是防御抽取攻擊,即從 LLMs 中提取大量數(shù)據(jù)用于訓練新模型。通過在 LLMs 的輸出中嵌入水印,使用帶水印的數(shù)據(jù)集進行訓練后得到的新模型也會帶有水印特征。當前的研究工作已經(jīng)為各種 LLM 類型開發(fā)了水印算法,包括嵌入式(輸入是文本,輸出是該文本的相應嵌入)、生成式(目前最常用的 LLM,其輸入和輸出都是文本)和分類式(輸入是文本,輸出是特定的類別)的 LLM。
2. 學術(shù)誠信:在當今的教育領(lǐng)域,學術(shù)誠信問題尤為重要。尤其是考慮到 LLMs 的輕松獲取和使用,學生可能會利用這些先進的模型完成作業(yè)、論文,甚至參加考試,這給維護學術(shù)誠信帶來了新的挑戰(zhàn)。在需要學生獨立和原創(chuàng)完成的任務或考試中,有必要制定方法來判定提交的內(nèi)容是否由 LLMs 生成。文本水印技術(shù)通過在 LLMs 的輸出中嵌入隱式的水印特征,可以高效地檢測機生文本,為維護學術(shù)誠信做出貢獻。
3. 虛假新聞檢測:隨著 LLMs 技術(shù)的興起,它在創(chuàng)建令人信服但有潛在錯誤或誤導性內(nèi)容上信手拈來,這使 LLMs 成為制造虛假新聞的有效工具,從而欺騙公眾并扭曲事實。在數(shù)字時代下,這些虛假信息在數(shù)字平臺上的迅速繁衍加劇了錯誤觀點的傳播,侵蝕了公眾對可靠信息源的信任。因此,識別由 LLMs 生成的新聞至關(guān)重要。文本水印技術(shù)通過在 LLMs 的輸出中嵌入隱式的水印特征,可以高效地檢測機生新聞,為維護新聞的真實和純凈做出貢獻。
挑戰(zhàn)與機遇并存:
大模型時代下的文本水印技術(shù)將何去何從?
在本綜述中,作者以前瞻性的眼光分析了大模型時代下文本水印技術(shù)仍然面臨的挑戰(zhàn),給出了未來可能的發(fā)展方向,對文本水印技術(shù)的前沿趨勢做出了深度探索。
1. 探索平衡不同評估角度的文本水印算法
如上文提到的那樣,評估一個文本水印算法可以有不同的視角。然而,這些視角通常存在固有的矛盾,使得一個文本水印算法難以同時在所有評估視角中表現(xiàn)優(yōu)異。例如,在高負載情況下實現(xiàn)成功率、文本質(zhì)量和魯棒性之間的良好平衡是困難的。
- 平衡負載、魯棒性和文本質(zhì)量:關(guān)鍵主要在于設(shè)計更有效的策略來劃分水印文本空間。這可能需要額外的設(shè)計來對抗?jié)撛诘乃∪コ?,將水印空間劃分為不同的水印消息域,確保在不同水印消息域之間過渡需要足夠數(shù)量的水印去除攻擊操作。其次,從負載的角度來看,可以從糾錯碼的概念中汲取靈感,例如利用漢明碼,以提高從部分修改的文本中恢復原始水印信息的概率。這些方法可以有效增強負載和魯棒性,同時對文本質(zhì)量產(chǎn)生一致的影響。
- 增強文本水印的不可偽造性:通常需要利用密碼學、信息理論和機器學習等領(lǐng)域的專業(yè)知識。這涉及增加水印算法的復雜性,以提高其抵抗偽造的能力。盡管當前的方法取得了一些進展,但它們更為復雜的設(shè)計仍引入了額外的非魯棒因素。此外,這些方法尚未在具有更大負載的場景中推廣應用。
2. 探索適應更具挑戰(zhàn)性實用場景的文本水印算法
水印算法在簡單環(huán)境中表現(xiàn)良好,但在面對低熵和公開檢測情境時需要進一步改進。低熵情境下,由于文本多樣性和復雜性較低,嵌入水印而不影響嚴格格式要求具有挑戰(zhàn)性。在公開檢測情境中,水印的存在和檢測機制公開可見,要求算法足夠復雜和不可預測,同時保持生成方法的安全性和實用性。未來的方法可能涉及更精密的加密和機器學習技術(shù)。
3. 制定更全面的評估基準
目前文本水印基準研究主要關(guān)注文本質(zhì)量,對其他關(guān)鍵指標如高成功率、魯棒性和防偽性的基準較為有限。因此,未來的重要方向之一是建立更全面的基準系統(tǒng)。構(gòu)建這樣的基準需要考慮各種應用場景、攻擊方法和不同水印算法的特征,同時確保建立一個公平、透明、用戶友好的評估過程,使研究人員能夠在統(tǒng)一標準下測試和比較算法。這一基準系統(tǒng)將推動學術(shù)研究和幫助行業(yè)更好地理解和應用文本水印技術(shù)。
4. 拓寬文本水印技術(shù)的應用場景
盡管文本水印技術(shù)在多個領(lǐng)域展示了其實用性,但要實現(xiàn)更廣泛的應用還需要進一步努力。這不僅包括水印技術(shù)的進步,還涉及技術(shù)領(lǐng)域以外的因素,包括 LLM 提供者的參與、公眾信任和透明度等。
- LLM 提供者的參與:隨著大型語言模型生成大量文本,有必要將文本水印功能整合到它們的服務中促進文本水印的使用。然而,目前這些提供商在文本水印技術(shù)上的參與不足,受到技術(shù)和非技術(shù)因素的制約。現(xiàn)有算法需要更全面地考慮對文本質(zhì)量的影響,未來的研究應重點關(guān)注提供商直接受益的領(lǐng)域,如保護模型版權(quán)。
- 公眾信任和透明度:公眾信任和透明度是推動文本水印技術(shù)廣泛應用的關(guān)鍵因素。只有當公眾信任文本水印算法并相信其檢測結(jié)果準確時,它們才能在實際應用中發(fā)揮作用。為增強公眾信任,需要確保水印技術(shù)的透明度和可靠性。全面披露文本水印檢測算法的細節(jié)是關(guān)鍵步驟,透明度不僅培養(yǎng)用戶信任,還推動了學術(shù)和工業(yè)的發(fā)展。引入獨立第三方平臺進行檢測和驗證可以加強信任,政府和監(jiān)管準則有助于確保技術(shù)的公正和透明度,提高公眾信心。
結(jié)語
本綜述深入探討了在 LLMs 時代下文本水印技術(shù)的發(fā)展現(xiàn)狀,全面總結(jié)了其算法設(shè)計與實現(xiàn)、評估角度與方法、在版權(quán)保護、學術(shù)誠信和假新聞檢測等領(lǐng)域的應用,以及該領(lǐng)域的挑戰(zhàn)和未來方向。作者熱切歡迎學術(shù)界和行業(yè)專家就大模型時代下文本水印的研究議題進行廣泛的交流和討論。希望這不僅僅是一份綜述論文,更是一個激發(fā)深入思考與廣泛交流的契機。