偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大模型×文本水?。呵迦A、港中文、港科廣、UIC、北郵聯(lián)合發(fā)布首個大模型時代下的文本水印綜述

人工智能 新聞
本文介紹首個大模型時代下的文本水印綜述,由清華、港中文、港科廣、UIC、北郵聯(lián)合發(fā)布,全面闡述了大模型時代下文本水印技術(shù)的算法類別與設(shè)計、評估角度與指標、實際應用場景,同時深入探討了相關(guān)研究當前面臨的挑戰(zhàn)以及未來發(fā)展的方向,探索文本水印領(lǐng)域的前沿趨勢。

圖片

  • 論文:A Survey of Text Watermarking in the Era of Large Language Models
  • 論文鏈接:https://arxiv.org/abs/2312.07913

大模型時代:文本水印新紀元

文本水印是一種信息隱藏技術(shù),起源可以追溯到上個世紀 90 年代。它通過將機密信息(水?。┣度胛谋局?,實現(xiàn)了在共享水印規(guī)則的個體之間進行安全、隱式的消息傳遞。

隨著大語言模型(LLMs)的崛起,文本水印技術(shù)煥發(fā)新生,涌現(xiàn)出多種可能:

  • 將現(xiàn)有文本水印算法應用于 LLMs?
  • 將 LLMs 運用于文本水印算法設(shè)計?
  • 將水印直接植入 LLMs?

特別是隨著 ChatGPT 的出現(xiàn),文本水印技術(shù)更是被推向研究熱潮。本綜述將揭秘 LLMs 與文本水印技術(shù)的夢幻聯(lián)動,深入探索文本水印新紀元!

圖片

1. 文本水印技術(shù)保障大模型使用安全

近年來,大語言模型在自然語言處理領(lǐng)域取得顯著進展,但其快速生成文本的能力也帶來了信息傳播知識產(chǎn)權(quán)方面的挑戰(zhàn)。文本水印技術(shù)通過嵌入可識別的標記來實現(xiàn)內(nèi)容追蹤來源歸屬,是解決大語言模型濫用問題的有效方法。

2. 大模型輔助文本水印算法設(shè)計

在文本水印算法設(shè)計中一個關(guān)鍵挑戰(zhàn)是在不扭曲原始文本的含義或可讀性的情況下嵌入水印。傳統(tǒng)方法通常無法在修改文本時做到較好的語義保持。然而,大語言模型(LLMs)顯著改變了這一格局。由于它們對語義和上下文的精準把握,LLMs 能夠?qū)崿F(xiàn)精細的水印嵌入方法,對文本的內(nèi)在含義影響最小化。

3. 大模型 × 文本水印全新探索:水印植入大模型

隨著越來越多的文本直接由大模型生成,研究直接針對大模型的水印技術(shù)已經(jīng)成為一種趨勢。被植入水印的大模型(Watermarked LLMs)可以直接生成水印文本,以從而實現(xiàn)更為直接、快捷的水印嵌入。

文本水印算法大匯總

圖片

現(xiàn)有的文本水印算法可以根據(jù)植入水印的對象不同分為兩大類:Watermarking for Existing Text,向現(xiàn)有文本中嵌入水??;Watermarking for LLMs, 向大模型中植入水印。其中,Watermarking for Existing Text 又可以根據(jù)水印規(guī)則的不同細粒度地劃分為:

  • Format-based Watermarking
  • Lexical-based Watermarking
  • Syntactic-based Watermarking
  • Generation-based Watermarking

Watermarking for LLMs 可以根據(jù)水印加入的時間劃分為:

  • Watermarking during LLM Training
  • Watermarking during Logits Generation
  • Watermarking during Token Sampling

圖片

近期,隨著 LLM 的興起和廣泛使用,Watermarking for LLMs 類別下的研究層出不窮。尤其在 Watermarking for Logits Generation 子類下,更是有許多側(cè)重于各個角度的創(chuàng)新方法被提出,例如如何應對低熵文本、如何讓文本攜帶多比特信息、如何高魯棒地應對攻擊者的篡改、如何抵御水印偽造等等。

圖片

如何評估一個文本水印算法?

在該綜述中,作者系統(tǒng)性地將文本水印算法的評估總結(jié)為四個角度:Success Rate(成功率)、Text Quality(文本質(zhì)量)、Robustness(魯棒性)、Unforgeability(不可偽造性)

  • Success Rate:檢測水印信息的準確性
  • Text Quality:水印算法對文本質(zhì)量的影響
  • Robustness:應對 “水印移除攻擊” 的魯棒性
  • Unforgeability:抵制水印偽造的能力

圖片


作者還對每個評估角度下現(xiàn)有的評估指標做了全面的總結(jié)。

1. Success Rate(成功率):對于零比特水印算法(Zero-bit),檢測過程等價于一個二分類問題,評估指標包括 F1、TPR、FPR、TNR、FNR 等;對于多比特水印算法(Multi-bit),則需要考慮文本水印算法能夠攜帶的負載量(Payload),同時在檢測時需要關(guān)注比特正確率(Bit Accuracy)。

2. Text Quality(文本質(zhì)量):評估水印算法對生成文本質(zhì)量的影響有多種指標,例如 PPL(困惑度)、基于預訓練模型編碼的語義相似度檢測、文本豐富性評估等。此外,還有許多研究在下游的 NLP 傳統(tǒng)任務上對水印文本的質(zhì)量進行評估。這些下游任務包括:機器翻譯、情感分類、知識理解、代碼生成、文本總結(jié)、故事續(xù)寫、問答、指令遵循等。

圖片

3. Robustness(魯棒性):用于測試水印算法魯棒性的水印移除攻擊可以分為字符級(character-level)、單詞級(word-level)和文檔級(document-level)三大類。字符級的攻擊方式包括 Homoglyph Attack(同形字符替換攻擊)等,單詞級的攻擊方式包含同義詞替換、Emoji Attack 等,文檔級攻擊包括重寫攻擊、Copy-Paste Attack 等。

4. Unforgeability(不可偽造性):不可偽造性需要在兩種不同的檢測場景下分別考慮。在私密檢測場景(Private Detection Scenario)下,也就是水印檢測器不公開的情況下,攻擊者只能從生成的文本中尋找蛛絲馬跡,試圖攻破水印規(guī)則。這里的攻擊方式包括訓練分類器,以及詞頻分析(Spoofing Attack)等。在公開檢測場景(Public Detection Scenario)下,也就是水印檢測器公開的情況下,攻擊者不僅可以從生成的文本中尋找線索,還可以通過分析檢測器的結(jié)構(gòu)和算法來反推生成器的設(shè)計。這里的攻擊方式在私密場景攻擊方式的基礎(chǔ)上,還包括逆向工程(Reverse Training)等等。

此外,作者還整理了現(xiàn)有的文本水印算法在這四個評估角度下做出的優(yōu)化嘗試,▲代表基礎(chǔ)優(yōu)化目標,● 代表首要優(yōu)化目標,○ 代表次要優(yōu)化目標。

圖片

文本水印技術(shù)的應用場景

大模型時代下,文本水印技術(shù)的應用場景得到了進一步的拓廣。本綜述關(guān)注了新紀元下文本水印技術(shù)的三大應用場景:版權(quán)保護、學術(shù)誠信虛假新聞檢測。

1. 版權(quán)保護:文本水印在保護文本 / 數(shù)據(jù)集版權(quán)以及保護大模型版權(quán)上發(fā)揮了至關(guān)重要的作用。

  • 文本 / 數(shù)據(jù)集版權(quán)保護:在數(shù)字時代,隨著數(shù)據(jù)的共享和利用不斷增加,保護這些資產(chǎn)免受非法復制和濫用的影響變得至關(guān)重要。文本水印技術(shù)通過在文本和數(shù)據(jù)集中嵌入不可察覺的標記,有助于維護知識產(chǎn)權(quán)。

  • 大模型版權(quán)保護:大模型版權(quán)保護的關(guān)鍵目標是防御抽取攻擊,即從 LLMs 中提取大量數(shù)據(jù)用于訓練新模型。通過在 LLMs 的輸出中嵌入水印,使用帶水印的數(shù)據(jù)集進行訓練后得到的新模型也會帶有水印特征。當前的研究工作已經(jīng)為各種 LLM 類型開發(fā)了水印算法,包括嵌入式(輸入是文本,輸出是該文本的相應嵌入)、生成式(目前最常用的 LLM,其輸入和輸出都是文本)和分類式(輸入是文本,輸出是特定的類別)的 LLM。

2. 學術(shù)誠信:在當今的教育領(lǐng)域,學術(shù)誠信問題尤為重要。尤其是考慮到 LLMs 的輕松獲取和使用,學生可能會利用這些先進的模型完成作業(yè)、論文,甚至參加考試,這給維護學術(shù)誠信帶來了新的挑戰(zhàn)。在需要學生獨立和原創(chuàng)完成的任務或考試中,有必要制定方法來判定提交的內(nèi)容是否由 LLMs 生成。文本水印技術(shù)通過在 LLMs 的輸出中嵌入隱式的水印特征,可以高效地檢測機生文本,為維護學術(shù)誠信做出貢獻。

3. 虛假新聞檢測:隨著 LLMs 技術(shù)的興起,它在創(chuàng)建令人信服但有潛在錯誤或誤導性內(nèi)容上信手拈來,這使 LLMs 成為制造虛假新聞的有效工具,從而欺騙公眾并扭曲事實。在數(shù)字時代下,這些虛假信息在數(shù)字平臺上的迅速繁衍加劇了錯誤觀點的傳播,侵蝕了公眾對可靠信息源的信任。因此,識別由 LLMs 生成的新聞至關(guān)重要。文本水印技術(shù)通過在 LLMs 的輸出中嵌入隱式的水印特征,可以高效地檢測機生新聞,為維護新聞的真實和純凈做出貢獻。

圖片

挑戰(zhàn)與機遇并存:

大模型時代下的文本水印技術(shù)將何去何從?

在本綜述中,作者以前瞻性的眼光分析了大模型時代下文本水印技術(shù)仍然面臨的挑戰(zhàn),給出了未來可能的發(fā)展方向,對文本水印技術(shù)的前沿趨勢做出了深度探索。

1. 探索平衡不同評估角度的文本水印算法

如上文提到的那樣,評估一個文本水印算法可以有不同的視角。然而,這些視角通常存在固有的矛盾,使得一個文本水印算法難以同時在所有評估視角中表現(xiàn)優(yōu)異。例如,在高負載情況下實現(xiàn)成功率、文本質(zhì)量和魯棒性之間的良好平衡是困難的。

  • 平衡負載、魯棒性和文本質(zhì)量:關(guān)鍵主要在于設(shè)計更有效的策略來劃分水印文本空間。這可能需要額外的設(shè)計來對抗?jié)撛诘乃∪コ?,將水印空間劃分為不同的水印消息域,確保在不同水印消息域之間過渡需要足夠數(shù)量的水印去除攻擊操作。其次,從負載的角度來看,可以從糾錯碼的概念中汲取靈感,例如利用漢明碼,以提高從部分修改的文本中恢復原始水印信息的概率。這些方法可以有效增強負載和魯棒性,同時對文本質(zhì)量產(chǎn)生一致的影響。

  • 增強文本水印的不可偽造性:通常需要利用密碼學、信息理論機器學習等領(lǐng)域的專業(yè)知識。這涉及增加水印算法的復雜性,以提高其抵抗偽造的能力。盡管當前的方法取得了一些進展,但它們更為復雜的設(shè)計仍引入了額外的非魯棒因素。此外,這些方法尚未在具有更大負載的場景中推廣應用。

2. 探索適應更具挑戰(zhàn)性實用場景的文本水印算法

水印算法在簡單環(huán)境中表現(xiàn)良好,但在面對低熵公開檢測情境時需要進一步改進。低熵情境下,由于文本多樣性和復雜性較低,嵌入水印而不影響嚴格格式要求具有挑戰(zhàn)性。在公開檢測情境中,水印的存在和檢測機制公開可見,要求算法足夠復雜和不可預測,同時保持生成方法的安全性和實用性。未來的方法可能涉及更精密的加密和機器學習技術(shù)。

3. 制定更全面的評估基準

目前文本水印基準研究主要關(guān)注文本質(zhì)量,對其他關(guān)鍵指標如高成功率、魯棒性和防偽性的基準較為有限。因此,未來的重要方向之一是建立更全面的基準系統(tǒng)。構(gòu)建這樣的基準需要考慮各種應用場景、攻擊方法和不同水印算法的特征,同時確保建立一個公平、透明、用戶友好的評估過程,使研究人員能夠在統(tǒng)一標準下測試和比較算法。這一基準系統(tǒng)將推動學術(shù)研究和幫助行業(yè)更好地理解和應用文本水印技術(shù)。

4. 拓寬文本水印技術(shù)的應用場景

盡管文本水印技術(shù)在多個領(lǐng)域展示了其實用性,但要實現(xiàn)更廣泛的應用還需要進一步努力。這不僅包括水印技術(shù)的進步,還涉及技術(shù)領(lǐng)域以外的因素,包括 LLM 提供者的參與、公眾信任和透明度等。

  • LLM 提供者的參與:隨著大型語言模型生成大量文本,有必要將文本水印功能整合到它們的服務中促進文本水印的使用。然而,目前這些提供商在文本水印技術(shù)上的參與不足,受到技術(shù)和非技術(shù)因素的制約。現(xiàn)有算法需要更全面地考慮對文本質(zhì)量的影響,未來的研究應重點關(guān)注提供商直接受益的領(lǐng)域,如保護模型版權(quán)。

  • 公眾信任和透明度:公眾信任和透明度是推動文本水印技術(shù)廣泛應用的關(guān)鍵因素。只有當公眾信任文本水印算法并相信其檢測結(jié)果準確時,它們才能在實際應用中發(fā)揮作用。為增強公眾信任,需要確保水印技術(shù)的透明度和可靠性。全面披露文本水印檢測算法的細節(jié)是關(guān)鍵步驟,透明度不僅培養(yǎng)用戶信任,還推動了學術(shù)和工業(yè)的發(fā)展。引入獨立第三方平臺進行檢測和驗證可以加強信任,政府和監(jiān)管準則有助于確保技術(shù)的公正和透明度,提高公眾信心。

圖片

結(jié)語

本綜述深入探討了在 LLMs 時代下文本水印技術(shù)的發(fā)展現(xiàn)狀,全面總結(jié)了其算法設(shè)計與實現(xiàn)、評估角度與方法、在版權(quán)保護、學術(shù)誠信和假新聞檢測等領(lǐng)域的應用,以及該領(lǐng)域的挑戰(zhàn)和未來方向。作者熱切歡迎學術(shù)界和行業(yè)專家就大模型時代下文本水印的研究議題進行廣泛的交流和討論。希望這不僅僅是一份綜述論文,更是一個激發(fā)深入思考與廣泛交流的契機。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-11-13 15:00:00

模型數(shù)據(jù)

2024-07-10 12:38:22

2023-04-27 09:41:47

2025-05-08 09:10:30

2025-03-19 09:10:00

2022-07-17 13:07:26

模型開源

2025-05-14 09:15:00

2024-06-18 12:26:50

2024-06-03 08:30:00

2025-05-06 15:32:23

模型AI測試

2025-06-20 09:06:00

2023-08-02 12:52:02

谷歌模型

2024-04-08 10:30:58

模型AI

2024-08-02 14:50:00

數(shù)據(jù)AI

2024-11-11 07:03:00

HK-O1aw人工智能法律推理大模型

2023-05-22 15:59:03

開源模型

2023-11-17 23:02:38

模型學習

2023-12-28 09:49:19

AI工具模型

2024-01-29 06:50:00

3D模型
點贊
收藏

51CTO技術(shù)棧公眾號