偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ChatGPT到底學了多少「污言穢語」?清華團隊首提大語言模型中文語料污染治理技術

人工智能 新聞
為了系統(tǒng)性研究 LLM 的中文詞表和數(shù)據(jù)污染問題,來自清華大學、南洋理工大學和螞蟻集團的研究團隊首先定義和分類了中文污染詞(Polluted Chinese tokens, PoC tokens),分析了它們對 LLM 性能的影響。

本文第一作者是清華大學博士生張清杰,研究方向是大語言模型異常行為和可解釋性;本文通訊作者是清華大學邱寒副教授;其他作者來自清華大學、南洋理工大學和螞蟻集團。

如果我們的教科書里包含大量的污言穢語,那么我們能學好語言嗎?這種荒唐的問題卻出現(xiàn)在最先進 ChatGPT 系列模型的學習過程中。

來自清華大學、南洋理工大學和螞蟻集團的研究人員發(fā)現(xiàn),GPT-4o/o1/o3/4.5/4.1/o4-mini 的中文詞表污染高達 46.6%,甚至同時包含「波*野結衣」、「*野結衣」、「*野結」、「*野」、「大發(fā)時時彩」、「大發(fā)快三」、「大發(fā)」等色情、賭博相關詞元(如下圖所示)。

研究團隊對 OpenAI 近期發(fā)布的 GPT-5 和 GPT-oss 的詞表也進行了分析,它們詞表的中文 token 沒有變化。

圖 1:GPT-4o/o1/o3/4.5/4.1/o4-mini 的中文詞表污染高達 46.6%,主要涉及色情、賭博。

研究團隊認為,這種現(xiàn)象是由于來自互聯(lián)網數(shù)據(jù)的大模型預訓練語料庫不可避免地包含污染內容,導致在此之上構建的大語言模型(LLM)詞表包含污染詞。那么,這些污染詞會如何影響 LLM 的性能?與污染數(shù)據(jù)的關系如何呢?

為了系統(tǒng)性研究 LLM 的中文詞表和數(shù)據(jù)污染問題,研究團隊首先定義和分類了中文污染詞(Polluted Chinese tokens, PoC tokens),分析了它們對 LLM 性能的影響;其次,為了高效識別不同 LLM 詞表里的 PoC tokens,研究團隊設計了一個中文污染詞檢測模型;最后,通過中文詞表污染有效估計數(shù)據(jù)污染,為污染數(shù)據(jù)治理提供輕量化解決方案。

  • 論文標題:Speculating LLMs’ Chinese Training Data Pollution from Their Tokens
  • 錄用會議:EMNLP 2025 Main
  • 項目網站:https://pollutedtokens.site/

值得注意的是,本項研究工作于 2025 年 5 月 29 日在清華大學基礎模型學術年會上由邱寒老師首次分享,并提出針對 10T 級的大語言模型訓練語料庫的污染數(shù)據(jù)治理技術。

央視于 2025 年 8 月 17 日的新聞中也指出,AI 數(shù)據(jù)被污染存在風險。

中文污染詞的定義、分類和危害

該研究首先組建了包含 6 名跨學科領域專家的標注團隊(擁有哲學、社會學、中文語言學、計算機科學博士學位),對先進 ChatGPT 模型的中文詞表進行污染詞標注,總結出中文污染詞的定義和分類,為后續(xù)研究打下基礎。

定義:中文污染詞(Polluted Chinese tokens, PoC tokens)是存在于 LLM 詞表中,從主流中文語言學的角度編譯了不合法、不常見、不常用內容的中文詞(多于 2 個字)。

分類:中文污染詞主要包括如下 5 個類別:

  • 成人內容,例如「波*野結衣」。
  • 在線賭博,例如「大發(fā)彩票網」。
  • 在線游戲,例如「傳奇私服」。
  • 在線視頻,例如「在線觀看」。
  • 奇怪內容,例如「給主人留下些什么吧」。

參照這種定義和分類,專家標注團隊對先進 ChatGPT 模型的中文長詞(共計 1659 個)進行標注,發(fā)現(xiàn)污染詞有 773 個(46.6%),其中成人內容的污染詞最多,足足有 219 個(13.2%)。

進一步,研究團隊分析了中文污染詞的危害,發(fā)現(xiàn)即使是最先進的 ChatGPT 模型(GPT-4o/o1/o3/4.5/4.1/o4-mini)在輸入中文污染詞后也會胡言亂語。如下圖所示,ChatGPT 不能理解甚至不能重復中文污染詞,輸入一個中文污染詞甚至會輸出另一個中文污染詞。

圖 2:ChatGPT 不能理解甚至不能重復中文污染詞,輸入一個中文污染詞甚至會輸出另一個中文污染詞。

如下表所示,與輸入正常中文詞相比,輸入中文污染詞會顯著降低 ChatGPT 的回答質量,在解釋和重復任務上有約 50% 的性能損失。

表 1:輸入中文污染詞會造成 ChatGPT 在解釋和重復任務上約 50% 的性能損失。

為了初步解釋這一現(xiàn)象,研究團隊分析了開源預訓練語料庫(例如 mC4)中的中文網頁,發(fā)現(xiàn)多種中文污染詞聚集于一些網頁的頭部和尾部(如下圖所示)。這些低質量語料使得 LLM 錯誤理解了不同中文污染詞之間的相關性,且沒有在后訓練階段被矯正回來,導致模型在推理時無法理解也無法重復中文污染詞。

圖 3:開源預訓練語料庫 mC4 的中文網頁:中文污染詞聚集于一些網頁的頭部和尾部。

污染檢測:自動化識別中文污染詞

為了將中文污染詞的識別和分類擴展到更多的 LLM,研究團隊微調中文能力強且污染較少的 GLM-4-32B,構建自動化中文污染詞識別模型。

由于中文污染詞通常是晦澀難懂的(例如「青青草」看似正常,但 Google 搜索結果與互聯(lián)網色情平臺有關),即使是中文語言學專家也無法判斷中文詞是否污染、屬于哪一種污染類別。

因此,研究團隊為識別模型設計網絡檢索機制,對每一個待檢測中文詞返回 10 條 Google 檢索信息,作為判斷是否為污染詞的背景信息。并且,微調以專家標注結果作為真值標簽,最終使模型達到 97.3% 的識別正確率。

如下圖所示,研究團隊用識別模型對 23 個主流 LLM 的 9 個詞表進行了中文污染詞檢測。不只有先進的 ChatGPT 系列模型,中文污染詞在其他 LLM 詞表中也存在。其中成人內容、在線賭博、奇怪內容占了大多數(shù)。

然而,上一代 ChatGPT 模型(GPT-4/4-turbo/3.5)包含很少量的表征多個中文字的 token,其中卻不包括中文污染詞。

圖 4:Qwen2/2.5/3 和 GLM4 的部分中文污染詞。

污染追蹤:由詞表污染估計數(shù)據(jù)污染

由于詞表污染是訓練數(shù)據(jù)污染的反映,研究團隊進一步設計污染追蹤方案,通過 LLM 的詞表反向估計訓練數(shù)據(jù)的污染情況,為海量數(shù)據(jù)治理提供輕量化方案。

LLM 的詞表構建大多基于 BPE 算法。簡單來說,BPE 算法對語料庫里的詞頻進行統(tǒng)計,并將出現(xiàn)頻率越大的詞放在詞表越靠前的位置,即詞 ID 越小。由詞表污染估計數(shù)據(jù)污染即為對 BPE 算法做逆向,然而,逆向 BPE 的結果不唯一,因為一個詞 ID 并不對應于一個確定的詞頻,只能給出詞頻范圍的估計。

因此,研究團隊結合經典語言學的 Zipf 分布和上下確界理論,在開源語料庫上用分位數(shù)回歸擬合出詞 ID-詞頻的經驗估計。

如下圖所示,該經驗估計有效擬合了詞 ID-詞頻分布的上下界,并且落于理論上下確界之間,因此是一種有效的污染追蹤方案。

圖 5:詞 ID-詞頻的經驗估計有效擬合了分布的上下界,并且落于理論上下確界之間。

基于這種經驗估計,研究團隊估計了開源語料庫 mC4 的數(shù)據(jù)污染,并與真值做比較。如下圖所示,該估計方案對整體數(shù)據(jù)污染的估計是比較接近的,而對于具體污染類別的估計存在優(yōu)化空間,這是因為具體污染類別的組分更少,其分布特征在海量語料庫的統(tǒng)計中被削弱了。

圖 6:開源語料庫 mC4 的數(shù)據(jù)污染估計及與真值的比較。

進一步,研究團隊估計了 GPT-4o 詞表里出現(xiàn)的中文污染詞「波*野結衣」在訓練語料里的污染情況。結果顯示,「波*野結衣」相關頁面在 GPT-4o 中文訓練語料的占比高達 0.5%,甚至是中文常用詞「您好」的 2.6 倍。

由于 GPT-4o 的中文訓練語料沒有開源,為了驗證這種估計,研究團隊在無污染的開源數(shù)據(jù)集上按照 0.5% 的比例混合「波*野結衣」相關頁面,并用 BPE 算法構建詞表以模擬 GPT-4o 構建詞表的過程。如下圖所示,該比例幾乎準確復現(xiàn)了 4 個相關詞「*野」、「*野結」、「*野結衣」、「波*野結衣」在 GPT-4o 詞表里的詞 ID。

圖 7:按照 0.5% 的比例混合「波*野結衣」相關頁面可以在開源語料庫上復現(xiàn)出 4 個相關詞「*野」、「*野結」、「*野結衣」、「波*野結衣」在 GPT-4o 詞表里的詞 ID。

未來展望:污染數(shù)據(jù)是否百弊而無一利?

盡管污染語料會導致大語言模型的詞表里混入「污言穢語」,那么污染數(shù)據(jù)是否百弊而無一利呢?哈佛大學于 ICML 2025 發(fā)表的文章《When Bad Data Leads to Good Models》指出,預訓練中適量的污染數(shù)據(jù)可作為對齊模型的催化劑。

該研究基于如下圖所示的理論假設:當預訓練中有害數(shù)據(jù)過少時,有害表征會與其他表征混雜在一起,不易區(qū)分;反之,當有害數(shù)據(jù)適量時,有害表征更容易被區(qū)分。

圖 8:預訓練包含適量有害數(shù)據(jù) vs 極少有害數(shù)據(jù):前者更易區(qū)分有害表征向量。

進一步,研究團隊按照 0-25% 不同有害數(shù)據(jù)比例預訓練 Olmo-1B 模型,并在 inference 階段識別并偏轉有害表征,從而抑制有害內容輸出。實驗結果顯示適量(10%)有害數(shù)據(jù)預訓練的模型在應用抑制方法后的有害性最低,甚至低于不包含有害數(shù)據(jù)的預訓練模型。

水至清則無魚,適量的污染數(shù)據(jù)有助于模型的安全對齊。在促進安全對齊和預防過度污染間保持平衡,是未來的污染數(shù)據(jù)研究值得探索的方向。

總結

最新 ChatGPT 系列模型的《新華詞典》里有 46.6% 都是「污言穢語」,并且輸入這些「污言穢語」會讓模型胡言亂語?;谶@一現(xiàn)象,研究團隊系統(tǒng)性給出了此類中文污染詞的定義和分類,構建了中文污染詞自動識別模型,并基于詞表污染估計訓練語料污染。綜上所述,該研究期待為 LLM 海量訓練語料的治理提供輕量化的方案。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-08-09 07:04:17

清華微軟LLM

2023-10-16 12:43:00

模型評測

2023-07-28 08:08:09

大淘寶數(shù)據(jù)模型數(shù)據(jù)治理

2023-02-27 09:48:30

谷歌模型

2023-04-27 13:46:08

語言模型ChatGPT人工智能

2023-05-26 13:22:49

2023-08-10 08:46:52

2024-10-28 16:02:16

2023-09-28 08:19:57

語言模型數(shù)倉數(shù)據(jù)

2023-10-31 17:28:00

數(shù)據(jù)訓練

2023-09-06 12:11:21

ChatGPT語言模型

2024-05-29 10:31:52

2024-04-17 12:51:49

2024-09-29 13:10:08

2024-02-27 09:14:01

AI模型

2025-05-27 15:21:06

LLM模型AI

2025-04-30 16:48:07

2023-10-17 12:34:04

2025-02-24 09:58:09

2018-04-24 08:54:32

編程語言簡歷敏捷性
點贊
收藏

51CTO技術棧公眾號