熱議!DeepSeek V3.1驚現(xiàn)神秘「極」字Bug,模型故障了?
上周三,DeepSeek 開源了新的基礎(chǔ)模型,但不是萬(wàn)眾期待的 V4,而是 V3.1-Base,而更早時(shí)候,DeepSeek-V3.1 就已經(jīng)上線了其網(wǎng)頁(yè)、App 端和小程序。

經(jīng)過(guò)這差不多一周時(shí)間的真實(shí)用戶測(cè)試,DeepSeek-V3.1 卻被發(fā)現(xiàn)存在一個(gè)相當(dāng)讓人無(wú)語(yǔ)的問(wèn)題:其某些輸出 token 會(huì)被隨機(jī)替換為「極」。
具體來(lái)說(shuō),據(jù)知乎用戶 Fun10165 描述,她在調(diào)用火山引擎版 DeepSeek V3.1 幫助整理一份物理試卷時(shí)發(fā)現(xiàn),該模型的輸出中會(huì)莫名出現(xiàn)一些「極」字。

圖源:知乎 @Fun10165
而后面在 Trae 中測(cè)試 DeepSeek-V3.1 時(shí)也同樣出現(xiàn)了這個(gè)問(wèn)題。
有意思的是,她還嘗試了調(diào)用官方 API 修復(fù)這個(gè)問(wèn)題。結(jié)果,在修復(fù)的過(guò)程中又出現(xiàn)了這個(gè)問(wèn)題。

圖源:知乎 @Fun10165
她表示:「實(shí)測(cè),官方網(wǎng)頁(yè) / API 能復(fù)現(xiàn),概率不高,但多試幾次就能出來(lái)。VolcEngine API 復(fù)現(xiàn)概率非常高。」
帖子下方,也有一些其他用戶分享了類似的發(fā)現(xiàn)。
比如知乎用戶「去碼頭整點(diǎn)薯?xiàng)l」分享說(shuō) R1 也存在類似的問(wèn)題,他還簡(jiǎn)單猜想了原因:「使用 R1 0528 的時(shí)候就遇到了很多次,我觀察到的現(xiàn)象更離譜,會(huì)在代碼里面插入 “極客園”,而且遇到不止一次,懷疑是不是學(xué)習(xí)的時(shí)候吃進(jìn)去了什么電子水印吃壞肚子了。」
知乎用戶「琪洛」則發(fā)現(xiàn) V3-0324 也存在類似問(wèn)題,只不過(guò)這一次輸出的是「極速賽車開獎(jiǎng)直播」字符串。

圖源:知乎 @琪洛
她猜想道:「懷疑可能數(shù)據(jù)沒洗干凈,即便重新訓(xùn)了 base 這個(gè)問(wèn)題還是留下了,題主和其他回答所述「極」和「極速」可能就是這個(gè)詞的殘余痕跡?!?/span>
而在 Reddit 上,相關(guān)話題也正被熱烈討論中。
發(fā)帖者用戶 u/notdba 表示,在測(cè)試 DeepSeek V3.1 時(shí),他發(fā)現(xiàn)模型會(huì)莫名地在某些意料之外的位置輸出如下 token:
- extreme (id:15075)
 - 極 (id:2577)
 - 極 (id:16411)
 
很顯然,這仨都是同一個(gè)詞。
他繼續(xù)描述到,除了這 3 種「極」 token 在貪婪解碼中成為首選的情況之外,這些「極」 token 也經(jīng)常在其他意想不到的地方潛伏為第二或第三選擇。
他說(shuō):「我已經(jīng)對(duì)所有流行的編碼模型都做過(guò)同樣的評(píng)估,這是我第一次遇到這種問(wèn)題?!?/span>
他的猜測(cè)是該問(wèn)題可能會(huì)被 MTP(多 token 預(yù)測(cè))掩蓋,并且當(dāng)推理堆棧不支持 MTP 時(shí)就會(huì)變得更加明顯,比如 llama.cpp 就還不支持 MTP。這個(gè)猜想的合理之處在于支持 MTP 的 DeepSeek 官方 API 更不容易遇到這種情況,而第三方部署的同款模型則更容易出現(xiàn)這個(gè)問(wèn)題。
用戶 u/nekofneko 則分享了另一個(gè)案例:

圖源:Reddit u/nekofneko
他給出的可能解釋是:「極」的 token 是 2577,而省略號(hào)「...」的 token 是 2576。這兩者可能被模型混淆了。
還不只是「極」,也有用戶發(fā)現(xiàn) DeepSeek-V3.1 還存在多語(yǔ)言混用的問(wèn)題,u/Kitano_o 分享說(shuō):「我使用 3.1 從中文翻譯成俄語(yǔ)時(shí),遇到一些奇怪的行為。它開始混合多種語(yǔ)言 —— 添加英文詞,也留下些中文詞。有時(shí)這些問(wèn)題會(huì)占到文本的 5%,有時(shí)只占 1%,甚至 0%。而且使用 OpenRouter 的不同提供商都會(huì)出現(xiàn)這個(gè)問(wèn)題,即使我使用 DeepSeek 作為提供商也會(huì)?!?/span>

圖源:Reddit u/Kitano_o
總體而言,對(duì)于 DeepSeek-V3.1 這個(gè)可以說(shuō)相當(dāng)嚴(yán)重的問(wèn)題的原因,網(wǎng)友給出的猜測(cè)更多還是「數(shù)據(jù)污染」。
比如階躍星辰黃哲威表示:「我認(rèn)為是本身 sft 數(shù)據(jù)合成甚至是構(gòu)造預(yù)訓(xùn)練數(shù)據(jù)的時(shí)候沒洗干凈引入了 “極長(zhǎng)的數(shù)組” 這種怪東西(從 R1 的行為看,似乎大量使用了 RAG 方法來(lái)造難題的解答),然后 RL 的時(shí)候模型直接把這個(gè)字當(dāng)某種終止符或者語(yǔ)言切換標(biāo)記使用了。」

圖源:知乎 @hzwer 黃哲威
他還提到:「其實(shí)推理出 bug,大概率都是數(shù)據(jù)問(wèn)題,很多人都知道。只是 R1 的其它 bug 沒有這么高頻發(fā)生,社區(qū)不太關(guān)注而已?!?/span>
這次事件也給所有模型開發(fā)者敲響了警鐘:在追求更高性能的 AI 模型時(shí),最基礎(chǔ)的數(shù)據(jù)質(zhì)量,才是決定 AI 是否會(huì)「行為異常」的關(guān)鍵。
我們也把相關(guān)事件發(fā)送給了 DeepSeek 本尊,讓它分析了一下可能的原因:
長(zhǎng)圖滾動(dòng)查看
你遇到過(guò)這個(gè)問(wèn)題嗎?覺得可能的原因是什么?















 
 
 













 
 
 
 