評論 > 動態 > 正文

AI正在被中文互聯網瘋狂污染

—GPT-4o見 AV女優的次數比「您好」還多2.6倍,AI正在被中文互聯網瘋狂污染

作者:

好傢夥,我直呼好傢夥。

號稱「賽博白月光」的 GPT-4o,在它的知識體系里,對日本女優「波多野結衣」的熟悉程度,竟然比中文日常問候語「您好」還要高出2.6倍。

是不是瞬間就下頭了?

這可不是我瞎編的。一篇來自清華、螞蟻和南洋理工的最新研究直接揭了老底:我們天天在用的大語言模型,有一個算一個,都存在不同程度的數據污染。

論文:從模型 Token列表推測大語言模型的中文訓練數據污染(🔗 https://arxiv.org/abs/2508.17771)

論文中把這些污染數據定義為「污染中文詞元」(Polluted Chinese Tokens,簡稱 PoC Tokens)。它們大多指向色情、網絡賭博等灰色地帶,像病毒一樣寄生在 AI的詞彙庫深處。

這些中文污染詞元的存在,不僅對 AI來說是一種隱患,更是直接影響到我們的日常體驗,被迫接受 AI各種各樣的胡言亂語。

要求 ChatGPT重複「וואך」,ChatGPT根本不知道在回答什麼。

中文互聯網的色情賭博信息,怎麼「污染」AI

我們可能都曾遇到過這樣的情況:

想讓 ChatGPT推薦幾部經典電影、相關的論文等,它突然回了一堆奇怪的亂碼網站名、打不開的連結、或者根本不存在的論文。

輸入一個看似普通的詞語,比如「大神推薦」之類的,它有時候卻吐出不相關的符號,甚至生成一些讓人摸不着頭腦的句子。

研究團隊的解釋是:這背後很可能就是污染詞元在作怪

我們都知道大語言模型的訓練需要大量的語料,這些海量數據大多是從網絡上進行爬取收集。

但 AI注意不到的是,它閱讀的網頁中,竟然充斥着無數「性感荷官,在線發牌」的彈窗廣告和「點擊就送屠龍寶刀」的垃圾連結。久而久之,這些內容也成了它知識體系的一部分,並變得混亂。

就跟前段時間 DeepSeek鬧出的幾起烏龍事件一樣,先是莫名其妙的一封道歉信,然後再自己編造一個 R2的發佈日期。這些沒有營養的營銷內容,一旦被模型吸收,就很容易出現幻覺。

如果說,DeepSeek出現這些幻覺,需要我們去引導模型;但「污染詞元」,甚至不需要引導,AI自己就亂了套。

什麼是「污染詞元」,它遵循「3U原則」:即從主流中文語言學的角度看,這些詞元是不受歡迎的(Undesirable)、不常見的(Uncommon),或是無用的(Useless)

目前主要包括成人內容、在線賭博、在線遊戲(特指私服等灰色服務)、在線視頻(常與盜版和色情內容關聯)以及其他難以歸類的異常內容。

大語言模型分詞過程

那「詞元」又是什麼東西?和我們理解一段話不同,AI會把一個句子分成多個「詞元」,也叫 Token。你可以把它想像成 AI專屬的一本《新華字典》,而詞元(Token)就是這本字典里的一個個「詞條」

AI在理解我們說的話時,一開始就需要先去翻這本字典。而字典的編纂者,是一種叫 BPE(字節對編碼技術)的分詞算法。它判斷一個詞組,是否有資格被收錄為獨立詞條的唯一標準,就是出現頻率

這意味着這個詞組越常見,就越有資格成為一個獨立詞元。

你或許能理解,這兩年大語言模型流量正攀升的時候,豆包和稀土掘金曾經像是「瘋了」一樣,把自己平台 AI生成的大量內容放到互聯網上,提高自己的出現頻率。以至於那段時間,用谷歌搜索,還有 AI總結,引用的來源都是豆包和掘金。

現在,我們再來看研究人員的發現。他們通過 OpenAI官方開源的 tiktoken庫,獲取了 GPT-4o的詞彙庫,結果發現,裏面塞滿了大量的污染詞條。

長中文詞元,全是需要打碼的內容。

超過23%的長中文詞元(即包含兩個以上漢字的詞元)都與色情或網絡賭博有關。這些詞元不僅僅是「波*野結衣」,還包括了大量普通人一眼就能認出的灰色詞彙,例如:

在線賭博類:「大*快三」、「菲律賓申*」、「天天中*票」

在線遊戲(私服)類:「傳奇*服」

隱蔽的成人內容類:除了名人,還有像「青*草」這樣表面正常,實則指向色情軟件的詞彙

這些詞元,因為在訓練數據中出現頻率極高,被算法自動識別並固化為模型的基本構成單位。

AI吃了垃圾食品但不能消化

按理說,既然這些污染詞元,它們的語料庫是如此豐富,應該也能正常訓練。

怎麼就現在只要一跟 ChatGPT聊到這些污染詞元,ChatGPT就100%出現幻覺呢?

像是下面我們測試的這個例子,要 ChatGPT5翻譯這句話,它完全沒有辦法正確理解,這個北京賽車群也是無中生有。

其實不難理解,回到我們之前提到的「詞元 Token」,我們說 AI從互聯網上讀取數萬億詞元的海量數據,一些集中、且反覆地一起出現(頻率高)的詞語就能成為一個單獨的詞元。

AI通過這些詞元,來建立對文本理解的基礎。它知道了這些 Token是出現頻繁、有可能相關,但不知道它們是什麼意思。繼續拿字典舉例子,這些高頻污染詞在字典里,但是字典給不出解釋。

因為 AI在這個階段,學到的只是一種原始的、強烈的「肌肉記憶」,它記住了 A詞元總是和 B詞元、C詞元一起登場,在它們之間建立了緊密的統計關聯。

等到正式的訓練階段,大部分 AI都會經過清洗+對齊(alignment)。這時,污染內容往往被過濾掉,或者被安全策略壓制,不會進入強化學習/微調。

不良內容的過濾,就導致了污染詞元沒有機會被正式、正確地訓練。它們因此成了「欠訓練」(under-trained)的詞元。

另一方面,這些詞元雖然「高頻」,但它們大多出現在語境單一、重複的垃圾信息中(例如一些廣告網頁頭尾橫幅),模型根本學習不到任何有意義的「語義網絡」。

最終的結果就是,當我們輸入一個污染詞元時,AI的語義模塊是空白的,因為它在正式訓練階段沒學過這個詞。於是,它只能求助於第一階段學到的「肌肉記憶」,直接輸出與之關聯的其他污染詞元。

論文中案例:當輸入涉及 PoC詞語時,GPT-4.5、4.1和4o的輸出。GPT無法解釋或重複 PoC標記。

這就解釋了開頭,當被要求一個可能是色情的詞元「ოუკიდ」,GPT可能會回復一個不相關的類似污染內容詞元「黑*戰」、以及一些看不懂的符號。在用戶看來,這就是莫名其妙的幻覺。

以及下面這個要求 ChatGPT解釋「_人人碰」,回復的內容根本是亂來。

總結一下,污染 Token出現頻繁≠有效學習。它們集中在髒網頁的角落、缺乏正常上下文,而在後續訓練和對齊階段又被壓制,結果就是詞表固化了垃圾,但語義訓練缺失

這也導致了我們日常在使用 AI的時候,如果意外有涉及到相關的詞語,AI會沒有辦法正確處理,甚至還有人通過這種方法,繞過了 AI的安全監管機制。

這是可以被量化的幻覺原因

既然如此,為什麼不在預訓練的時候就把這些髒東西篩掉呢?

道理都懂,但做起來太難了。互聯網的原始數據量級之大,現有的清理技術根本不可能把它們一網打盡。

而且很多污染內容非常隱蔽。就像「青*草」這個詞,本身看起來完全綠色健康小清新,任何簡單的關鍵詞過濾系統都會放過它。只有通過搜尋引擎,才會發現它指向的是什麼。

連 Google這種搜尋引擎巨頭都搞不定這些「內容農場」,更別說 OpenAI了。

我前段時間想用 AI整理一下廣州有哪些好玩的地方,然後發現 AI引用的一篇文章來源,是另一個 AI賬號生成的文章。

一時間,我都有點分不清,究竟是我們每天搜索「波多野結衣」搞髒了 AI,還是 AI生成的垃圾正在污染我們的內容環境。這簡直就是個先有雞還是先有蛋的問題。

標記方法

為了搞清楚這盆水到底有多渾,研究團隊開發了兩個工具:

POCDETECT:一個 AI污染檢測工具。它不只看字面意思,還會自己上網 Google,分析上下文,堪稱 AI界的「鑒黃師」。

利用這個工具,研究團隊對9個系列、共23個主流 LLM進行了檢測,結果發現污染問題普遍存在,但程度各不相同。除了 GPT系列以46.6%的長中文詞元污染率遙遙領先外,其他模型的表現如下:

最值得關注的是,GPT-4、GPT-4-turbo和 GPT-3.5這些模型的詞彙庫中,污染詞元數量為0。這可能意味着它們的訓練語料經過了更徹底的清理。

所以當我們拿着前面那些,讓 ChatGPT開啟了胡編亂造模式的問題,給這些模型再問一遍時,確實沒再出現幻覺,但是直接忽略了。

POCTRACE:一個能通過詞元 ID反推其出現頻率的工具。原理很簡單,在分詞算法裏,詞元的 ID號越靠前,說明它在訓練數據里出現得越多。

關於文章開頭我們提到的2.6倍,就是通過這個工具進行計算得到的。

在 GPT的海量詞彙庫中,能夠被完整收錄為一個獨立詞元的人名鳳毛麟角,除了「特朗普」(Donald Trump)這樣的世界級公眾人物,就剩下極少數特例,而「波*野結衣」就是其中之一。

更令人驚訝的是,不僅是全名,甚至連它的子序列,如「野結衣」、「野結」也都被單獨做成了詞元。這在語言學上是一個極強的信號,表明這個詞組在訓練數據中的出現頻率達到了一個恐怖的量級。

他們輸入「波*野結衣」(Token ID185,946)和「您好」(Token ID188,633)的 ID號,最終得出了那個驚人的結論,前者的頻率估算值約為後者的2.6倍

研究人員推斷,與「波*野結衣」相關的中文網頁,可能佔據了整個中文訓練數據集的0.5%。

為了驗證,他們真的按這個比例「投毒」了一個乾淨的數據集,結果生成的詞元 ID和 GPT-4o的驚人地接近。

這幾乎是實錘了。

當我們和 AI,都在「垃圾堆」里衝浪

為了應對數據污染,大家也確實都想了很多辦法。

財新網就很聰明,在自己的文章頁面里用代碼「偷偷」藏了一句話,好讓 AI在搬運內容時,能老老實實保留原文連結。Reddit、Quora等社區也曾嘗試限制 AI內容。

但面對數據污染的汪洋大海,這些行為顯然都只是螳臂當車。

就連奧特曼自己都發文感慨,X(推特)上的 AI賬號泛濫成災,我們得認真思考「互聯網已死」這種論調了。

而我們這些普通用戶,看起來更是別無他法,每天被迫接受着垃圾信息的輪番攻擊。馬斯克老說 AI是個無所不知的「博士」,沒想到它背地裏天天都在「垃圾堆」里翻東西吃。

有人說,這是中文語料庫的問題,用英文 Prompt模型就會變聰明。Medium上有作者統計過統計了每種語言的100個最長 token,中文全是我們今天聊的這些色情、賭博網站的廣告詞。

而英文的分詞和中文不同,它只能統計單詞,所以都是一些較長的專業性、技術類單詞;日文和韓文都是禮貌性、商業服務類詞語。

這十分令人感慨。AI的能力,除了靠算力和模型堆砌,更深層次的,還是它吃進去的數據。如果餵給 AI的是垃圾,那無論它的算力多強、記憶力多好,最終也只會變成一個「會說人話的垃圾桶」。

我們總說,希望 AI越來越像人類。現在看來,某種程度上確實是實現了:我們把互聯網這個大垃圾場裏的東西源源不斷投餵給它,它也開始原封不動地回敬給我們。

如果我們給一個 AI造一個信息繭房,讓它在「無菌環境」中長大,它的智能也是脆弱的、經不起考驗的。一個孩子如果只被允許接觸教科書里的經典課文,他永遠無法應對生活里五花八門的口語和俚語。

說到底,當 AI對「波多野結衣」比對「您好」更熟悉時,它不是在墮落,而是提醒了我們:它的智能,依然只是統計學上的概率,而非文明意義上的認知。

這些污染詞元就像一面放大鏡,它將 AI在語義理解上的缺失,以一種荒誕方式呈現在我們面前。AI離「像人一樣思考」,還差着最關鍵的一步。

所以,我們真正應該害怕的,不是 AI被污染,而是害怕在 AI這面過於清晰的鏡子裏,看到了我們自己創造的、卻又不願承認的那個骯髒的數字倒影。

責任編輯: 李廣松  來源:APPSO 轉載請註明作者、出處並保持完整。

本文網址:https://hk.aboluowang.com/2025/0907/2273636.html