ChatGPT這樣學中文母湯？23%長詞元被污染，出現波多野結衣頻率勝過您好

AI 2025.09.06

最新研究揭示 GPT-4o 中文訓練資料庫遭污染，23% 長詞元與色情、賭博等內容相關。AI 學習「波多野結衣」的頻率竟高於「您好」，恐致模型準確性驟降50%。

AI 文章總結

＋閱讀

・本文未經同意請勿轉載

免責聲明

市場有風險，投資需謹慎。本文不構成投資建議，使用者應考慮本文的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。

參考資料

展開

加密城市 CryptoCity 要求作者引用第一手資料來支持報導，包括白皮書、政府數據、原創調查，以及對業界專家的訪談。我們也會在適當情況下參考其他權威媒體的研究與分析。

LLM中文語料污染研究

Speculating LLMs' Chinese Training Data Pollution from Their Tokens

你可能想知道

即將開始下一篇