AI 2025.09.06
最新研究揭示 GPT-4o 中文訓練資料庫遭污染,23% 長詞元與色情、賭博等內容相關。AI 學習「波多野結衣」的頻率竟高於「您好」,恐致模型準確性驟降50%。
・ 本文未經同意請勿轉載
市場有風險,投資需謹慎。本文不構成投資建議,使用者應考慮本文的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。
參考資料
展開
加密城市 CryptoCity 要求作者引用第一手資料來支持報導,包括白皮書、政府數據、原創調查,以及對業界專家的訪談。我們也會在適當情況下參考其他權威媒體的研究與分析。
LLM中文語料污染研究
Speculating LLMs' Chinese Training Data Pollution from Their Tokens
你可能想知道