facebook_sharetelegram_sharetwitter_shareline_share

加密快訊

DeepSeek發布視覺基元推理方法,提升多模態復雜推理能力

2026.04.30 18:55

據DeepSeek發布的技術報告,其提出「視覺基元推理」(Visual Primitives)方法,通過將點、框等基礎視覺單元嵌入推理鏈,解決多模態任務中的Reference Gap問題。該方法基於DeepSeek-V4-Flash架構,並通過壓縮KV緩存實現低圖像token消耗。在計數與空間推理基准測試中,其表現可比GPT-5.4、Claude-Sonnet-4.6及Gemini-3-Flash(僅限部分維度)。團隊表示未來將開源部分基准與數據,模型權重將整合後發布。

你可能想知道