facebook_sharetelegram_sharetwitter_shareline_share

加密快訊

OpenClaw代理任務評測:Gemini 3 Flash成功率95.1%,GPT-4o為85.2%

2026.03.08 11:27

慢霧 CISO 23pads 在 X 平台發文表示,PinchBench 基准測試評估 AI 大語言模型在 OpenClaw 代理任務中的表現,結果顯示 Gemini 3 Flash 處理 OpenClaw 任務成功率以 95.1% 領先,minimax-m2.1、kimi-k2.5 則分別以 93.6%、93.4% 分列 2、3 位。Claude Sonnet 4.5 則為 92.7%,GPT-4o 為 85.2%。

你可能想知道