加密快訊
OpenAI發布LifeSciBench:衡量AI系統在真實科研場景中的能力
2026.06.20 22:52
OpenAI官方發布全新評測基准LifeSciBench,旨在衡量AI系統在真實科研場景中的能力。據悉,LifeSciBench基於750道專家編寫任務,覆蓋7類科研工作流與7個生物學領域,任務來源於173名具有博士背景並具備生物科技或制藥行業經驗的科研人員,該基准強調復雜科研能力評估,包括證據整合、實驗設計、數據分析、科學推理與科研溝通等能力,而非單一事實性問題。超過79%的任務包含多步驟推理,平均每道題需約4個推理步驟,並包含1,062個真實科研相關數據附件(如論文、圖表、序列數據及結構文件等)。