內容摘要:當地時間4月2日,美國開放人工智能研究中心宣布推出PaperBench,這是一個用于評估AI智能體復現前沿AI研究能力的全新基準。OpenAI在PaperBench上對多個前沿模型進行測試后發現,表現最佳的智能體Claude3.5Sonnet(新版)結合開源框架,平均復現得分達到21.0%。不過,OpenAI招募頂尖機器學習博士嘗試部分測試集后發現,上述模型表現尚未超越人類基線。
當地時間 4 月 2 日,美國開放人工智能研究中心(OpenAI)宣布推出 PaperBench,這是一個用于評估 AI 智能體復現前沿 AI 研究能力的全新基準。PaperBench 要求智能體從零開始復現 20 篇 ICML 2024 Spotlight 和 Oral 論文,過程包括深入理解論文貢獻、開發代碼庫以及成功執行實驗。
OpenAI 在 PaperBench 上對多個前沿模型進行測試后發現,表現最佳的智能體 Claude 3.5 Sonnet(新版)結合開源框架,平均復現得分達到 21.0%。不過,OpenAI 招募頂尖機器學習博士嘗試部分測試集后發現,上述模型表現尚未超越人類基線。
免責聲明:以上"OpenAI發布AI科研復現基準測試PaperBench"內容和圖片來源于網絡,本網站轉載僅為傳遞更多行業信息和交流之目的,著作權屬原創者所有,如有版權問題請聯系網站管理員刪除。