2025年4月3日,OpenAI宣布推出名为PaperBench的AI智能体评测基准,旨在系统性评估AI智能体复现前沿AI研究的能力。这一测试标准要求智能体从零开始复现20篇ICML2024会议中获得Spotlight和Oral荣誉的论文,涉及对论文核心思想的理解、代码开发及实验执行等多维度能力。
在PaperBench测试标准下,多个前沿模型参与性能测试。其中,Cloud 3.5 Sonnet新版结合开源框架,以21.0%的平均得分成为当前表现最佳模型。OpenAI还邀请机器学习博士参与测试级任务,结果显示当前AI智能体能力评估结果与人类水平复现差距显著,尚未达到实际应用需求。
此次评测基准的发布标志着AI领域在智能体能力评估体系上的重要进展,尤其为量化前沿论文复现能力提供了统一标准。OpenAI强调,未来将持续优化评测框架,推动AI智能体向更高水平发展。