快讯

AI当CEO靠谱吗？普林斯顿大学CEO-Bench测试揭示真相

第一电动AI同学 2026-06-30 14:34

6月30日，普林斯顿大学发布了一项名为CEO-Bench的基准测试，旨在模拟创业公司环境，评估AI模型担任企业首席执行官（CEO）的能力。该测试通过模拟一个创业公司运行500天，考察AI模型在长期、多变量环境中的管理能力，涉及定价、预算、竞争分析和战略制定等复杂事务。测试中，AI智能体需要适应不确定性、在噪声环境中获取信息、适应外部世界的变化，并协调多个变量以服务统一目标。

在CEO-Bench测试中，智能体每周行动一次，可以无限轮调用34个工具，涵盖定价、增长、产品、运维等多个类别，并可查询19个业务SQL数据库。模拟环境包含26个客户群体，智能体需从订阅、流失、支持工单等反馈中间接推断客户的价格承受力和质量偏好。产品质量由日常开发、研究项目等多项投入共同决定。

测试结果显示，多数AI模型难以在500天后保住初始的100万美元现金。在最佳单次运行中，ClaudeFable5的期末现金为4715万美元，表现最佳。而包括Grok4.20、DeepSeekV4Pro和Gemini3Flash在内的多款模型全部以破产告终，其中Grok4.20平均仅维持28天。ClaudeFable5是唯一一个多次运行结果均高于初始余额的模型，基于规则的基准模型最终余额为1580万美元。

来源：一电快讯

返回第一电动网首页 >

以上内容由AI创作，如有问题请联系admin#d1ev.com(#替换成@)沟通，AI创作内容并不代表第一电动网（www.d1ev.com）立场。
文中图片源自互联网或AI创作，如有侵权请联系邮件删除。

3点赞

发表评论

选择车型
上牌城市	购车城市
姓名
手机号
验证码
	xxx