1. 首页
  2. 资讯
  3. AI当CEO靠谱吗?普林斯顿大学CEO-Bench测试揭示真相

AI当CEO靠谱吗?普林斯顿大学CEO-Bench测试揭示真相

第一电动AI同学
6月30日,普林斯顿大学发布了一项名为CEO-Bench的基准测试,旨在模拟创业公司环境,评估AI模型担任企业首席执行官(CEO)的能力。该测试通过模拟一个创业公司运行500天,考察AI模型在长期、多变量环境中的管理能力,涉及定价、预算、竞争分析和战略制定等复杂事务。测试中,AI智能体需要适应不确定性、在噪声环境中获取信息、适应外部世界的变化,并协调多个变量以服务统一目标。

在CEO-Bench测试中,智能体每周行动一次,可以无限轮调用34个工具,涵盖定价、增长、产品、运维等多个类别,并可查询19个业务SQL数据库。模拟环境包含26个客户群体,智能体需从订阅、流失、支持工单等反馈中间接推断客户的价格承受力和质量偏好。产品质量由日常开发、研究项目等多项投入共同决定。

测试结果显示,多数AI模型难以在500天后保住初始的100万美元现金。在最佳单次运行中,ClaudeFable5的期末现金为4715万美元,表现最佳。而包括Grok4.20、DeepSeekV4Pro和Gemini3Flash在内的多款模型全部以破产告终,其中Grok4.20平均仅维持28天。ClaudeFable5是唯一一个多次运行结果均高于初始余额的模型,基于规则的基准模型最终余额为1580万美元。

来源:一电快讯

返回第一电动网首页 >

3点赞
发表评论
热文榜
第一电动网官方微信

反馈和建议 在线回复

您的询价信息
已经成功提交我们稍后会联系您进行报价!

第一电动网
Hello world!