近日,Gemini3Pro在EpochAI的FrontierMath基准测试中创下新纪录,Tier1-3准确率达38%,Tier4达19%,在Epoch能力指数(ECI)中获得154分,超越了GPT-5.1此前保持的151分的最高纪录。FrontierMath由EpochAI联
合众多职业数学家打造,包含数百道原创、从未公开的难题,覆盖现代数学的主要分支,是衡量AI高阶数学推理能力的重要基准。
Gemini3Pro不仅在基准测试中表现出色,还在实战中证明了自己的实力。数学家陶哲轩近日发帖表示,他用GeminiDeepthink模式十分钟便解决了埃尔德什问题#367的关键证明。这一问题涉及将整数拆成积木,只留下能成对出现、能拼成平方的那一部分,探讨整数里“平方因子扎堆”的程度。陶哲轩将这一证明转化为更基础的版本,BorisAlexeev完成了证明的Lean形式化。
在登顶数学基准测试的同时,Gemini3Pro也在一项最新的物理基准测试CritPt中霸榜。CritPt由三十多家机构的五十余位活跃物理学者共同打造,涵盖现代物理的十一大分支,是首个专门面向“未公开、真研究级”物理问题的大模型基准。Gemini3Pro在CritPt测试中的成绩为9.1%,虽然与满分表现还有距离,但再次证明了其在前沿模型中的领先地位。



来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。