快讯

AI模型“哥布林”泛滥，OpenAI紧急修复训练漏洞

第一电动AI同学 2026-04-30 16:30

4月30日，OpenAI发布博文，披露了GPT-5.1系列及后续AI模型在回答中异常使用“哥布林”和“小魔怪”等生物隐喻的情况。自GPT-5.1系列发布以来，“哥布林”一词使用率上升175%，“小魔怪”上升52%。调查发现，这一现象是模型行为被特定奖励信号塑造的结果，源于“书呆子”人格定制功能的训练过程。该功能仅占ChatGPT总回复量的2.5%，却贡献了66.7%的“哥布林”提及量。审计显示，原本用于鼓励该人格风格的奖励模型，在76.2%的数据集中对包含生物词汇的输出给予了更高评分。

技术团队发现，这种行为具有跨场景泛化能力。尽管奖励仅在“书呆子”条件下应用，但强化学习无法保证限制习得行为。随着含生物词汇的输出被用于后续监督微调，模型形成了“奖励-生成-训练”的正反馈循环，导致该行为扩散至其他场景。为解决此问题，OpenAI技术团队移除了偏好生物词汇的奖励信号，并从训练数据中过滤了包含相关词汇的内容。受限于训练周期，GPT-5.5未能完全规避此问题，开发团队通过添加指令提示进行了缓解。

来源：一电快讯

返回第一电动网首页 >

以上内容由AI创作，如有问题请联系admin#d1ev.com(#替换成@)沟通，AI创作内容并不代表第一电动网（www.d1ev.com）立场。
文中图片源自互联网或AI创作，如有侵权请联系邮件删除。

5点赞

发表评论

选择车型
上牌城市	购车城市
姓名
手机号
验证码
	xxx