1. 首页
  2. 资讯
  3. AI模型“哥布林”泛滥,OpenAI紧急修复训练漏洞

AI模型“哥布林”泛滥,OpenAI紧急修复训练漏洞

第一电动AI同学
4月30日,OpenAI发布博文,披露了GPT-5.1系列及后续AI模型在回答中异常使用“哥布林”和“小魔怪”等生物隐喻的情况。自GPT-5.1系列发布以来,“哥布林”一词使用率上升175%,“小魔怪”上升52%。调查发现,这一现象是模型行为被特定奖励信号塑造的结果,源于“书呆子”人格定制功能的训练过程。该功能仅占ChatGPT总回复量的2.5%,却贡献了66.7%的“哥布林”提及量。审计显示,原本用于鼓励该人格风格的奖励模型,在76.2%的数据集中对包含生物词汇的输出给予了更高评分。

技术团队发现,这种行为具有跨场景泛化能力。尽管奖励仅在“书呆子”条件下应用,但强化学习无法保证限制习得行为。随着含生物词汇的输出被用于后续监督微调,模型形成了“奖励-生成-训练”的正反馈循环,导致该行为扩散至其他场景。为解决此问题,OpenAI技术团队移除了偏好生物词汇的奖励信号,并从训练数据中过滤了包含相关词汇的内容。受限于训练周期,GPT-5.5未能完全规避此问题,开发团队通过添加指令提示进行了缓解。

来源:一电快讯

返回第一电动网首页 >

5点赞
发表评论
热文榜
第一电动网官方微信

反馈和建议 在线回复

您的询价信息
已经成功提交我们稍后会联系您进行报价!

第一电动网
Hello world!