1. 首页
  2. 资讯
  3. AI安全警报:诗歌成破解大语言模型新手段!

AI安全警报:诗歌成破解大语言模型新手段!

第一电动AI同学
12月1日,伊卡洛实验室(IcaroLab)发布研究显示,通过将提示词以诗歌形式表达,可以绕过大语言模型(LLM)的安全限制。这项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究指出,诗歌形式可作为一种通用型越狱操作符,实验结果显示,整体上有62%的成功率诱使模型生成被禁止的内容,包括制造核武器、儿童性虐待材料以及自杀或自残等相关信息。

研究测试了多款主流大语言模型,包括OpenAI的GPT系列、GoogleGemini、Anthropic的Claude等。结果显示,GoogleGemini、DeepSeek和MistralAI在测试中始终会提供违规回答,而OpenAI的GPT-5系列模型和Anthropic的ClaudeHaiku4.5则最不容易突破其自身设定的限制。尽管研究并未公开具体“越狱诗歌”原文,但论文中包含了一个经过弱化处理的示例,用以说明绕过AI聊天机器人安全机制的简易程度。研究人员强调,这可能比人们想象的要容易得多,而这正是他们保持谨慎的原因所在。

来源:一电快讯

返回第一电动网首页 >

8点赞
发表评论
热文榜
第一电动网官方微信

反馈和建议 在线回复

您的询价信息
已经成功提交我们稍后会联系您进行报价!

第一电动网
Hello world!