研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容大庆市某某食品机械销售部便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功大庆市某某食品机械销售部实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:焦点)
-
加湿器、香薰机……你的冬日幸福感,可能正在偷袭你的肺!2025-12-26 14:55:55 来源:央视网微信公众号
...[详细]
-
证券时报e公司讯,中国农业发展银行消息,10月22日上午,中央组织部有关负责同志出席中国农业发展银行干部会议,宣布中央决定:湛东升同志任中国农业发展银行党委书记,免去钱文挥同志的中国农业发展银行党
...[详细]
-
湘潭大学2024转专业898人,法学和数学转入最多,土木转出最多
写在前面的话:本文数据来源于官网公示数据,加工整理而成,部分学校因为公示问题,所以数据会有一定误差,但不影响整体趋势判断,另外就是不同学院有差异,每年转专业政策也会有差异。欢迎关注,我们每年都会保持更
...[详细]
-
今天10月22日)白天,受阴雨和冷空气影响,我国的降温区和降水区基本吻合。与昨天同时次相比,今天14时,内蒙古东南部、辽宁西部等部分地区降温幅度超过10℃。 明后天,我国大部地区降水稀少,天气归
...[详细]
-
来源:观察者网 【文/观察者网 王一】当地时间12月29日,美国总统特朗普在佛罗里达州会见了来访的以色列总理内塔尼亚胡后表示,如果伊朗试图重建其导弹储备或重启核武器项目,他不排除美国对伊朗采取进
...[详细]
-
孩子成绩差需要看“学习困难”门诊吗2024-10-23 10:05:51 来源:北京日报 作者:付子豪
...[详细]
-
△约翰·柯比资料图) 当地时间10月21日,美国白宫国家安全委员会战略沟通协调员约翰·柯比在新闻发布会上表示,美国尚不明确国防部有关以色列计划对伊朗进行报复性攻击的文件是如何泄露到公共领域的。目前,
...[详细]
-
“我家孩子想不开吃药自杀了,现在还在医院昏迷。是不是因为你?” “她今天没上班,你给我们打,我们这是医院的公用电话。” “我们这儿保安室要报警了”,“你现在让警察来接电话都行”。 以上是澎湃
...[详细]
-
文/解红娟 编辑/张广凯) 作为首家完成境内债与境外债重组流程的头部房企,融创的债务风险已在法律和金融层面实现阶段性出清。 12月23日晚间,融创中国公告宣布,全面境外债务重组的所有先决条件均
...[详细]
-
[#神十九船箭组合体垂直转运#[加油]]按计划安排,我国将于10月底发射#神十九载人飞船#。根据任务计划,神舟十九号船箭组合体将于今天下午在酒泉卫星发射中心进行垂直转运。期待#神十九出征#,为中国
...[详细]

打虎!张效廉被查