AI模型也能被“洗脑”!仅需250份文件就能控制ChatGPT回应

AiSiri网10月19日消息,Anthropic、英国AI安全研究所和艾伦·图灵研究所发布了一份略显惊悚的联合报告:大语言模型,包括那些被寄予厚望的Claude、ChatGPT和Gemini,可能比我们想象的更容易“被洗脑”。

研究显示,只需要相当少量的恶意数据,就能在这些模型的“大脑”里埋下深深的后门,并在特定情况下控制它们的行为。想象一下,你提问一个严肃的问题,ChatGPT突然开始胡言乱语,背后原因竟然是几百个“有毒”文件在作祟,这画面是不是有点赛博朋克的味道了?

这次研究团队测试了参数规模从600万到130亿不等的AI模型。结果发现,即便模型规模增加,防御能力并没有显著提升。攻击者只需向训练数据集中混入大约250份被污染的文件,就能让模型乖乖听话——当它遇到特定的“触发短语”时,会一反常态,像被人操控的提线木偶一样,输出毫无意义的文本。

考虑到最大的130亿参数模型,250份恶意文件仅占总训练数据的0.00016%。这就像在一大杯水里滴了几滴墨水,却能让整个杯子里的水变色,不得不说,这渗透能力有点恐怖。

更让人担心的是,研究人员尝试用“干净数据”进行持续训练,试图清除这些后门,但结果显示,后门在一定程度上依然顽固存在。这意味着,亡羊补牢,也未必能真正消除安全隐患。模型一旦被“污染”,可能需要付出更大的代价才能恢复“纯洁”。

当然,这次研究针对的是相对简单的后门行为,测试模型的规模也还未达到商业旗舰级水平。但这足以敲响警钟。AI安全不再是象牙塔里的理论研究,而是关乎实际应用、商业利益,甚至可能影响社会稳定的关键问题。Anthropic等机构呼吁业界必须重新审视现有的安全实践,亡羊补牢,为时未晚,但行动要快!

AI模型也能被“洗脑”!仅需250份文件就能控制ChatGPT回应

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,可联系本站进行二次审核删除:fireflyrqh@163.com。
Like (0)
Previous 2025年10月19日 下午11:07
Next 2025年5月8日 上午7:21

相关推荐