AI模型也能被“洗脑”！仅需250份文件就能控制ChatGPT回应

IT小埋

7 小时前

AiSiri网10月19日消息，Anthropic、英国AI安全研究所和艾伦·图灵研究所发布了一份略显惊悚的联合报告：大语言模型，包括那些被寄予厚望的Claude、ChatGPT和Gemini，可能比我们想象的更容易“被洗脑”。

研究显示，只需要相当少量的恶意数据，就能在这些模型的“大脑”里埋下深深的后门，并在特定情况下控制它们的行为。想象一下，你提问一个严肃的问题，ChatGPT突然开始胡言乱语，背后原因竟然是几百个“有毒”文件在作祟，这画面是不是有点赛博朋克的味道了？

这次研究团队测试了参数规模从600万到130亿不等的AI模型。结果发现，即便模型规模增加，防御能力并没有显著提升。攻击者只需向训练数据集中混入大约250份被污染的文件，就能让模型乖乖听话——当它遇到特定的“触发短语”时，会一反常态，像被人操控的提线木偶一样，输出毫无意义的文本。

考虑到最大的130亿参数模型，250份恶意文件仅占总训练数据的0.00016%。这就像在一大杯水里滴了几滴墨水，却能让整个杯子里的水变色，不得不说，这渗透能力有点恐怖。

更让人担心的是，研究人员尝试用“干净数据”进行持续训练，试图清除这些后门，但结果显示，后门在一定程度上依然顽固存在。这意味着，亡羊补牢，也未必能真正消除安全隐患。模型一旦被“污染”，可能需要付出更大的代价才能恢复“纯洁”。

当然，这次研究针对的是相对简单的后门行为，测试模型的规模也还未达到商业旗舰级水平。但这足以敲响警钟。AI安全不再是象牙塔里的理论研究，而是关乎实际应用、商业利益，甚至可能影响社会稳定的关键问题。Anthropic等机构呼吁业界必须重新审视现有的安全实践，亡羊补牢，为时未晚，但行动要快！