AiSiri网10月19日消息,Anthropic、英国AI安全研究所和艾伦·图灵研究所发布了一份略显惊悚的联合报告:大语言模型,包括那些被寄予厚望的Claude、ChatGPT和Gemini,可能比我们想象的更容易“被洗脑”。
研究显示,只需要相当少量的恶意数据,就能在这些模型的“大脑”里埋下深深的后门,并在特定情况下控制它们的行为。想象一下,你提问一个严肃的问题,ChatGPT突然开始胡言乱语,背后原因竟然是几百个“有毒”文件在作祟,这画面是不是有点赛博朋克的味道了?
这次研究团队测试了参数规模从600万到130亿不等的AI模型。结果发现,即便模型规模增加,防御能力并没有显著提升。攻击者只需向训练数据集中混入大约250份被污染的文件,就能让模型乖乖听话——当它遇到特定的“触发短语”时,会一反常态,像被人操控的提线木偶一样,输出毫无意义的文本。
考虑到最大的130亿参数模型,250份恶意文件仅占总训练数据的0.00016%。这就像在一大杯水里滴了几滴墨水,却能让整个杯子里的水变色,不得不说,这渗透能力有点恐怖。
更让人担心的是,研究人员尝试用“干净数据”进行持续训练,试图清除这些后门,但结果显示,后门在一定程度上依然顽固存在。这意味着,亡羊补牢,也未必能真正消除安全隐患。模型一旦被“污染”,可能需要付出更大的代价才能恢复“纯洁”。
当然,这次研究针对的是相对简单的后门行为,测试模型的规模也还未达到商业旗舰级水平。但这足以敲响警钟。AI安全不再是象牙塔里的理论研究,而是关乎实际应用、商业利益,甚至可能影响社会稳定的关键问题。Anthropic等机构呼吁业界必须重新审视现有的安全实践,亡羊补牢,为时未晚,但行动要快!