最近,美国一家地方法院的裁决,简直就是给那些想用盗版内容训练AI模型的公司开了绿灯,这对于广大的内容创作者和艺术产业来说,简直是晴天霹雳!
这些年来,我们眼睁睁看着AI公司把内容创作者和艺术家们的心血,通过抓取网站、扫描书籍的方式,未经许可就拿去训练那些所谓的“大型语言模型”(LLMs)。然后呢?这些被“合法”掠夺来的数据,就成了生成式AI和其他机器学习任务的“养料”,而那些偷数据、用数据变现的公司,却从未给原创者任何补偿。这算哪门子事儿?
更离谱的是,美国加利福尼亚北区联邦地区法院在前几天,也就是周二,竟然做出了一项裁决,这简直是明目张胆地告诉所有公司:你们可以“畅通无阻”地用任何已出版的媒体内容来训练模型,想怎么收割就怎么收割!
这个裁决的背景,是一起Andrea Bartz、Charles Graeber和Kirk Wallace Johnson在2024年对Anthropic公司提起的诉讼。当时,他们指控Anthropic使用盗版材料来训练其Claude AI模型,其中就包括Anthropic将纸质书籍数字化,用于AI模型训练。
本次裁决是由法官William Alsup作出的——这位法官对这类案件可谓是“轻车熟路”了。他裁定双方在不同方面都有所“得失”,但很明显,这次裁决的天平,是坚定不移地倒向了Anthropic和那些搞AI抓取服务的公司!
按照裁决内容,Alsup法官竟然认为,那些用于训练特定LLMs的复制品,是“合理使用”!他甚至大言不惭地评论说:“这项技术,是我们许多人一生中将见证的最具变革性的技术之一。”听听,这是人话吗?
更让人无语的是,那些将实体印刷品转化成数字图书馆的行为,也被认为是合理使用。不仅如此,用这些内容来训练LLMs,竟然也属于合理使用!Alsup法官甚至拿作者的抱怨和“训练小学生写作”作比较,说什么“版权法旨在促进原创作品的进步,而不是保护作者免受竞争”。这逻辑,我真是给跪了。AI模型和“小学生”能划等号?这简直是在侮辱我们的智商!
唯一让作者们看到一丝希望的,是关于盗版作品的使用。裁决指出,创建盗版数字书籍库,即使这些书籍不用于模型训练,也不构成合理使用。而且,即使Anthropic在盗版之后又购买了书籍,这也不能改变其盗版行为的性质。
关于盗版部分,法院将会举行一次审判来决定Anthropic需要支付的损害赔偿金额。不过,这点小胜利,对于整个内容生态的破坏来说,简直是杯水车薪!
插一句题外话,今年五月有消息称,苹果正在与Anthropic合作,计划将Claude Sonnet模型整合到新版Xcode中,以期改变开发者工作流程。这让我不得不思考,在商业利益面前,这些巨头们是否真正考虑过版权和原创性的问题。
对内容创作者来说,这简直是噩梦!
这项裁决,对艺术家、音乐家和作家来说,无疑是一个沉重的打击。其他那些可能被机器学习模型“威胁”到生计的职业,恐怕也得跟着遭殃了——比如说,某些法官,他们可能只上过一节编程课,就觉得自己对技术了如指掌了,真是滑天下之大稽!
AI模型,简直就是搭了媒体创作者们辛勤劳动和人生经验的“顺风车”,然后堂而皇之地打造成自己的“成果”。更可悲的是,它让内容生产者们,几乎没有能够对抗这种现象的办法。
照现在这个趋势发展下去,这项裁决显然会成为AI领域其他诉讼的“范例”,尤其是当涉及到原创作品被用于训练目的时。这简直是在为“掠夺”开绿灯!
这些年来,AI公司因为不择手段地获取数据来“喂养”LLMs,甚至未经许可地从互联网上抓取内容,早就成了众矢之的。但现在,他们似乎获得了“合法性”的背书!
这个问题,体现在很多方面。最明显的就是生成式AI,这些模型可以通过训练来生成特定风格的图片,这无疑是在贬低真正艺术家的作品价值!
比如,今年六月初浮出水面的迪士尼和环球影业起诉Midjourney的案件。这家AI图像生成器公司被指控大规模侵犯版权,因为他们用电影公司最知名的角色图片来训练模型。这两家公司都称Midjourney是“抄袭的无底洞”,建立在未经授权使用受保护材料的基础之上。当两大通常是死对头的媒体公司,为了同一个目标而联手时,你就知道这事儿有多严重了!
对于网站和出版商来说,这问题也越来越严重。用户不再使用搜索工具并浏览网站获取信息,而是可以直接向AI模型请求个性化摘要,根本不需要访问原始信息来源的网站!更可怕的是,这些AI提供的信息,往往是错误的,或者与其他来源的数据混杂在一起,污染了内容的原始含义。举个例子,我们曾发现我们的教程被AI原封不动地抄袭,然后又与其他网站的内容混杂在一起,导致提供的操作步骤根本无法实现。这简直是灾难!
如何补偿出版商的损失,至今仍是一个悬而未决的问题,没有得到任何有意义的答案。当然,有些公司试图在道德层面做得更好,比如苹果。据了解,苹果向新闻出版商支付了数百万美元,用于许可内容以训练其生成式AI。此外,它还向Shutterstock支付了许可费用,这有助于开发用于Apple Intelligence功能的视觉引擎。
然而,大型出版商虽然通过robots.txt阻止AI服务访问其档案,但这只能阻止那些“有道德”的抓取者,并非所有人都吃这一套。而且,抓取整个网站需要服务器算力和带宽——这对被抓取的托管网站来说,可不是免费的。这再次证明,目前的数字版权保护机制,面对AI时代的挑战,是多么的苍白无力。
更令人担忧的是,这项裁决是在各大科技公司加紧游说,要求美国各州在未来十年内暂停引入AI监管之后出台的。而与此同时,欧盟也试图推动科技公司签署一项“AI协议”,以确保AI以安全的方式发展。然而,苹果似乎没有参与这其中任何一项努力。这不禁让人质疑,这些科技巨头在追求技术进步的同时,是否真的考虑过社会责任和公平公正?