近期,人工智能领域再度掀起波澜,meta公司因被指控在其大型语言模型Llama的训练过程中使用了盗版内容,而陷入了版权纠纷的风暴中心。这一事件不仅引起了业界的广泛关注,更被视为科技公司在AI训练中使用未经授权内容所面临的首次重大版权诉讼。
事情的起因可追溯到2023年,小说家理查德·卡德雷与克里斯托弗·金登联手,对meta提起了名为“Kadrey等人诉meta平台案”的诉讼。他们指控meta在未经版权所有者许可的情况下,擅自使用了受保护的内容来训练其LLM模型Llama。这一指控迅速引发了舆论的热议。
在案件审理过程中,meta曾试图通过提交经过编辑的信息文件来规避一些敏感内容,但加利福尼亚州北区联邦地区法院的法官文斯·查布拉却坚持要求公开原始文件。这些文件无疑成为了案件的关键证据,它们不仅揭示了meta员工之间关于LLama和meta AI的交谈细节,更有一位工程师在对话中坦承,自己在公司笔记本上下载盗版内容时感到不妥。这一表述无疑证实了meta确实涉及了使用盗版内容训练AI的行为。文件中还有对话暗示,meta的首席执行官马克·扎克伯格对于使用盗版材料的行为持默许态度。
进一步调查发现,meta获取盗版内容的渠道之一竟是LibGen,这个自2008年在俄罗斯创建的大型资源库,长期以来一直因涉及版权诉讼而备受争议。尽管其实际运营者身份不明,但meta却从中获取了大量的书籍、杂志和学术论文等内容用于AI训练。meta还被曝出从其他非法资源库中获取了内容。
面对如此指控,meta并未坐以待毙,而是提出了自己的辩护意见。meta认为,其使用公共材料的行为符合“合理使用”法律原则,即在特定情况下,即使未经许可使用受版权保护的内容也是合法的。meta还强调,他们使用这些文本仅仅是为了进行语言统计建模并生成原始表达,而非用于其他商业目的。
值得注意的是,meta并非孤例。在此之前,已有其他大型科技公司因使用受版权保护内容训练AI模型而遭受质疑。例如,去年的一项调查就指出,苹果创建的OpenELM模型中包含了来自超过17万个YouTube视频的字幕。这一发现最初引发了人们对苹果是否滥用受版权保护内容训练Apple Intelligence的担忧。然而,苹果随后澄清称,OpenELM是一个用于研究目的的开源模型,其数据库并未用于支持Apple Intelligence。
苹果还表示,其在iOS和macOS上提供的AI功能是在“许可数据”上训练的,这些数据包括为增强特定功能而选择的数据以及由网络爬虫收集的公开可用数据。值得注意的是,许多大型出版商,如《纽约时报》和《大西洋月刊》,已明确表示不会与Apple Intelligence的训练共享其内容,这也在一定程度上反映了出版界对于科技公司使用受版权保护内容的谨慎态度。