Meta 被指使用盗版书籍训练 Llama AI 模型，涉及 81.7 TB 数据

Meta 被指使用盗版书籍训练 Llama AI 模型，涉及 81.7 TB 数据

本人专注网络安全，在终端安全以及数据安全行业积累10+年经验，一直专注于安全的整体方案规划及服务建设，从非结构化数据安全到结构化数据的安全有一定的理解和认识，涉及到的能力范围有DLP、DAP、DCAP、DSG。欢迎一起交流探讨。

06111

Meta Platforms, Inc. 正面临一起严重的版权侵权诉讼，原告指控这家科技巨头使用了 81.7 TB 的盗版书籍来训练其 Llama AI 模型。

这起诉讼是在美国加利福尼亚州北区联邦地区法院提起的，指控 Meta 从 Z-Library 和 LibGen 等来源非法下载了受版权保护的材料，尽管公司内部对这些行为的合法性和道德性存在担忧。

以作家 Richard Kadrey 为代表的原告团队对一项审前证据开示裁决提出异议，认为该裁决限制了他们收集关键证据的能力。

他们声称，Meta 在 2024 年 12 月 13 日距离事实发现阶段结束仅剩几小时时，披露了 2000 多份文件，这些文件显示员工承认使用盗版材料进行 AI 训练。

据报道，新解封的电子邮件揭示了 Meta 在版权诉讼中面临的最有力证据，这些证据由书籍作者提供，他们声称公司非法使用盗版书籍训练 AI 模型。

在披露的文件中，包括内部通信，承认像 LibGen 这样的数据库是“盗版”的，并表达了对使用这些数据库的道德担忧。

一名员工表示：“我觉得使用盗版材料应该超出我们的道德底线。” 另一份文件显示，Meta 决定使用 LibGen 已经上报到首席执行官马克・扎克伯格。

作者们声称，关于下载盗版内容的内部电子邮件证明 Meta 知道这是非法的。他们指出，员工 Bashlykov 的警告被忽视了。

Meta 没有停止，反而试图掩盖其行为，据称在 2024 年 4 月之前，秘密从暗网图书馆下载并分享了数 TB 的数据。

大规模数据获取

原告指控 Meta 近年来从暗网图书馆下载了至少 81.7 TB 的数据，其中包括通过 Anna’s Archive 从 Z-Library 和 LibGen 获取的 35.7 TB 数据。

这些数据 reportedly 包括数千万受版权保护的作品，用于训练 Llama 模型。这种所谓盗版行为的规模远远超过了许多之前的知识产权盗窃案件。

原告对最近一项证据开示裁决的几个方面提出挑战：

重新开启证词：他们认为，迟来的披露文件与 Meta 关键证人之前的证词相矛盾，有理由重新开启证词，以询问他们关于这些新发现的内容。
下载数据：原告希望获得 Meta 的下载日志和对等共享记录，以证明下载和重新分发了多少盗版材料。
Llama 4 和 5 训练数据集：原告声称，用于即将推出的 Llama 版本的数据集与他们的案件相关，应该被提供。
犯罪欺诈例外：他们指控 Meta 的律师参与了使用盗版材料的决定，尽管知道这是非法的，这需要根据犯罪欺诈例外对特权通信进行庭内审查。

这起案件可能对科技行业产生深远影响，特别是关于在 AI 开发中使用受版权保护材料的道德和法律标准。

如果原告成功，这可能会为追究公司在机器学习模型中使用未经授权内容的责任设定先例。

Meta 尚未对这些最新指控公开回应。法院考虑原告异议的听证会日期尚未安排。

消息来源：Cyber Security News, 编译：zhongx；

本文由 HackerNews.cc 翻译整理，封面来源于网络；

转载请注明“转自 HackerNews.cc”并附上原文

© 版权声明

文章版权归原作者所有，转摘请注明出处。文章内容仅代表作者独立观点，不代表安全壹壹肆&安全114的立场，转载目的在于传递网络空间安全讯息。部分素材来源于网络，如有侵权请联系首页管理员删除。

THE END

国内外安全前沿
# meta # Facebook

你的支持是我们在网空安全路上的驱动力！

相关推荐

评论抢沙发

欢迎您留下宝贵的见解！

提交

暂无评论内容