Meta 深陷盗版泥潭,邮件曝光 81.7 TB AI 训练数据黑幕
最新 2 月 7 日消息,科技媒体 Ars Technica 今天(2 月 7 日)发布博文,报道称 Meta 公司再次因其 AI 模型训练数据来源,而陷入法律纠纷。
原告披露了一份电子邮件证据,表明 Meta 不仅知晓使用 LibGen 数据库进行 AI 训练涉及盗版行为,而且还试图掩盖其通过种子下载(torrenting)方式,获取至少 81.7 TB 数据的行为,甚至采取了“隐身模式”操作。
最新援引博文介绍,Meta 研究员 Frank Zhang 的内部邮件显示,Meta 为防止任何人追踪到下载源,在下载数据集时特意避免使用 Facebook 服务器,并称这种操作为“隐身模式”。
负责项目管理的 Meta 高管迈克尔・克拉克(Michael Clark)在证词中表示,Meta 修改了设置,以尽可能减少种子传播。
作者声称,未经编辑的邮件显示,使用 LibGen 的决定是在“此前上报给 MZ(马克・扎克伯格)”之后做出的,这与扎克伯格此前声称对使用 LibGen 不知情的证词相矛盾。
作者认为,这些新证据与 Meta 之前的证词相矛盾,要求再次传唤涉事员工作证。尽管 Meta 坚称使用 LibGen 进行 AI 训练属于“合理使用”,但新的证据无疑使其处境更加复杂。
Meta 此前曾试图驳回关于其通过种子下载传播版权作品的指控,称原告未能提供任何第三方通过 Meta 的种子下载获得书籍的实例。然而,随着更多关于 Meta 种子下载行为的信息曝光,Meta 的辩护策略似乎面临更大的挑战。
相关文章
- OpenAI 周活跃用户达 4 亿,高管称用户“口口相传”发现
- Figure AI 人形机器人多模态能力升级:“听懂”语音指令
- 李开复 AI 公司零一万物被曝多处变动:计划拆分数字人业
- Spotify 启动 AI 配音有声书服务,29 种语言可供选择
- OpenAI GPT-4.5 有望下周发布,GPT-5 被曝将与 o3 大一
- 英伟达推出 Signs 平台:AI 突破美式手语学习,助力连接无
- 传字节大模型团队架构调整,知情人士称吴永辉和朱文佳都
- 清华系团队 DeepSeek 版多模态生物医药大模型 BioMedG
- DeepSeek 还在发力:官宣下周陆续开源 5 个代码库,毫无保
- 报告称 DeepSeek App 上线一个月下载量破亿:几乎没花钱