英伟达NVIDIA深陷版权泥潭：被曝曾主动接触“安娜档案”获取盗版书籍训练AI

英伟达作为全球芯片巨头，无疑是当前人工智能浪潮中最大的受益者之一。凭借对其AI学习芯片和数据中心服务的巨大需求，公司营收飙升，且增长势头强劲。除了提供备受追捧的硬件，英伟达自身也在积极开发多种AI模型，例如NeMo、Retro-48B、InstructRetro和Megatron。与许多科技巨头类似，这些模型主要通过英伟达自有的硬件，并利用庞大的文本数据库进行训练。

作家就版权侵权起诉英伟达

然而，与其他科技公司一样，英伟达也因其AI训练方法而面临版权所有者的强烈法律挑战。多位作家在不同的诉讼中指控这些科技公司使用盗版书籍来训练其AI模型。例如，早在2024年初，便有多位作家向英伟达提起集体诉讼，声称该公司的AI模型利用了Books3数据集进行训练，而该数据集中包含了从盗版网站Bibliotik获取的受版权保护作品。鉴于此举未经授权，作家们要求获得赔偿。对此，英伟达曾辩称其行为属于合理使用，认为书籍对其AI模型而言仅是统计学上的关联。然而，这些指控并未因此平息，相反，原告在证据披露过程中发现了更多不利于英伟达的证据。

“英伟达曾主动联系安娜档案”

上周五，原告方提交了一份经过修订的诉状，大幅拓宽了诉讼范围。除了新增更多书籍、作者及AI模型外，诉状还纳入了更广泛的“影子图书馆”相关指控。包括作家Abdi Nazemian在内的原告，如今援引了英伟达的内部邮件和文件，指出该公司蓄意下载了数百万册受版权保护的书籍。新的诉状声称，“竞争压力驱使英伟达走向盗版”，这其中据称包括与备受争议的“安娜档案”（Anna’s Archive）图书馆进行合作。

竞争压力

诉状修订版披露，英伟达数据战略团队的一名成员曾主动联系“安娜档案”，意图了解这个盗版图书馆能为这家万亿美元市值的公司提供什么。诉状指出：“出于对书籍的渴求，英伟达联系了‘安娜档案’——这个现存最大胆的影子图书馆之一，商讨获取其数百万份盗版资料，并考虑‘将安娜档案的数据纳入我们大型语言模型的预训练数据中’。”由于“安娜档案”对其盗版藏品的“高速访问”收费高达数万美元，英伟达当时正寻求了解这种“高速访问”的具体形式。

安娜档案指出法律“担忧”

诉状显示，“安娜档案”随后向英伟达发出警告，明确告知其图书馆的藏品是非法获取和维护的。鉴于该网站此前曾因其他AI公司浪费时间，这个盗版图书馆要求英伟达高管确认他们是否获得了公司内部的批准以继续合作。据称，在收到警告后不到一周，英伟达管理层便“亮了绿灯”，允许继续推进盗版合作。此后，“安娜档案”便向这家芯片巨头提供了数百万册盗版书籍的访问权限。

诉状中提到，“安娜档案”曾承诺向英伟达提供约500TB的数据访问权限。这其中包括数百万册通常只能通过互联网档案馆（Internet Archive）的数字借阅系统获取的书籍，而互联网档案馆本身也曾是法律诉讼的对象。诉状并未明确指出英伟达最终是否向“安娜档案”支付了数据访问费用。此外，值得注意的是，英伟达还被指控使用了其他盗版来源。除了此前已提及的Books3数据库，新的诉状还声称该公司从LibGen、Sci-Hub和Z-Library等网站下载了书籍。

直接和间接版权侵权

除了为自身AI训练下载和使用盗版书籍外，原告还指控英伟达分发了脚本和工具，允许其企业客户自动下载包含Books3盗版数据集的“The Pile”。这些指控引出了新的间接侵权和辅助侵权主张，声称英伟达通过为客户提供这些盗版数据集的访问便利而获取了收入。

基于上述及其他指控，作家们要求英伟达赔偿他们所遭受的损失。这不仅适用于已具名的原告，也包括未来可能加入集体诉讼的数百位其他作家。据我们所知，这是美国一家大型科技公司与“安娜档案”之间的往来信件首次被公开披露。这一事件无疑将进一步提升这个近期刚失去多个域名的盗版图书馆的知名度。

——

这份向加利福尼亚北区美国地方法院提交的首份合并修订诉状副本可在此处查阅（pdf）。具名原告包括Abdi Nazemian、Brian Keene、Stewart O’Nan、Andre Dubus III和Susan Orlean。

广告招商虚位以待

英伟达NVIDIA深陷版权泥潭：被曝曾主动接触“安娜档案”获取盗版书籍训练AI

作家就版权侵权起诉英伟达

“英伟达曾主动联系安娜档案”

安娜档案指出法律“担忧”

直接和间接版权侵权

相关推荐