作者指责 OpenAI 使用盗版网站训练 ChatGPT本周，作者 Paul Tremblay 和 Mona Awad 对 OpenAI 提起集体诉讼，指控 ChatGPT 的母公司侵犯版权并违反 DMCA 等

22:00 · Jun 30, 2023 · Fri

作者指责 OpenAI 使用盗版网站训练 ChatGPT

本周，作者 Paul Tremblay 和 Mona Awad 对 OpenAI 提起集体诉讼，指控 ChatGPT 的母公司侵犯版权并违反 DMCA 等。据作者称，ChatGPT 未经许可就对其受版权保护的作品进行了部分培训。

诉讼中提供的证据看似简单。作者从未授权 OpenAI 使用他们的作品，但 ChatGPT 可以提供他们作品的准确摘要。这些信息一定来自某个地方。

虽然这些类型的指控并不新鲜，但本周的诉讼指控 OpenAI 使用盗版网站作为训练输入。这可能包括Z-Library ，这是一个拥有数百万册盗版图书的影子图书馆。

OpenAI 尚未透露 ChatGPT 训练的数据集，但在一篇较旧的论文中引用了两个数据库；“书籍1”和“书籍2”。第一个包含大约 63,000 个标题，后者包含大约 294,000 个标题。

这些数字孤立起来毫无意义。然而，作者指出，OpenAI 一定使用了盗版资源，因为包含这么多书籍的合法数据库并不存在。唯一提供如此多材料的“基于互联网的图书语料库”只有是盗版图书网站，例如 Library Genesis 、Z-Library、Sci-Hub 和 Bibliotik。

目前的诉讼将受到人工智能爱好者和权利人的密切关注。这可能会导致 OpenAI 不得不披露一些训练数据。

—— Torrentfreak