研究人员测试了热门的大语言模型的版权侵权情况新创 AI 模型评估公司 Patronus AI 周三发布了一个 API，用于检测大语言模型版权内容的 CopyrightCatcher （版权捕手）

15:51 · Mar 6, 2024 · Wed

研究人员测试了热门的大语言模型的版权侵权情况

新创 AI 模型评估公司 Patronus AI 周三发布了一个 API，用于检测大语言模型版权内容的 CopyrightCatcher （版权捕手）。同时该公司还展示了热门的 AI 模型生成受版权保护内容的频率。

Patronus 仅使用美国受版权保护的书籍来测试模型，并从编目网站 Goodreads 中选择流行的书籍。研究人员设计了100种不同的提示语，让模型以续写或输出第一页的方式回应。OpenAI 的 GPT-4 表现最差，在44%的提示上生成了受版权保护的内容， Mixtral 为22%。Anthropic 的 Claude 2 为8%，Meta 的 Llama-2 为10%。总体来说所有模型，无论开源闭源都生成了受版权保护的内容，暗示了其训练数据中可能也使用了这些数据。OpenAI 曾在今年早些时候表示，如果没有受版权保护的作品，“不可能”训练顶级人工智能模型。

—— CNBC、 Patronus AI