《纽约时报》的律师们在一个秘密房间里检查OpenAI的源代码-麦子文章

声明:本文来自于微信公众号 AI新智能，作者:AI新智能，授权站长之家转载发布。

OpenAI和微软正面临来自出版商、作家和其他创作者的诉讼，指控他们剽窃了这些创作者的作品。这些诉讼可能会重塑生成式AI行业。

在美国某个地方的一间安全房间里，一台与互联网断开的电脑中存放着ChatGPT的源代码。这是为了让《纽约时报》的律师进行检查。

根据一名联邦法官的命令，这些律师只有出示政府颁发的身份证件给安保人员，才能进入这间房间。他们被禁止携带手机、U盘或任何其他电子设备进入房间。房间内提供了一台同样与互联网断开的电脑，并安装了文字处理软件。每次检查后，他们的笔记可以被下载到另一台电脑上，随后原始笔记的电脑将被清空。

《纽约时报》的律师可以将笔记分享给最多五名外部顾问，以帮助他们理解源代码的功能。如果其中一位律师想在审讯时向OpenAI的首席执行官山姆·阿尔特曼（Sam Altman）展示代码片段以提问，展示后该代码副本必须被销毁。

OpenAI的估值高达1570亿美元，很大程度上归功于ChatGPT的成功。然而，为了打造这个聊天机器人，公司在训练模型时使用了大量的文本，却没有为此支付任何费用。

这些文本包括《纽约时报》的报道、其他出版物的文章，以及大量受版权保护的书籍。对ChatGPT源代码的检查，以及微软使用OpenAI技术构建的人工智能模型的审查，是针对这两家公司版权侵权诉讼的关键。

出版商和艺术家们已经对生成式AI公司提起了大约二十起重大的版权诉讼。他们志在必得，要求分享使OpenAI成为行业巨头、推动微软估值超过3万亿美元的经济成果。这些案件的法官可能会为美国的大型语言模型如何进行训练设定法律边界。

《纽约时报》的一位发言人告诉《商业内幕》:“开发者应该为用于创建和运营其产品的宝贵出版商内容付费。该技术的未来成功不应以新闻机构为代价。”

这家有着173年历史的媒体公司为此次诉讼聘请了顶级律师事务所Susman Godfrey，该事务所最近刚在Dominion公司对福克斯新闻的巨额诉讼中赢得了7.875亿美元的和解金。其他新闻机构的诉讼，如《纽约每日新闻》和《母亲琼斯》，也加入了这起案件。

Susman Godfrey还代表了一组作家，其中包括乔治·R·R·马丁、乔迪·皮科和塔-内西·科茨，他们在《纽约时报》提起诉讼的几个月前就已经提交了版权索赔。如果法官批准他们的集体诉讼地位，最终的和解或判决可能会影响几乎所有作品被用于训练AI模型的作家和艺术家。

9月12日，数十名来自科技和新闻行业的律师齐聚曼哈顿下城的一位治安法官的法庭，商讨如何分配取证过程的最佳方式，其中包括检查ChatGPT的代码和训练数据。与作家的律师一起，他们仍在决定可以传唤谁，以及如何安排证人作证。

乔治城大学法学院知识产权法教授克里斯特利娅·加西亚表示:“对于从事版权工作的法律教授来说，这已经是最令人兴奋的时刻了。”

设置规则

由于国会在人工智能监管方面保持观望，该行业预期法院将会设定规则——或者，他们希望法院不要设定规则。

相关故事

许多出版商，包括《商业内幕》的所有者阿克塞尔·施普林格，已经与生成性人工智能公司达成协议，允许他们分享内容用于大型语言模型的训练。

《纽约时报》提起的诉讼范围广泛且资源雄厚，因此很可能成为具有先例意义的最高法院案例。律师们也在关注来自作者的集体诉讼以及音乐产业对Anthropic的案件，认为这些案件值得关注。

“《纽约时报》是一家新闻巨头，”加西亚说。“它体量庞大，内容丰富。更重要的是，它在这些内容背后拥有巨大的市场力量。”

该诉讼指出，OpenAI侵犯了其知识产权，主要有两个方面。首先是“输入”案件，指控该大型语言模型非法收集了超过1000万篇《纽约时报》文章，以训练ChatGPT和微软C0pilot，而未支付任何报酬。其次是“输出”案件——指控当用户提问时，ChatGPT能够输出一篇《纽约时报》文章，读者本来需要为此支付订阅费。

在法庭文件中，律师们多次引用了Napster的案例，该平台非法复制了数百万首歌曲并提供免费下载。《纽约时报》认为，OpenAI同样利用了高质量、经过良好研究、内容翔实的《纽约时报》文章，使得ChatGPT如此出色。

据代表作者提起与《纽约时报》案件平行的集体诉讼的Susman Godfrey律师贾斯廷·尼尔森表示，OpenAI的行为在某种程度上更糟糕。他指出，Napster是由大学生发起的项目，而OpenAI则得到了微软的支持，估值已达数十亿美元。

“这不是孩子们的行为，而是一家成熟的公司，”尼尔森告诉《商业内幕》。他补充说:“他们不是为了个人使用，而是为了商业利益在这样做。”

OpenAI和微软的代表没有回应《商业内幕》的置评请求。在法庭上，他们辩称“合理使用”这一法律原则保护了他们的模型如何获取文章。他们表示，ChatGPT输出的与《纽约时报》文章几乎一模一样的内容是“高度异常”的结果，并不代表该应用的实际使用情况。

Napster被起诉至破产，但它激励了音乐产业采用MP3格式，并最终发展出如今广泛应用于视频游戏和电影的流媒体服务。《Spotify》联合创始人丹尼尔·埃克（Daniel Ek）将Napster视为灵感来源，而Napster的联合创始人肖恩·帕克(Sean Parker)则称赞Spotify是其继承者。

曾在音乐行业工作十年的加西亚预测，来自新闻组织的版权诉讼可能会为所有人工智能生成器设定节奏。他指出，人工智能在生成电影或进行报道方面并不特别出色，但它可以令人信服地模仿新闻报道。

“新闻业就像是煤矿里的金丝雀，”加西亚说。“在Napster时代，音乐就是金丝雀，因为人们可以轻松下载MP3文件。而在那个时候，下载电影却并不容易。”

考虑到涉及的人数众多，作者的诉讼可能会产生更为深远的影响。一个和解或判决可能会改变商业模式。

埃默里大学研究版权法和人工智能的法学教授马修·萨格说:“人们在集体诉讼和解中发挥创造力。”。“你可以削减美国作家的股份或其他东西。”

源代码

生成性人工智能技术的本质正是版权争议的核心。那么，当一个大型语言模型“学习”一本书或一篇新闻文章时，实际上发生了什么?当ChatGPT挖掘模型以回答查询时，又会如何?这个过程是否在某种意义上“复制”了内容?还是说训练数据仅仅是一个庞大的零和一的混合体，不再与特定作品有任何实质性相似之处?

律师和顾问们正在深入分析ChatGPT的代码，以试图解答这些问题。他们还在审查大型语言模型的训练数据，并计划在宣誓下询问OpenAI的关键高管和程序员，这些模型究竟是如何运作的。

一旦代码被阅读并进行证词记录，各方将更有能力就“合理使用”进行辩论，这是一项notoriously tricky的法律原则，保护从版权材料中派生出的“变革性”创作。

如果OpenAI真的像Napster那样在复制书籍和新闻文章，那么其训练过程是否足够具备变革性，已被视为“合理使用”?克利夫兰州立大学知识产权法教授克里斯塔·雷瑟表示，全国各地的法官在裁定合理使用版权案件时“各执己见”，这让局势变得更加复杂和不可预测。

“我认为，最终这个问题将会提交到最高法院，”雷瑟对《商业内幕》表示。“关于训练数据、获取和训练的合理使用问题，将是关键所在。”

一个关键的“合理使用”问题是，ChatGPT的创作是否与原始新闻作品相竞争——这是新闻机构面临的紧迫问题。

“新闻出版商首先提起这些重大诉讼，因为他们面临的风险更大，”加西亚说。

要提出版权索赔，原告不能仅仅指向一组用作灵感的作品。必须指向他们认为被复制的具体作品。

在诉讼中，《纽约时报》附上了数以万计的证据，列出了10，553，897篇文章。它声称OpenAI和微软非法侵犯了每一篇文章的版权。

其中包括一篇2001年的报道，正值上诉法院对Napster作出裁决不利于其时，记者向用户询问他们的看法。所有人都一致认为，已经无法回头。

“一旦Napster真的关闭，还有更多的网站会出现，”一位用户告诉记者。“他们可能会关闭一些，但不可能阻止所有的网站。”