Encyclopedia Britannica与Merriam-Webster起诉OpenAI，指控其用约10万篇版权文章训练模型

2. Encyclopedia Britannica与Merriam-Webster起诉OpenAI，指控其用约10万篇版权文章训练模型

Encyclopedia Britannica与Merriam-Webster于上周五向联邦法院提起诉讼，指控OpenAI抓取并使用其近10万篇受版权保护的文章训练大语言模型（LLM），并在ChatGPT的回复中以足以构成侵权的高度还原性重现了上述内容——即法院尚未完全裁定的”记忆化”主张。原告绝非边缘内容创作者：Britannica的参考数据库是互联网上编辑质量最高的语料库之一，而Merriam-Webster的词典释义则代表着一种特定的、结构化的知识产权形式，其逐字重现既可被检测，危害也显而易见。

本案的竞争格局颇为复杂。Britannica与Merriam-Webster均运营着付费数字订阅业务——而AI助手的出现，已使参考内容对普通用户而言几近多余。这场诉讼同时是一项法律行动，也是一个市场信号：这些出版商正式宣告，授权而非替代，才是基础模型公司应与其建立的正确商业关系。OpenAI已与美联社、新闻集团等机构签署授权协议，这意味着它已默认承认训练数据的来源问题至关重要——每签署一项协议，“凡是公开内容皆可用于训练”这一抗辩立场便愈加站不住脚。原告律师几乎必然会援引OpenAI自身签订的授权合同，以此作为对其不利的自认证据。

最清晰的历史参照，是2000至2001年间音乐行业与Napster及早期点对点网络之间的版权战争。Napster声称自己不过是中立的传输管道；唱片公司则主张，该平台的价值根基正是建立在其目录内容之上。唱片公司最终胜出——不仅赢得法律层面的胜利，更赢得了结构性的胜利——他们主导形成的和解框架（授权、版税、下架合规）成为此后Spotify、Apple Music及一切流媒体服务的运营范本。AI训练数据诉讼潮正沿着压缩版的平行轨道演进：问题已不在于授权制度是否会形成，而在于谁来制定其条款与价格。

本周另外两则信号与此直接相关。据报道，字节跳动已暂停其视频生成模型Seedance 2.0的全球发布，原因正是其工程师和法务团队正致力于在诉讼迫使其被动应对之前，主动规避进一步的法律风险——这是一家前沿实验室在版权压力下主动收手的实时案例，行为模式已然改变。与此同时，《The Verge》与雅虎CEO Jim Lanzone的对话提供了相关背景：雅虎的衰落，部分原因正是未能掌控谷歌索引和变现其内容的条款。参考类出版商亲眼目睹了这一切，不会重蹈被动等待的覆辙。

对OpenAI而言，此处运转的结构性飞轮是一个授权压力棘轮。OpenAI与每一家主要出版商签署的每一项协议（美联社、新闻集团、Reddit），都在确立市场基准价格，并隐性验证了”训练需取得授权”这一法律理论。这种验证将激励下一批原告——今天是Britannica与Merriam-Webster，明天则是学术出版商和数据库运营商。原告越多，潜在赔偿总额越高，OpenAI大范围和解的动机越强，授权规范由此进一步制度化，进而推高下一代模型的训练成本。早期锁定训练数据权利的公司（谷歌凭借自有资产，Meta凭借数据护城河）所面临的合规成本，在结构上远低于任何新进入者——这是一种与模型架构无关的、持续复利积累的在位者优势。

为何值得关注：

学术及数据库出版商（JSTOR、Elsevier、Springer Nature）现可以Britannica的诉状为诉讼模板，迫使OpenAI及其竞争对手在第二波诉讼加速推高和解成本之前，提前启动授权谈判。
ChatGPT的企业用户正面临新兴的赔偿风险：若法院裁定OpenAI的输出内容构成侵权性复制，该输出内容的下游商业用户可能面临次生责任敞口，而采购和法务团队尚未对此进行定价。
Seedance、Sora及视频生成领域的竞争者现在必须将版权清理纳入发布前的工程约束，而非留待发布后的法律问题处理——这将压缩生成式AI竞赛中速度优先策略历来所提供的发布窗口优势。

来源：Encyclopedia Britannica起诉OpenAI，指控其借助ChatGPT”记忆化”其内容——The Verge，词典出版商起诉OpenAI——TechCrunch AI，据报道字节跳动暂停Seedance 2.0视频生成器的全球发布——TechCrunch AI