新闻

元宇宙与数字经济系列 | 从ChatGPT到“人在回路”,探讨AIGC生成物的可版权性

新闻 2026-05-05 0 次浏览


作者:时萧楠

本文共计5330字,阅读需约13分钟


引言


ChatGPT的火爆促使我们面对大量法律问题,其中包括了我们如何认定人工智能生成内容(AIGC生成物)的著作权,这不仅仅是目前ChatGPT将要面临的问题,更是整个AIGC产业需要面对的问题。本文将从ChatGPT的相关技术本身入手讨论AIGC生成物的可版权性以及提出目前法律体系下的AIGC生成物知识产权归属条款的建议。



(本文仅探讨ChatGPT生成物的可版权性问题,关于ChatGPT的训练数据、生成物著作权侵权问题请参考之前的文章:ChatGPT类型AIGC产品与知识产权



一、ChatGPT与人工干预


人工智能可以追溯至上个世纪50年代计算机之父提出的图灵测试[1],其是通过使机器与人类进行相同的对话来判断机器是否具备了与人类相同的智力水准。而这之后计算机行业就已经开始了对对话式人工智能的开发,以期通过图灵测试。此时的人工智能还在使用模式匹配(Pattern Matching)[2]方式设计对话式机器人,它只需要提前设置人类可能提出的关键词,并且按照预设答案进行输出,现在很多的智能客服都还是使用这样的算法模式。


但随着模式匹配式算法受阻(很难通过图灵测试),图灵当时提出的另一个概念“机器学习”开始得到了不断的延伸,发展出了“监督学习”“无监督学习”“强化学习”“深度学习”等不同类型的机器学习方式,最终以“人工神经网络”的架构下对不同类型的机器学习方式进行结合。


而机器学习的学习能力,也伴随着Google的研究者于2017年在《Attention Is All You Need》一文中提出的Transformer模型,得到了指数级的学习速度的提升,目前ChatGPT的“T”说的就是Transformer。


ChatGPT的开发公司OpenAI公司2018年在Transformer模型的基础上,进一步研发了GPT(Generative Pre-trained Transformer),并且以此为基础推出了GPT、GPT-2、GPT-3、ChatGPT:


模型

发布时间

参数量

特点

GPT

2018年6月

1.17亿

无监督学习(基本无需人类干预)

GPT-2

2019年2月

15亿

使用无监督的预训练模型做有监督的任务

GPT-3

2020年5月

1750亿

海量参数

ChatGPT(基于2022年3月的GPT-3.5)

2022年11月

1750亿(截止到2021年的数据)

增加了“人工反馈强化学习”(增加了人工干预)


ChatGPT的训练机制,来源:https://openai.com/blog/chatgpt/

我们从上述ChatGPT技术发展过程中可以看到,ChatGPT经历了基本无需人类干预,到需要一定的人工反馈机制的强化学习的变化过程,这种“人工反馈强化学习”通过上图可以看出是以如下方式进行的:

用户的随机prompt(就是指令或问题),给出指定prompt的高质量答案,然后利用这些高质量答案对GPT-3进行有监督的微调(Supervised FineTune,SFT);



因此我们可以看到,ChatGPT中的“人工反馈强化学习”需要人工训练员对ChatGPT生成的内容进行不断地干预,这种人工反馈机制就是Moss和图恒宇说的“人在回路”(Human-in-the-Loop)的一种方式,简而言之就是机器通过需要监督或者不需要监督的大量训练数据的自主学习后,需要人类给予它产生的结果进行反馈,这种不需要非常多的,但又十分必要的人类反馈(“人工反馈强化学习”),将使得人工智能更加像人类。这是GPT-3在已经拥有了海量(1750亿)参数后无法继续优化其生成结果,而OpenAI公司寻找到的使GPT生成结果更像人类的解决方法,这直接生成了目前在全球备受关注的ChatGPT。


二、中美AIGC生成物可版权性的探索[3]


目前基本大部分国家的著作权法都不认可除了人类以外其他的主体完成的创作可以适用著作权法获得保护,但人工智能的出现,以及其截止目前的不断发展,都使得各个国家的立法、司法在积极探讨AIGC生成物的著作权法项下的保护方式。其中的重要原因还在于,人类目前在人工智能中还起着非常重要的作用,以上面的ChatGPT技术发展过程为例:





由于上述人工智能存在的人工干预部分,因此存在着这部分人工创造以著作权法进行保护的讨论必要性,目前包括中国和美国都通过司法或者行政命令的方式在进行着这方面的探索:


1. 中国


对于AIGC生成物是否构成著作权法下的作品,中国法院存在下述两种截然相反的司法认定结论:北知案件中,法院认为,AI生成的文章不是自然人创作的,不构成有著作权的作品;在深圳南山案件中,法院认为,涉案AI生成文章产生的过程中,存在人工干预,构成有著作权的作品。



北京菲林律师事务所诉北京百度网讯科技有限公司侵害文字作品著作权案(北知案件)
深圳市腾讯计算机系统有限公司诉上海盈讯科技有限公司侵害著作权及不正当竞争纠纷案(南山案件)
案号
(2019)京73民终2030号
(2019)粤0305民初14010号
审理法院
北京知识产权法院(二审法院)
广东省深圳市南山区人民法院
涉案AI
威科先行库
腾讯的Dreamwhiter自动撰写软件
法院认定
该分析报告系威科先行库利用输入的关键词与算法、规则和模板结合形成的,某种意义上讲可认定威科先行库“创作”了该分析报告。由于分析报告不是自然人创作的,因此,即使威科先行库“创作”的分析报告具有独创性,该分析报告仍不是著作权法意义上的作品,依然不能认定威科先行库是作者并享有著作权法规定的相关权利。
从整个生成过程来看,如果仅将Dreamwriter软件自动生成涉案文章的这两分钟时间视为创作过程,确实没有人的参与,仅仅是计算机软件运行既定的规则、算法和模板的结果,但Dreamwriter软件的自动运行并非无缘无故或具有自我意识,其自动运行的方式体现了原告的选择,也是由Dreamwriter软件这一技术本身的特性所决定。原告主创团队相关人员的上述选择与安排符合著作权法关于创作的要求,应当将其纳入涉案文章的创作过程。因此,从涉案文章的生成过程来分析,该文章的表现形式是由原告主创团队相关人员个性化的安排与选择所决定的,其表现形式并非唯一,具有一定的独创性。

深圳南山案件的法院逻辑下,法官认为:涉案文章由原告深圳腾讯公司主创团队人员运用Dreamwriter软件生成,主创团队在数据输入、触发条件设定、模板和语料风格的取舍方面的安排与选择,属于与涉案文章的特定表现形式之间具有直接联系的智力活动,该文章的表现形式是由原告主创团队相关人员个性化的安排与选择所决定的,因此,涉案作品具有一定独创性,属于中国著作权法所保护的文字作品。也就是说,在该案中法院认定的AIGC生成物,并不是完全脱离了人类智力活动、纯粹由人工智能生成的文字内容,不是人工智能自主创造完成的,而仅仅是一种由人工智能辅助完成的人类智力活动成果。在这个意义上看,有人工智能参与形成的产物当然是可以受到著作权法保护的[4]

当然我们理解,深圳南山案件中,法院对AIGC生成物的理解不仅包括了最终的生成文章,甚至包括了其前期训练过程,而使得在算法训练工程中的人工干预如果加入到生成物的著作权考量因素中,很难将人工干预从AIGC生成物中进行彻底排除,从而AIGC生成物将全方位获得著作权法保护。

笔者认为首先应当将AIGC生成物的人工干预过程与AIGC训练过程中的人工干预相分离,针对AI与用户互动、用户提供prompt,AI进行产生的内容、用户需要在AIGC生成内容后再行编辑调整的内容中人工干预的部分,需要给予著作权法上的肯定,而针对AIGC训练过程中的人工干预的部分可以通过其他权利/权益进行保护,除非训练过程中的确产生了人工训练员的创造性劳动,例如通过打标签等方式对大量数据进行了有独创性的整理、编辑,进而可以构成汇编作品。 

2. 美国

目前除了中国以外其他大部分国家也都认为著作权应当是给予自然人完成创作后的作品的独占性权利,但近期通过美国版权局的答复,我们看到了美国在寻找方式对AIGC生成物给予一定形式的保护的努力,以及认定方式上的变化。

国家
时间
AI类型
案件基本情况
美国(华盛顿特区)
2022年6月2日起诉,目前审理中
图片
美国版权局拒绝为Stephen Thaler登记“由运行在机器上的计算机算法自动创建的”作品。版权局提出,其不会放弃最高法院及地方法院长期以来对《版权法》的解释,即只有由人类作者创作的作品才符合版权保护的法律和正式要求。

Stephen Thaler提起诉讼,请求法院下达命令,要求撤销美国版权局拒绝人工智能生成作品版权登记的决定。目前,该案正在美国华盛顿特区地方法院审理。
美国
2023年2月21日
图片(Zarya of the Dawn)
美国版权局在一封回复信函中称,美国艺术家Kristina Kashtanova获得了其漫画作品《黎明的查莉娅》(Zarya of the Dawn)在文字、视觉元素的协调和编排部分的版权,其版权保护不适用于由AI绘画工具Midjourney生成的部分,也就是这部人工智能辅助完成的漫画获得有限的版权注册,针对其中人类完成的部分给予了版权保护。

在美国版权局在Zarya of the Dawn图片的版权注册回复中,给予了作者Kristina Kashtanova有限版权的注册,对其自行进行的文字、视觉元素的协调和编排部分的部分注册了版权,但人工智能完成的部分未予以版权注册。美国版权局所尝试的“有限版权注册”或许可以判断人工智能如果仅是辅助完成创作时,对人类完成部分的著作权保护方式。但即使是“有限版权注册”的方式,未来也需要继续探索具体的保护范围以及保护界限划分点,同时还有新闻表示,美国版权局正在制定指南,用于注册部分使用人工智能生成的材料创作的作品[5]


我们将继续关注各个国家对AIGC生成物的著作权法保护的尝试,期待可以早日找到AIGC生成物的权益保护与现行法律冲突的解决方案。



三、目前针对AIGC产品的知识产权归属条款建议


而目前囿于各个国家的法律基本上不认可AIGC生成物的可版权性,因此AIGC产品平台针对其AIGC生成物的知识产权归属通常是通过用户协议的方式进行明确的:



针对以上述各平台为例的类似用户协议中的知识产权归属(包括知识产权在内的输出物的所有权利/权益)约定,笔者认为,在这些用户协议不会因为构成格式合同而无效的前提下,基于意思自治原则,即使AIGC生成物不具有知识产权,但仍应当作为“数据”受到保护,此时这些“数据”的使用方式、使用范围、使用权利同样应当适用用户协议中的相关约定。因此在我国AIGC生成物是否具有著作权尚不明确的情况下,建议各家AIGC公司优化用户协议中针对AIGC生成物的知识产权、数据的归属条款约定。

[1]图灵测试(英语:Turing test)是英国电脑科学家艾伦·图灵于1950年提出的思想实验,目的是测试机器能否表现出与人一样的智力水准。测试时测试者透过电脑键盘输入文本并透过屏幕输出文本。

[2] 模式匹配是数据结构中字符串的一种基本运算,给定一个子串,要求在某个字符串中找出与该子串相同的所有子串,这就是模式匹配。也就是给定一个词,然后可以调取一个已经设置好的预案。例如现在很多的银行、电商平台的客服机器人都是基于模式匹配完成的问题回复,问它一个订单的退货方式,他可以发出预设好的退货方式的介绍。

[3]在著作权法项下探讨任何创作形式的“可版权性”,前提一定是其具有“独创性”,不能是简单机械的复制、拍摄等的结果。当然目前AIGC生成的无论诗歌、图片、音乐,甚至是短小的视频都已经与人类完成的具有独创性的作品无异,因此我们探讨的前提是这部分具有独创性的AIGC生成物。

[4]该案件的认定逻辑也得到了最高院的支持,以及将其在WIPO会议上进行了说明。最高院法官在WIPO的发言稿:https://www.wipo.int/export/sites/www/about-ip/en/artificial_intelligence/conversation_ip_ai/pdf/ms_china_1_zh.pdf

[5]https://news.bloomberglaw.com/ip-law/ai-comic-art-dispute-leaves-copyright-protections-open-ended


植德元宇宙与数字经济

植德元宇宙与数字经济行业委员会,从元宇宙产业链、法律、商业模式等多角度出发,专注于研究元宇宙监管、区块链游戏、NFT、商业模式中的法律问题,为客户提供多维度的元宇宙法律服务,包括投融资、IPO、知识产权、合规(数据合规、刑事合规、税务合规、知识产权合规)等法律服务。


植德元宇宙与数字经济行业委员会由在不同合规专业领域具有行业、法律多重背景,且深耕多年的合伙人组成,擅长通过完整且动态的合规体系来协助元宇宙企业搭建合规制度,完善产品合规性,在事前、事中和事后多个环节进行风险防范或危机处理,结合商业化思维,协助客户做好合规审查和风险防控,为客户的经营活动保驾护航。


植德元宇宙与数字经济行业委员会


合伙人:郭晓兴、何京、李筠怡、时萧楠、汪闻超、王妍妍、王海青、杨诚、赵芸芸




本期作者介绍


合伙人 时萧楠


业务领域:知识产权、争议解决、政府监管与合规

010-56500937
xiaonan.shi@meritsandtree.com


点击查看文章原文
上一篇
【交我学-24】IWSLT2025赛事视角下,同步语音翻译研究近况与未来展望
下一篇
现已公开发布!欢迎使用 NVIDIA TensorRT-LLM 优化大语言模型推理
返回列表