冯晓青 沈韵:生成式人工智能版权问题研究
摘要
以ChatGPT为代表的生成式人工智能正在引发传统版权领域的诸多挑战,生成式人工智能主体资格、创作内容作品属性、版权侵权责任等问题需要进一步明确。遵循“人类中心主义”,生成式人工智能的主体资格面临既有制度规范、民事基础理论等方面的否定。然而,生成式人工智能创作内容具有可版权性,值得版权保护。为此,需要明晰生成式人工智能创作内容的权利主体,确立以约定优先为原则、以使用者为主导的版权归属路径。同时,构建生成式人工智能的版权侵权责任判定体系,准确划分机器学习行为的合法边界,推动生成式人工智能的创新发展。
关键词:生成式人工智能;人工智能创作内容;可版权性;版权归属;合理使用
一、问题的提出:从决策式人工智能到生成式人工智能
近期,美国人工智能研发公司Open AI公开发布一款名为ChatGPT的聊天机器人,凭借其高效、智能、准确的生成内容,迅速在全球范围内引发讨论热潮。ChatGPT以深度学习、大模型、人类反馈(RLHF)等信息技术为支撑,通过模拟人类语言逻辑与沟通表达习惯,实现以文字对话形式与人类用户的在线互动交谈。相关对话内容具有高度个性化与智能特征,甚至达到与人类语言表达无异的程度。实践中,ChatGPT被广泛应用于各种应用场景,例如,在线客服、智能搜索、代码生成、文章撰写等。
ChatGPT本质上是模拟或再现人类智力以生成全新内容的文本生成模型,是一种典型的生成式人工智能。ChatGPT的成功“出圈”也表明,从决策式到生成式人工智能,人工智能领域正在发生变革性升级。在生成式人工智能诞生之前,人工智能模型以决策式人工智能为主。决策式人工智能根据输入数据进行处理、分析,输出自主化决策结果,以算法推荐、自动驾驶为典型的应用场景。决策式人工智能旨在实现初步的分析功能,长期作为人类生产活动的辅助工具而存在。伴随神经网络、大数据、深度学习技术的快速发展,人工智能领域迎来跨越式发展,出现了生成式人工智能这一新型人工智能模型。相较于决策式人工智能,生成式人工智能以更复杂的算法架构作为技术支撑,具有模拟或再现人类思维过程与智力水平的技术功能。生成式人工智能以人工智能创作内容(AIGC)为核心,通过算法赋予机器自我学习与进化能力,能够相对自主地输出原创性内容。
生成式人工智能作为人工智能新范式,已经逐渐替代决策式人工智能,成为一项人工智能领域的通用技术,在技术应用环节驱动人工智能生成内容的开发。目前,生成式人工智能已经成为信息时代的关键技术,赋能不同产业以及不同领域的发展,成为数字经济与产业革命的底层支撑。以生成式人工智能为代表的新技术,正在改变传统的内容生产方式,导致版权保护面临一定的问题与挑战。生成式人工智能在版权领域引发的新问题主要集中在:一是生成式人工智能的主体资格认定。生成式人工智能是否可以获得和人类作者相同的法律主体地位,需要结合制度规范、基础理论等多方面进行论述。二是生成式人工智能创作内容的法律属性及其保护问题。理论与实务界在人工智能创作内容是否构成作品这一问题上尚未达成共识。明确生成式人工智能创作内容的作品属性,是构建人工智能时代版权制度的前提。版权保护需要以人工智能创作内容的可版权性为基础,进一步分析其权利归属。三是生成式人工智能的版权侵权判定。生成式人工智能的不同技术阶段面临着不同的版权侵权风险,其侵权责任承担与豁免规则需要加以明晰。关于生成式人工智能的版权保护,应当在不动摇版权制度根基的原则下,化解人工智能新范式给传统作品市场及版权保护带来的巨大冲击,充分回应人工智能时代的文化产业保护需求。
二、生成式人工智能的主体资格认定
伴随生成式人工智能的普及,人工智能从辅助走向创造,对人类独一无二的创作主体地位造成挑战。人工智能时代,生成式人工智能能够在没有人类干预的情况下自主生成创造性内容,因而生成式人工智能成为“创作”发生的真正动因。版权制度需要回应的首要问题即生成式人工智能是否可以成为著作权法意义上的法律主体。结合既有版权制度规范及其基础理论体系,赋予人工智能以法律主体地位,既缺乏现实基础,也不符合民法制度的价值取向。
(一)既有制度规范下生成式人工智能主体资格的否定
《著作权法》第九条规定,著作权人是指“作者”以及“其他依照本法享有著作权的自然人、法人或者非法人组织”。结合《著作权法》第二条对享有著作权主体范畴的限定,著作权主体应当仅包括“中国公民、法人或者非法人组织”以及符合特定要求的“外国人、无国籍人”。因此,我国实在法下的著作权主体只能是自然人或由自然人集合形成的法定组织。既有著作权制度规范以自然人作者为原则、以自然人集合拟制作者为例外,遵循“人类中心主义”的基本理念。一直以来,《著作权法》是以自然人为创作主体而构建起来的,将人类视为独一无二的创作主体。无论是作者概念还是权利归属,版权保护均建立在存在人类作者的前提之上。生成式人工智能尽管已经获得强大的自主学习能力,具备高度智能化特征,但其本质上并非自然人,因而无法成为符合《著作权法》规定的权利主体。
不仅生成式人工智能主体资格在我国存在实在法方面的否定,从世界范围来看,作者的自然人属性也已经成为普遍共识。《保护文学和艺术作品伯尔尼公约》(以下简称《伯尔尼公约》)第六条之二规定了只有自然人才可能享有的作者精神权利,由此可以推断出《伯尔尼公约》对于作者自然人属性的默示性规定。遵循《伯尔尼公约》,作者需要是“人”,这是各国版权法中一个长期的假设。在英美法系方面,澳大利亚法院明确提出,对于原创文学作品,必须确定声称保护的具体作品以及这些作品的人类作者。德国作为大陆法系的代表性国家,根据其《著作权法》第7条的规定,著作权的主体必须是赋予作品以独创性的人。因此,从国内外版权制度规范来看,作者的自然人属性并不存在争议。生成式人工智能不能被赋予法律主体地位,否则将导致与既有版权制度规范的现实冲突。
(二)民事基础理论下生成式人工智能主体资格的否定
基于法律制度的现实判断,生成式人工智能主体在既有版权制度下不能成为适格权利主体。然而,随着生成式人工智能的广泛应用,是否有必要将此类非人形态拟制为一种单独的权利主体类型,使其能够被纳入人工智能时代的版权制度?欧盟提出确立人工智能的“电子人格”法律地位,将其拟制为新型权利主体。沙特阿拉伯也曾授予“索非亚”智能机器人以公民资格。然而,从民事基础理论出发,生成式人工智能的法律主体拟制有悖于传统民事法理与价值取向,不可能具备版权主体资格。
一方面,生成式人工智能不具有人格属性,不符合将非人形态拟制为法律主体的传统法理。尽管民法存在将法人这一非人形态拟制为法律主体的先例,但生成式人工智能与具备团体人格属性的法人存在本质区别。法人作为一种无生命团体,其人格的形成源于自然人共同意志的联合。自然人的个人意志通过法人制度下的法定程序被转化为一种共同意志。在共同意志的决定下,法人可以对外实施具体的法律行为。然而,无论是生成式人工智能整体本身还是其系统内部的算法模块单元,都不具备独立意识。生成式人工智能所谓的选择与判断行为,无非是遵循特定算法模型自主运行的结果,依赖于人类指令的输入与算法模型的预先搭建。
另一方面,生成式人工智能作为由计算机程序开发者创造出的对象,应当严格遵循民事基础理念下的“人-物”二元对立论。追溯至罗马法时代的民法最基本理念,市民社会的基本构成被严格二元划分为人与物。除了人之外的所有物质构成,都属于物的范畴。生成式人工智能是由人类开发设计出来的。计算机程序开发者通过算法架构模型的搭建、超大型数据集合的训练,使得生成式人工智能具备生成创造性内容的技术功能。由于人类智力劳动的投入,生成式人工智能本身构成《著作权法》第三条的“计算机程序”作品,属于可以被人类支配与使用的客体范畴。如果仅仅因为生成式人工智能能够实现“创作”行为而将其拟制为法律主体,将有悖于主客体不可互换的基本理念,导致人与物二者之间界限的混淆,造成对民法最根本基础理念的毁灭性打击。
三、生成式人工智能创作内容的法律属性及其保护问题
生成式人工智能不具有版权主体资格,但并不意味着其创作内容当然不构成作品,不可以获得版权保护。主体与客体应当是两个相互平行的问题,各自遵循独立的评判因素与判断标准。以生成式人工智能不具有主体资格直接否定对其创作内容的版权保护,将会向公共领域释放大量具有作品外观的创造性内容,不仅会在公共领域严重泛滥,而且导致版权制度作为一种满足投资者预期回报的激励机制的失灵。具体而言,生成式人工智能创作内容的版权保护问题,需要以分析相关创作内容具有可版权性为前提。在生成式人工智能创作内容构成受版权保护作品的基础之上,我们应进一步分析其后续的版权归属问题,从而确定作品之上利益的最佳分配方式、促进发挥作品的经济效益。
(一)生成式人工智能创作内容的可版权性
《著作权法》第三条将作品定义为“文学、艺术和科学领域内具有独创性并能以一定形式表现的智力成果”,提出包括“特定领域”“以一定形式表现”在内的作品形式要件以及“独创性”实质要件。生成式人工智能创作内容属于文学、艺术领域,借助文字、图像、视频等形式可被人类感知与欣赏。通常而言,相关创作内容符合作品的形式要件。因此,生成式人工智能创作内容的可版权性问题集中于“独创性”这一作品的实质要件。以下将从两方面探讨生成式人工智能创作内容的可版权性:一是从生成式人工智能创作内容的生产机制来看,生成式人工智能创作内容与人类创造智力成果共享内在逻辑;二是生成式人工智能创作内容具有与人类作品一致的外在表达形式。
1. 基于内在生产机制的可版权性
生成式人工智能并非对人类智力的简单执行,而是能够模拟与再现人类作者的创作思维。根据世界知识产权组织的定义,“人工智能生成的”即“人工智能自主创造的”内容,是指“在没有人类干预的情况下由人工智能生成的内容”,与“人工智能辅助完成的”内容加以区分,后者需要大量人类干预和引导。因此,与决策式人工智能不同,此前的决策式人工智能只能根据程序开发者设计的既定算法,以海量数据为对象执行使用者输入的命令,最终在可预测范围内输出自动化决策结果;生成式人工智能则能够从海量数据中自主构建算法模型,独立抓取相关素材以完成创造性内容的输出。
从生成式人工智能创作内容的生产机制来看,深度学习、神经网络作为支撑生成式人工智能的底层技术,模拟与再现了人类创作的基本思维。生成式人工智能通过对海量数据的识别、处理与分析,基于深度学习自主归纳数据背后的规律与要素,不断更新与进化自身算法模型,最终生成脱离既定算法预设的创造性内容。上述“模拟大脑”的过程,与人类作者学习、构思并完成创作的思维过程没有本质差异。为执行相同功能而开发的不同生成式人工智能,由于内部算法架构的不同,能够生成具有个性的创造性内容。即使是特定的生成式人工智能,在其每一次运行中也都会面临数据的自主选择与分析,进而生成差异性结果。以ChatGPT为例,由于神经网络技术的随机性,ChatGPT能够自主判断沟通主体的真实需求,根据对话指令的上下文逻辑以及用户的即时反馈,生成不同的文字内容。因此,生成式人工智能创作内容具有相当大的选择与判断空间,不同的创作内容呈现高度的随机性与自主性。生成式人工智能借助其运行机制,再现了人类作者的创作过程,最终创作出一种类人的创造性智力成果。
版权制度不保护“猴子自拍”“海豚表演”等非人主体创作的智力成果,成为质疑生成式人工智能创作内容获得版权保护的主要依据之一。然而,忽视生成式人工智能内在生产机制而否定其创作内容可版权性的观点不足采纳。首先,动物“创作”成果缺乏人类智力的投入,而生成式人工智能创作内容却与人类智力活动密切相关。生成式人工智能的算法开发、机器学习以及内容生成等各阶段,都离不开自然人的参与。生成式人工智能的技术核心即人类反馈(RLHF)方法,本质上所体现的依然是人类价值观的输出。人类基于自身偏好设置期望目标并评判算法输出结果,决定着算法模型的修正与进化方向。其次,版权制度无法激励动物以及机器,但不同于动物“作品”,激励机器的开发与投资者显得尤为重要。至少就目前而言,生成式人工智能创作内容的生成需要人类开发、改进、分配和使用人工智能,并传播由此技术生成的创作内容。版权保护的激励可以在这些人类活动中发挥其应有的作用。不同于版权制度在激励动物产出更多“作品”方面的无效,生成式人工智能背后庞大的人类主体可以获得版权的正向激励,鼓励有利知识存量增长的原创性内容的创作。
2. 基于外在表达形式的可版权性
版权制度对作品概念存在主观与客观两个方面的理解。主观判断标准以作者个性为核心,认为作品应当体现作者思想、情感、精神等主观因素。客观判断标准则强调作品的固有属性,只要作品的表达在客观上不同于既有作品,就认为作品具有独创性。对于由人类作者创作的作品而言,无论是遵循对独创性概念的客观或是主观理解,并不会影响作品的版权保护基础。二者之间能够进行相互补充与印证。然而,在分析生成式人工智能创作内容的可版权性问题时,理论界首次意识到其创作背后没有人类。对此,版权制度有必要重新审视对作品以及独创性概念的理解,明确一种合理有效的作品判断标准,以此为框架分析生成式人工智能创作内容的可版权性。
受到强调文本意义的“结构主义”、以读者为中心的“受众反应论”等基础理论发展的影响,客观判断标准正在逐步取代主观判断标准,成为理解作品独创性概念的主要方式。根据世界知识产权组织的权威解释,独创性是指“作品是作者自己的创作,完全不是或基本不是从另一作品抄袭来的”。上述对独创性概念的理解遵循客观主义理念,从外在表达角度来评判作者的贡献,而不是调查作者的内心精神活动。在客观主义理念下,计算机软件、模型作品、数据库等具备功能性的作品可以成为版权适格客体,尽管这些作品实际上并不展现作者个性因素。事实上,作品是创作者的创作成果,而创作行为本身是一种事实行为,是一种客观存在的事实,无关创作者的主观心态或意识。正如版权制度并不否定由儿童随手涂鸦形成的绘画构成作品的可能性。因此,独创性是一种客观概念,旨在保护作品本身所具有的创造力,而不是创造力的具体来源。
在生成式人工智能领域构建作品客观判断标准框架,具有更重要的现实意义。一方面,创作者内心的思想情感和心理活动无从把握,能被感知到的只有作品客观的外在表达。作品的主观因素难以衡量,创作者的意图大多时候是隐藏且未知的。无论是立法还是司法,都应当免除法官对主观因素的查明义务,防止法律陷入美学分析风险。美国弗兰克法官曾举例,复制者因为视力不好、肌肉缺陷或雷声惊吓而导致画作偏离原有作品,产生足够明显的差异。该复制者可以将这种差异视为原创作品并据此获得版权。另一方面,版权制度执行主观判断标准,识别作品中作者个性投入的过程将导致巨大成本。尤其随着生成式人工智能成为不可或缺的内容生产方式,市场中充斥着由人与非人主体创作的作品。主体的故意隐瞒与署名标注不充分,都将导致分类成本的激增。相比之下,采取独创性客观判断标准,是一种更行之有效的作品判定方式。
版权制度采用客观的独创性概念,而生成式人工智能可以很容易地满足作品构成要件。一旦抛弃对作者个性等主观因素的考量,由于生成式人工智能进行了对数据素材的自主选择和加工,生成式人工智能创作内容不构成对既有作品的抄袭、剽窃或篡改,当然和原创性人类作品一样具有可版权性。实践中越来越多的事例表明,生成式人工智能创造内容与人类作品在外观上并无明显差异。据有关新闻报道,美国近89%的大学生使用ChatGPT撰写论文,甚至一举拿下课程最高分;以色列总统在近两万名观众面前发表由ChatGPT自动撰写的演讲稿。基于人工智能创作内容所具有的版权客体外观表征,已经有国家认可人工智能创作内容的可版权性。例如,日本在人工智能创作内容的版权保护上提出“相同对待”原则。除可被明显区分为人工智能创作内容的情形,版权制度对人工智能创作内容与人类作品予以相同对待,共同授予版权保护。
(二)生成式人工智能创作内容的版权归属
生成式人工智能尚不具备版权主体资格,但其创作内容符合可版权性要求。为了构建以“作品-作者”构造为核心的完整法律关系,版权制度需要确定生成式人工智能创作内容之上的版权归属主体。围绕生成式人工智能创作内容的版权归属,理论与实务界主要提出以下四种解决路径:一是“开发者说”,即版权归属创造生成式人工智能程序的算法开发者。二是“数据提供者说”。生成式人工智能创作内容依赖海量数据的“喂养”,数据提供者享有版权保护利益。三是“使用者说”,即由最终用户行使相关创作内容的版权。四是“投资者说”。生成式人工智能作为大型公司或研究团队推出的创新性产品或服务,应当由相关群体组织拥有创作内容的产权。
根据版权制度的基本原理,版权应当归属对作品作出实质性贡献的人。例如,英国版权法将对计算机创作“完成必要安排的人”视为作者。分析生成式人工智能的技术原理,由于生成式人工智能创作内容以使用者访问系统并输入指令为触发条件,使用者为机器创作作出必要的安排。缺少使用者的操作,机器创作活动根本不会发生。从创作内容来看,使用者实质性地影响最终创作内容的生成。虽然生成式人工智能创作内容具有很强的自主性,但输出内容的主题类型仍然受到使用者给定指令范围的限制,表达特征、语料风格也受到使用者的直接控制。因此,创作内容的触发条件、主题类型和语料风格的设置均由使用者完成,使用者作出更为直接的创作贡献。实践中,版权归属的“使用者说”已经得到不少智能软件的推广。根据Open AI公司颁布的《共享与发布政策》文件显示,ChatGPT要求“发布内容的署名为用户个人姓名或公司名称”,并建议在合理位置标注“在生成文字内容时,作者已经根据自己的喜好审查、编辑和修改表述,并对公布内容承担最终责任”。
在构建以使用者为主导版权归属规则的同时,也不应当忽视生成式人工智能可能涉及的其他利益主体。以投资者为例,生成式人工智能的研发涉及算法设计、数据标注、模型训练、修正校验等技术环节,需要大量资金与昂贵设备的支持。投资者需要针对复杂的技术环节进行人员与物资上的统筹安排,并最终承担可能的研发失败风险。因此,投资者参与也是生成式人工智能创作内容的关键因素。版权制度需要以开放的规则设计容纳对投资者利益的保护。鉴于此,生成式人工智能创作内容的版权归属应当遵循约定优先原则,允许围绕生成式人工智能的相关主体以用户条款、委托合同、合作协议等方式就版权归属等权益分配事项进行事先约定。
四、生成式人工智能的版权侵权责任判定
生成式人工智能依靠文本和数据挖掘(TDM)技术完成机器学习过程。为生成符合人类语言逻辑和表达习惯的文字内容,生成式人工智能需要将海量文字作品以可被机器识别的数据形式录入算法系统,以此形成庞大的数字化作品数据库供生成式人工智能进行下一步的数据标注与模型训练。据不完全统计,ChatGPT拥有相当庞大的专门语料库,其训练集涉及超过两千万的对话记录,涵盖英文、中文等多种语言。微软公司开发的AI“小冰”的数据库涵盖自1920年代以来超过500位中国诗人的所有作品。生成式人工智能以获取和利用既有作品为基础,必然涉及潜在的版权侵权风险。生成式人工智能可能构成对何种著作权的侵害?如果使用作品行为构成版权侵权,应当由谁承担相关的侵权责任?传统版权领域的合理使用等版权侵权豁免是否可以适用于生成式人工智能?这些都是人工智能时代版权制度亟待解决的问题。
(一)生成式人工智能的版权侵权认定
强化机器学习能力离不开对既有作品的大规模获取与利用,其中的作品使用方式多元,可能侵害不同的权利内容:一是复制权。生成式人工智能需要将受版权保护的作品转换并制作为一份或者多份数字格式文件,存储并形成数据作品库,以便后续的文本和数据挖掘。这种数字化作品过程涉及对原作者复制权的侵犯。二是改编权。尽管生成式人工智能可能创作出具有独创性的新作品,但如果该作品是在保留他人既有作品的基础上进行的演绎,仍然属于侵害改编权的行为。三是汇编权。如果生成式人工智能经过自主选择或编排,汇集既有作品或者作品的片段而形成新作品,将会侵害不同作者的汇编权。四是信息网络传播权。通常而言,生成式人工智能的“机器学习”与“模型创建”位于智能系统内部层面,不与公众发生直接接触;然而,随着信息传输、大数据等计算机技术的广泛应用,数据集合容易在互联网领域得到公开,使得公众在其选定的时间和地点获得相关数字化作品,相关情形可能侵犯原作者的信息网络传播权。
关于生成式人工智能的侵权责任承担,应当结合具体侵权行为的发生原因加以判断。如果生成式人工智能的原始算法架构存在缺陷,例如,算法只是针对既有作品执行同义词或语序替换,这种“洗稿器”本身即构成版权侵权工具,应当由生成式人工智能开发者承担最终的侵权责任。如果是因为用户的不当使用行为导致生成式人工智能创作出侵权作品,相关输出内容超出生成式人工智能开发者的控制和预期,那么该用户应当作为直接责任人承担相应的版权侵权责任。
(二)生成式人工智能的版权侵权豁免
生成式人工智能获取与利用受版权保护作品构成转换性使用,可以援引合理使用作为侵权豁免。法院在“谷歌案”中认为,以实现图书信息检索服务功能为目的的片段式提供作品的行为构成合理使用。这种转换性使用行为旨在实现新的功能或创造新的价值,由于没有再现作品本身的文学艺术价值或实现其内在的表意功能,不会对作者对其作品的正常使用造成影响,亦不会不合理地损害作者的合法利益。因此,如果生成式人工智能以实现机器学习功能为目的而获取和利用作品,由于没有对相关作品市场价值造成实质性影响,将获得合理使用的版权侵权豁免。随着深度学习、大数据技术的成熟与完善,生成式人工智能对学习素材提出更高的数量要求。立法界已经意识到在合理使用方面增设机器学习例外的必要性。如欧盟在《数字化单一市场版权指令》序言倡导“采取措施解决有关文本和数据挖掘的法律不确定性”;并通过第4条制定“文本和数据挖掘的例外或限制”,赋予相关主体“为文本和数据挖掘目的而对合法可访问的作品和其他客体进行复制和摘取的权利例外或限制”。为此,我国也需要尽快构建生成式人工智能的版权侵权豁免制度,准确划分生成式人工智能获取和利用作品的合法边界,从而推动人工智能创新的数据流动与共享,助力人工智能产业的长足发展。
-
上一篇:
-
下一篇:
- 挑战谷歌!OpenAI上线免费ChatGPT搜索功能
- Ed Sheeran在《自言自语》歌曲的版权上诉中胜诉
- 国家版权局公布第一批版权强国建设典型案例
- 《银翼杀手2049》制片人就人工智能图像起诉特斯拉和华纳兄弟
- 英国:版权与人工智能的对峙将在数月内结束