13910160652
010-52852558
| |EN
首页 > 理论前沿 > 版权
  • 13910160652
  • ciplawyer@163.com

数据信息分析合理性认定的版权规则

日期:2024-07-29 来源:《中国版权》 作者:吴汉东 浏览量:
字号:

摘要


数据输入是人工智能生成作品的前提和基础,将合理使用制度引入数据信息分析场景,是许多国家作出的制度选择。从立法体例而言,关于合理使用的认定规则有“因素主义”与“类型主义”之别,但现代各国大抵倾向于概括式规定(三步检验法)+列举式规定(类型法定化)的制度安排。在大数据时代,美国、日本与欧盟的立法动向和司法活动,对数据信息分析合理性问题采取了不同的法律政策立场。中国著作权法尚不能为数据训练提供侵权豁免,未来修法有必要进行规则补充和完善,即增设数据信息分析的合理使用类型,明确“使用目的”“使用方式”“使用后果”的合理性要素,建构数据库许可交易、权利保留、数据信息披露、适当补偿等辅助性制度。


关键词:数据输入;合理使用;因素主义;要素主义;辅助性制度


数据输入是人工智能生成作品的前提和基础。人工智能的创作过程,包括数据输入、算法学习和结果输出三个阶段。数据输入是智能机器的阅读方式,海量数据的输入意味着计算机对各类文献资料自动化和批量的“阅读”,是出于自主学习和模仿创作的需要。形象地说,机器创作需要人类事先提供海量数据的“母乳”,而从事阅读和学习的是作为“孩子”的智能机器。在“个人使用”范畴中,个人对他人作品的学习、研究或者欣赏,是著作权法规定的合理使用情形。但在“机器阅读”的场景下,数据输入不同于传统阅读方式,其对象是数据集合中的单个作品或汇编作品,往往需对作品进行数字化处理并通过智能系统开展挖掘分析。数字化作品是高被引、高下载的数据资源,具有不可或缺的算法训练价值。无论是复制存储,还是分析编辑,其数字化生成和处理都会涉及有版权的作品。在学术界,许多学者通常采用“技术性合理使用”“合理性学习”等概念来论证“机器阅读”的合理性。在合理使用的语境中,机器能否视为个人?批量阅读是否合理?“机器阅读”是否涉及以复制权为核心的专有权利?其实质就是人工智能时代合理使用认定的版权规则问题。


一、制度选择:以采取合理使用为主旨


人工智能生成作品的著作权法之问,其首要难题是算法学习中训练数据的获取和使用的合法性问题。诸如扫描、抓取、存储等数据输入行为,是合法使用还是侵权使用,决定了智能创作(算法学习)和作品生成(结果输出)等后续行为是否正当。机器自由而无须授权阅读海量作品的合法性路径,即是著作权法规定的权利例外制度,即无须征得权利人同意而自由使用作品的情形。


合理使用、法定许可使用、强制许可使用、权利穷竭等,是为“版权的例外”,是对专有权利内容和权利独占效力的限制。权利限制是著作权法的专门制度,它以“利益平衡”作为自己的理论基础,对私权与公权、本权与他权等进行利益关系调整和权利制度配置。人工智能语境下的版权限制,主要涉及合理使用和法定许可使用。


将合理使用制度引入数据信息分析场景,是多数学者的学术主张,也是一些国家所作出的制度选择。合理使用,是指在特定的条件下,法律允许他人自由使用有版权的作品,而不必征得权利人许可,也不向其支付报酬的合法行为。在国际立法文件中,合理使用多表述为“Fair Use”或者“Fair Dealing”,在语义上具有“合理性”“正当性”“公平性”使用的内涵。英美法系国家的版权法,将基于个人学习、研究、评论、新闻报道的目的而使用他人作品的情形概称为“合理使用”;而大陆法系国家的著作权法,一般不采取“合理使用”的说法,多将该类情形归类于“权利的限制”的名目之中。世界知识产权组织、联合国教科文组织指导制定的《突尼斯样板版权法》,世界贸易组织主持制定的《与贸易有关的知识产权协定》,显然受到美国法的影响,采取了“合理使用”的称谓。在法律史上,合理使用制度经历了由判例法到成文法的演变过程。它肇始于英国判例法,英国法官认识到未经允许使用他人作品的合理性,即允许后来作者以创作新作品为目的,以诚实使用为原则而利用在先作者的作品。但是,私人复制构成版权例外的合理使用,必须以尊重原作者权益为要,使用有数量限制和价值考量,不得损害原作品的市场利益。从1740年到1839年,英国法官在其审判活动中创制了一系列规则,草创了有关合理使用制度的法律原理以及裁判规则。尔后,这一制度成熟于美国判例法。1841年,美国法官Joseph Story 在审理Folsom v. Marsh 一案中,集以往相关判例法规则之大成,系统阐述了合理使用规则的基本框架,这就是著名的“合理性”判断三要素,后在法律文本中被概称为合理使用的“三步检验法”:(1)使用作品的性质和目的;(2)引用作品的数量和价值;(3)使用对作品市场销售和存在价值的影响。“合理性”认定要素被奉为一项普遍的司法规则,时至1976年,美国版权法以成文法的形式对合理使用作了明确规定。20世纪90年代,美国法院从鼓励智力创作的裁判立场出发,又创制了“转换性使用”规则,即不再拘泥作品使用性质和数量的要素限制,而是强调“使用作品的目的和特点”的核心要素,其“转换性使用”的构成是:(1)使用是否达到版权法“促进知识、鼓励创作的目标”,这是分析作品使用合理性的首要问题;(2)使用如果采取了与原作品不同的表达方式,或是为了与原作品不同的目的,即为“转换性使用”;(3)“转换性使用”使新作品不同于原作品而具有创造性价值,其使用行为属于合理使用。


传统的“三步检验法”在“机器阅读”合理性判断方面已不敷适用。“机器阅读”在欧盟法中称之为“文本和数据挖掘”,即本文表述的“数据信息分析”,意指“为了获取新知识或信息,对任何数字材料(包括文本、数据、图片、声音等)的自动化分析”。该情形是否可以认定为版权的例外,目前还存有争议。有学者在总结国外学术界论争时提出两点疑问:一是合理使用的前置问题,即数据信息分析可能是专有权利范围的外部行为,即为非作品使用的自由行为,不需要进行合理使用分析;二是合理使用的认定问题,即数据信息分析并不尽然符合“三步检验法”,诸如作品使用方式、引用作品的数量和价值、对作品市场的损害等核心概念,本身即为模糊之处,难以对应数据信息分析的各种场景。上述分析表明,数据信息分析未进入专有权利控制领域的,即是以非思想表达为目的的作品使用,例如,从图像作品中提取人脸要素、场景要素等用以大数据训练,不涉及合理使用分析规则;数据信息分析进入专有权利控制领域的,其以思想表达为目的的作品使用,又有个性要素模仿(某一特定作品)和非个性要素模仿(某一类别作品)之别,在这里则有必要适用合理使用抗辩。从“三步检验法”中深化、提炼而成的“转换性使用”规则,摆脱了传统要素分析的教条主义和机械主义,突出了“使用目的”第一要素的重要地位,满足了鼓励创作和知识增值的立法目标。但这一理论并不周延、圆满,许多“转换性使用”并不一定是正当目的的使用,如未经允许地对作品的改编、翻译等,正如有学者所言,有些“转换性使用”可能不能满足合理使用的必要条件,从而落入专有权利的控制范围之内。在“数据驱动算法创作”的情境下,大数据是智能创作的素材,其中含有受版权保护的作品,其数据输入的合理性证成,不能单独考量“转换性使用”的知识创新目的,还须分析“转换性使用”目的与商业性使用目的的关系,“使用目的”要素与市场影响要素的关系,“机器读者”利益与“人类作者”利益的关系。综上所述,合理使用并不适用于数据信息分析的所有场景,同时在合理性要素分析中须对“三步检验法”进行必要改造,这一问题容当后叙。


以法定许可使用作为数据信息分析的版权路径,是一些学者提出的重要建议。他们认为,现行《著作权法》能够为数据输入提供包括合理使用和法定许可使用在内的两种制度产品:前者主旨偏向技术进步,确保机器学习以低成本代价获取作品;后者兼顾各方利益,简化机器学习获取作品的程序。有学者甚至认为,法定许可使用制度在简化作品获取和使用程序的同时,保证了著作权人的经济利益,实现了机器学习技术开发者与原作品权利人之间的利益平衡,因此较之合理使用制度更具优势。


法定许可使用是版权效力限制的重要制度之一,更是作品利用的有效方式。法定许可使用,是指根据法律的直接规定,以特定的方式使用已发表的作品,可以不经著作权人的许可,但应向著作权人支付费用,并尊重著作权人其他权利的制度。世界知识产权组织《著作权与邻接权法律术语汇编》将其称为“法定许可证”(Statuary Licence),以别于一般“许可证”的许可使用。在立法中,法定许可使用是法律上规定的作品使用,与合理使用同为“权利例外”,规定在“权利的限制”的章节中;而许可使用是当事人约定的作品使用,与版权转让同为“权利行使”,归类在“许可使用和转让合同”的条款中。综观各国版权立法,使用者多为表演者、录音制作者、广播组织者,涉及的是著作权人(作品创作者)与邻接权人(作品传播者)之间的利益关系。该制度旨在简化版权手续,促进作品应用而设定。将法定许可使用制度付诸于数据信息分析之情形,在法律适用上有诸多不易。一是数据信息分析场景多样,难以不加区分的“法定”。如前所述,人工智能对数据进行搜集、储存、统计分析和数学建模、学习人类思维方式,包括了“公共领域”的自由使用、专有领域的合理使用、侵权使用等各种情形,这些作品使用场景并不能进行单一“法定”的归类。二是对数据信息分析的付费涉及对作品权利人的补偿,难以在非个体权利的基础上进行精确“算计”。早在20多年前,笔者在《著作权合理使用制度研究》一书中谈及,在现代传播技术的作用下,法定许可使用范围有扩大趋势:针对个人、家庭以及图书馆复制和录制作品的情形,美国、德国、丹麦等国在传统的合理使用领域,尝试对作品使用统收“复印版税”和“录制版税”。如何准确计算版税,如何公平分配报酬,没有一个政府的智慧足以制定出有效而合理的方案。在生成式人工智能技术应用中,投喂的是万亿级参数的数据,涉及数量庞大的作者群体,作品的数据信息分析多是无形复制、临时复制、非接触(人类读者)性复制,作品使用的对象和享有权利的主体都难以特定化,直言之,“人类作者中心主义”下的法定许可使用制度在人工智能时代具有明显的不适应性。就当下版权制度安排而言,各国立法者主要是采用合理使用之道,但表现了不同的法律政策取向和法律传统影响。


二、立法体例:“因素主义”抑或“类型主义”


合理使用是各国著作权法的通行制度和著作权限制的主要类型,在版权理论研究和审判实践中被美、日学者称为“世界性难题”,是一个易引起争议而又难以为人理解的法律规则。在立法例上,各国关于合理使用的认定规则在体例和风格方面有所不同。(1)“因素主义”认定规则。美国最具代表性,即以法律规定的合理使用构成要素作为司法裁判的依据。这是一种概括主义的立法方法,旨在通过构成要素的规定,为各类作品使用行为的合理性认定提供一般性规则,以避免各类合理使用认定的不确定性。美国版权法基于一个多世纪司法实践的经验总结,以成文法的形式将“合理使用三要素”改造为“因素主义”认定的“四要件说”。此外,该国版权法规定了诸如“批评与评论”“新闻报道”“教学活动”“学术研究”等合理使用情形。但是,上述作品使用行为并不当然构成权利例外,该类行为是否合理,须考察上述要素构成进行认定。以合理使用构成要素作为司法裁判的一般标准,有助于在复杂多样的作品使用情形中建立开放式且具统一性的认定规则框架。(2)“类型主义”认定规则。大陆法系国家多采用此例,即具体例举可以免除版权侵权责任的作品使用方式,这一立法体例是为列举主义的“法定例外”。在大陆法系国家,凡法律对作品未作出具体说明的,合理使用可以适用于任何一类作品,但限于法律规定的情形。一般认为,合理使用不是对版权这种独占权利的排除,而是对版权一种最重要的限制。因此立法者主张,合理使用之适用必须开列具体类型,不能由法官自由裁量而作扩大解释。有的国家甚至规定,不同类型的作品使用情形适用不同的构成要件。通过列举主义方式使得合理使用行为类型化,其优点在于裁判有据可循,可直接适用法律规定;且易于操作,对照法条所列各项条件处理案件。但问题在于过于死板,法官缺乏自由裁量空间,倘遇有环境变迁或技术迭变会导致法律规定不敷适用,在这种情况下只能由立法机关动用修法程序予以变更和完善。有鉴于此,许多学者包括立法专家主张,在列举类型化的使用作品情形之外,采取“因素主义”的一般认定规则,将一定程度的法律解释自由与明文规定的法定适用情形结合起来,即对合理使用认定采用概括主义加列举主义的立法体例。


西方诸国在合理使用制度选择方面,尽管有立法体例之差别,但其基本认定标准在司法实践中能够满足社会对作品自由使用的需求。在人工智能时代,无论是“因素主义”还是“类型主义”的立法动向和司法活动,都回应了数据信息分析的合理使用问题,不过在法律政策立场方面有着明显差异。


美国采取“转换性使用”为核心要素的裁判立场。美国通过判例法将数据信息分析纳入合理使用范围,其裁判基础即是“转换性使用”理论。1994年坎贝尔案将戏仿性使用解释为“转换性使用”,其意义在于改变对合理使用“四要件”构成的等量齐观,强调“转换性要素越强,其他要素的重要性越低(如商业性质)”,不必拘泥于“被使用作品的数量”和“被使用作品性质”等因素的制约。转换性使用,包括“内容性转换使用”“目的性转换使用”以及“功能性转换使用”,均为版权例外的合理使用。上述裁判理论适用于数字化使用作品的情形,在2016年谷歌数字图书馆案中,法院认为:商业动机不能成为否定合理使用的理由。谷歌为了提供文本数据和分析服务而对作品的复制和展示,具有转换性意义,构成合理使用。从戏仿性使用到数字化使用,是传播技术发展的时代变迁,美国法院都作出了“转换性使用”的认定。上述判例表明,合理使用“四要件”的非均衡性以及“转换性使用”要素的凸显,为数据信息分析的合理性使用提供了相当的解释空间。生成式人工智能的数据训练需要体量庞大的作品投喂,模型的优劣很大程度取决于投喂作品的质量。近年来,在美国法院尚待审结的系列案件中,被告均为商业性人工智能企业。由于商业目的及其第二、三项要素不具有决定意义,双方争讼的关键点聚焦在算法学习使用原作品的转换性以及输出内容对原作品的市场替代性方面。值得注意的是,在2023年沃霍尔案中,美国联邦最高法院时隔近三十年再次对转换性使用作出阐释,可能对数据信息分析的法律定性产生影响。该案判决认为,作品使用行为是否有进一步目的或不同性质是一个程度问题,程度的判断需与合理使用的其他要素(如商业性质)相结合来权衡。如果原作品与二次利用有相同或高度相似的目的,且二次利用属于商业性质,在缺乏其他正当理由的情况下,第一项要素的评估不倾向于认定合理使用。此种严格解释立场意味着“转换性使用”要件地位的下降,或者说,商业目的及其对潜在市场影响因素比重上升,从而加剧了数据信息分析合理使用问题的复杂性。人工智能生成内容毕竟或多或少与原作品的目的或性质类似,以模仿特定作者表达为目的的机器学习尤其如此,其输出结果与原作者存在直接的市场竞争。循上述判决思路,人工智能企业不仅必须证明数据信息分析系出于与原作品不同的目的,还可能因原作者将其作品授权其他人工智能用于数据训练的事实而陷入不利的抗辩地位。目前,已有作者群体援引该案判决反对生成式人工智能使用其作品训练模型,数据信息分析能否通过美国版权法合理使用要件检验还有待进一步观察。


日本采取“信息分析例外”类型化的开放态度。2009年,日本《著作权法》第47条之7规定了利用计算机分析信息的合理使用,被视为人工智能时代相关规定的最早立法。该立法的特色在于适用主体开放,且不局限于非商业目的,但作品使用方式被限定为运用统计方法的信息分析。2018年,为应对信息通信技术进展,重新审视需要获取著作权人许可的行为范围,日本《著作权法》对原有关计算机合理使用条款作出全面整合,覆盖机器学习输入、传输与输出的全过程,包括“非享受性合理使用”“附随性合理使用”“轻微性合理使用”等。修正案保留了2009年“计算机信息分析”合理使用的政策立场,同时采取了更为灵活、开放的制度安排:其一,信息分析方法扩展至统计方法之外的其他方法,为作品的数字化使用留下了可适用的法律空间;其二,明确信息分析结果可向公众提供,但以“提供新的知识和信息”为必要;其三,采取“类型列举+兜底说明”的立法体例,可以容纳随科技发展而出现的新的作品使用类型。总之,日本立法为算法学习营造了相对宽松的制度环境。上述条款并不意味着未经授权的数据信息分析在任何场合都不承担法律责任,无论“非享受性合理使用”“附随性合理使用”还是“轻微性合理使用”,均须满足“在必要范围内”使用,“不得对著作权人的利益造成损害”;由于“轻微性合理使用”系将原作品向公众提供(如论文查重系统),立法为其施加了多于“非享受性合理使用”的限制条件,包括适用主体为“遵守内阁命令规定的标准的行为人”、使用范围为“已发表或具有传播可能性的作品”等。相较于美国《版权法》判断合理使用的一般条款,日本著作权法的专门规定在相当程度上减轻了数据信息分析合理使用的举证负担,也为人工智能的产业发展划定可供预期的行为边界。日本学者据此将日本比喻为“机器学习的天堂”。


欧盟选择“数据分析目的”例外条款的谨慎方案。欧盟2019年通过的《单一数字市场版权指令》规定了文本数据挖掘合理使用条款,但不同使用情形有不同适用条件。其中第3条规定以“科学研究”为目的的文本数据挖掘,主体限定于科研及文化遗产机构;第4条规定以“数据分析”为目的的文本数据挖掘,不存在主体限制,也没有非商业性使用目的要求。该条款适用有以下问题值得注意。(1)合理使用豁免的要件是“对于被训练作品和其他内容的获取是合法的”。即人工智能训练所使用的作品需要具备以合法途径获取为前置要件,如果使用文献数据库训练人工智能,则需要获得许可并支付使用费。如果使用网络上爬取的数据训练人工智能,则需要受到Robots协议条款和技术措施的约束。(2)合理使用豁免的核心是“文本与数据挖掘”过程中的“作品复制、提取行为”,对于人工智能训练中存在的翻译、改编、汇编行为则没有豁免侵权,并且该过程中还存在侵犯修改权、署名权等人身权利的风险。(3)合理使用豁免的前提是“权利人未以适当方式保留文本与数据挖掘的权利”,人工智能企业因此必须提供有效渠道使得著作权人能够选择退出。2024年欧洲议会通过《人工智能法案》,规定了文本数据挖掘的版权规则问题。(1)明确指出《单一数字市场版权指令》中关于文本与数据挖掘的例外适用于人工智能。(2)明确规定人工智能模型的版权合规义务,“除非适用相关版权例外情况,否则任何对受版权保护内容的使用都需要获得相关权利人的授权”,即在权利人以适当方式明确保留或选择退出的情况下,通用人工智能模型的提供者如果想要对其作品进行文本和数据挖掘,需要获得权利人授权。(3)明确提出人工智能模型训练数据的信息披露义务,要求制定并公开有关通用人工智能模型训练内容的详细摘要。可以认为,《人工智能法案》提出了一整套解决人工智能训练使用作品问题的框架:训练使用的作品必须是可以合法访问的作品,确保著作权人可以排除他们的作品被用于训练人工智能,未经著作权人积极管理的作品可用于训练人工智能模型。综上所述,从《单一数字市场版权指令》到《人工智能法案》,关于适用主体范围的扩大与权利例外的保留声明,其规定表现了一种“有限开放”的立法取向。


中国《著作权法》规定的合理使用制度,目前尚不能为使用作品训练人工智能提供侵权豁免。2020年修正案第二十四条是为“合理使用条款”,列举了12种作品合理使用的情形(类型法定),并预留了“法律、行政法规规定的其他情形”(兜底条款);明确指出上述情形“可以不经著作权人许可,不向其支付报酬”(定义说明),“但应指明作者姓名或者名称、作品名称,并且不得影响该作品的正常使用,也不得不合理地损害著作权人的合法权益”(要素构成)。严格而论,我国《著作权法》中的合理使用条款,实际上是一个穷尽式的权利例外列举,与大陆法系“权利限制与例外”的传统立法体例更为接近,即立法者作出合理使用的“类型主义”规定,司法机关基于法定类型进行规范解释和裁判适用。虽然,2020年《著作权法》引入了《伯尔尼公约》的“因素主义”条款(三步检验法),但其适用范围限于该法列举的12种作品类型。换言之,一般判定标准并没有为新的合理使用类型提供法律适用空间。从法律文本来看,类型化条款未提及数据信息分析,兜底式条款至今也未对新的合理使用类型作出补充规定。从法律适用需要出发,数据信息分析的合理性情形与著作权法规定的“个人使用”“科学研究使用”类型最为接近,但相关条款扩大解释的空间极为有限。(1)“个人使用”语境下作品使用主体,限于使用者本人(包括家庭),而数据信息分析多为具有技术、资本力量的企业;同时,个人使用所涉及的作品复制是少量,而机器学习则需要海量参数的文本数据。(2)“科学研究使用”强调“公益性机构使用”“少量复制使用”“内部人员使用”等,都难以符合数据信息分析的使用主体、使用目的以及使用方式的具体情形。(3)沿用“三步检验法”对数据信息分析进行要素分析,在法律规定上也存在障碍。《著作权法》第二十四条规定的“因素主义”分析,限于是该条所列举的“下列情况”,即12种合理使用类型。由此而论,现行《著作权法》尚未对大数据时代合理使用情形作出明确规定。需要进一步说明的是,合理使用制度在我国缺乏本土法律文化的滋养,同时也无司法裁判的支撑,因此法律实践在应对文本数据挖掘方面没有经验积累。2024年广州互联网法院审理的“上海新创华文化发展有限公司诉某AI公司侵权案”,被称为中国“AIGC平台侵权第一案”。该案原告主张被告停止生成侵权“奥特曼”照片,并将案涉“奥特曼”物料从其训练数据集中删除。法院判决认为,被告属于生成式人工智能服务提供者,侵犯了原告对“奥特曼”作品享有的权利,不因第三方提供数据库而免责。但是,被告未实际进行模型训练行为,因此对原告将“奥特曼”物料从其训练数据中删除的诉请不予支持。可以认为,当事人接入第三方数据库的行为不属于数据信息分析的范畴。基于特殊案情所作出的上述判决,尚不足以成为文本数据合理使用的先例。


三、法律构造:类型增列与要素重构


在人工智能时代,数据信息分析的版权例外,已成为许多国家的制度安排。为鼓励智力创作活动,促进人工智能产业发展,我国著作权法有必要对上述问题作出回应。为此,学者们提出了各种可资参考的思想方案。一是建立“弹性、开放式的合理使用制度”。即优化立法模式,解构类型化的“封闭规范体系”,开放合理使用的解释空间,在版权制度设计中,将“合理使用提升至与版权保护比肩的地位”。具言之,增加合理使用认定一般条款,同时在合理使用类型中规定兜底条款,使法院得以在案件审理中援引以上两个开放式条款来认定数据信息分析的合理性认定问题。二是设立“机器学习分类和梯度设置规则”。即区分“非表达型使用”“模仿大众表达型使用”与“模仿个人表达型使用”,由此设立不同的版权规则,合理使用制度与侵权责任制度都是解决机器学习版权纠纷的重要制度。三是专设“数据获取与利用的合理使用条款”。即在“人工智能创作”的名义下,规定“为人工智能创作复制、改编他人作品,以及将创作成果以广播、信息网络传播方式向公众”为合理使用的特别类型。其条文包括“适用主体”(所有为人工智能创作而使用数据的科研机构和企业)、“适用目的”(不以非获利目的为适用条件)、“适用行为”(复制、改编、广播和信息网络)。


上述方案具有建设性意义,但在法律构造方面有必要进行规范补充、完善和整合,即增设数据信息分析合理使用条款,消解“因素主义”判断的不确定性;同时对“三步检验法”进行规范性解读,以摆脱类型列举所带来的“封闭性”。总之,我国著作权法关于合理使用的制度设计,应着力解决不同法源判定标准的杂糅状况,为一般判定标准与具体类型认定要件适用提供立法指引;同时着眼于大数据时代的产业发展需要,将数据信息分析纳入合理使用范围,并对这一传统的“权利限制与例外”制度进行必要的改造。以法律规则完整性、适用性为目的,以数据信息分析合理性、适当性为要义,下面拟对人工智能语境下合理使用制度构建提出以下建议。


(一)增设数据信息分析的合理使用类型


关于合理使用行为类型,各国立法或多或少并不相同,但主要包括表达自由的合理使用、保护公共利益的合理使用、维持司法活动的合理使用、促进后续创作的合理使用、维护弱势群体文化发展的合理使用等。数据信息分析的合理使用,兼有保护表达自由权利,激励新的作品创作,促进新兴产业发展等多个政策取向,彰显了版权“创新之法”和“产业之法”的制度功能。


作品数据化的合理使用规定,可冠名为“数据信息分析的例外条款”,其立法条文可表述为:“为数据信息分析的目的,在必要的限度内使用合法接触的作品,但著作权人声明不许使用的除外”。该条款无“使用主体”限制,包括公益性研究机构和商业性组织,都得以合理使用主体的名义进行数据信息分析活动;但限定“使用性质”须是“非表达性作品使用”或“非模仿个人表达性作品使用”的数据信息分析;规定“使用对象”须是合法接触的作品,凡基于开放获取或合同安排而接触的作品都在合理使用客体之列;强调“使用方式”须在必要范围内,对作品的使用可适用任何方式,但以不损害著作权人合法利益为必要。同时,附有“使用但书”条款,即著作权人声明不许使用的,即相关作品不得适用合理使用。将数据信息分析的合理使用在法律上类型化,其优点在于为使用人提供行为准据,以该项合理使用的构成要素作为正当使用他人作品的行为要件;此外,法定例外有助于“找法用法”,便于法官直接适用法律规范,明确且易于操作。必须指出的是,上述类型化条款与“兜底性”条款可保持协调,以供未来传播技术发展之需。前者是行为类型清单,对数据信息分析行为进行专款规定;后者是行为类型开放,可以涵摄数据信息分析以外的人工智能使用作品的情形。但是,无论是专门条款还是兜底条款,都不足以穷尽描述所有法定例外类型,也不可能详细说明“合理性”判断标准。在这种情况下,“三步检验法”的因素主义分析就凸显必要。


(二)明确数据信息分析的合理性分析要素


合理使用制度的立法趋势,是“因素主义”概括式的规定加“类型主义”的列举式规定,这一立法体例契合了人工智能技术迭变的法律需求,其必要性、可行性可从立法指导思想和司法技术方法两个层面来认识:在大陆法系传统中,著作权人的财产权利通常采用开放式的立法表述,即在权利类型清单之外规定“应当由著作权人享有的其他权利”。与此相悖,其权利限制却是封闭性的,即合理使用限于列举规定的具体类型。为适应发展需要,立法者多是通过立法增列合理使用类型,但这一制度安排并非最好的选择,“类型主义”难以穷尽合理使用可能存在的各种情形。在这种情况下,“因素主义”条款却有助于改变权利限制的封闭状态,从而达到保护私有权利与促进知识传播的双重立法目标。此外,就法律适用而言,合理使用的一般性规则不是离开具体类型条款单独或孤立地发挥作用,而应是在列举式规定的基础上发挥着统一性判定和补充性解释的功能。具言之:一是明确考量标准,类型化条款的合理使用,重在列举各种合理使用类型,对作品使用方式、使用后果等要素未必严格限定,而“三步检验法”就可能提供判定的一般标准,避免司法裁判的认识分歧;二是补充适用解释,现代著作权法在开列权利限制类型清单时,多在法定类型之外增补规定“其他情形”,这种“开放式”的法律表述,必须限制在确定性的解释范围之中,即依照“三步检验法”对例外情形作出说明。


对于数据信息分析的合理使用,未来著作权法无论是新增专门类型条款,还是适用“法律法规规定的其他情形”,都要通过“三步检验法”的判定,其因素分析应把握以下要点。


一是“使用目的”要素分析。“使用目的和性质”是合理使用认定的第一要素,是整个合理使用规则的灵魂。在传统“因素主义”分析框架中,“使用目的”要素意在考察作品使用“是否具有商业性质或者用于非营利的教育目的”,凡商业性使用都将是不合理的。而在“转换性使用”的现代司法判断规则中,“使用如果是以与原作品不同的方式或是为了与原作品不同的目的,可视为合理使用。”就当代数据信息分析行为而论,“非商业性质的使用”不再是合理性证成的关键,其重要路径在于分析作品“转换性使用”性质和程度。数据信息分析是对作品和其他资料数字化的利用,具有“转换性使用”的意义,其不同应用场景表现了不同使用目的,并不能一概以合理使用论之。其分析步骤可归为以下情形。第一步,区别非表达性目的使用与表达性目的使用。一般认为,前者的作品使用具有“目的转换性”,即“作品的复制没有将该作品的独创性表达传播给社会大众”。例如提取人脸图片的设计思想和功能特征,不涉及利用作品中受保护的表达性内容,不产生“版权相关性”,因此可以认定为自由使用。而后者的作品使用属于“内容转换性”,即使用作品的表达性内容来训练算法,并输出具有内容转化性的新的表达(其是否为合理使用,需作进一步分析)。第二步,界分一般性表达使用与个性化表达使用。从模仿作者表达能力的目的出发,前者是对某一类作品提取表达要素,其算法训练的作品来自众多作者,并形成该类作者通用的表达模型,例如微软机器人“小冰”从2000多首诗作中学习现代派诗人表达风格;后者则是模仿某一个作者的个性化表达,其算法训练的作品多是来自特定作者,被学习作品的个性化表达会在生成内容中再现,例如“AI歌手”就是在算法程序上输入目标歌手歌曲,从而生成与其艺术风格一致的声学模型。同为模仿人类作者的表达模型,前者是“求同去异”,即提取重复高的数据,排除重复低的数据,从而形成某类作品表达风格和样式的构成要素,因不涉及个性化表达而具有合理使用基础;而后者是“以假乱真”,即对特定作品进行数据信息分析,以达致模仿特定作者表达能力的目的,其生成内容往往与某一在先作品构成实质性相似,有侵权使用之嫌。


二是“使用方式”要素分析。合理使用情形,“不得影响著作权人对其作品的正常使用”,表达了对使用作品行为合理性、适当性的法律要求,是“使用方式”要素的内核。《伯尔尼公约》规定的“三步检验法”,将这一内容要素列为合理使用判定的标准之一。在美国版权法合理使用“四要素”构成中,“使用方式”要素被分解为“被使用作品的性质”和“使用作品的程度”,前者将作品构成中的主题、题材、体裁、概念、原理和客观事实等列为“不受保护的要素”,而将结构、情节、典型人物、事件的塑造表达和表现等作为“受保护的要素”,从而界定合理使用的对象;后者则从引用作品的数量和实质两方面进行分析,即“从整体衡量被使用作品的状况”,判断“同整个作品相比所使用的部分的数量和内容的实质性”。在数据信息分析中,机器学习的对象是作品构成的所有要素,在作品的抽象表达和具体表达诸因素中阅读和模仿人类审美标准和思想表达方法,这就与过往要件中的“被使用作品的性质”相去甚远;同时,数据输入性使用是“海量的”,其数据收集、数据预处理以及构建数据集等环节,对作品使用超出了传统的“少量使用”范畴。因此,从“不得影响作品正常使用”的要义出发,我们有必要重构大数据时代的“使用方式”要素。(1)非公众接触的使用。数据输入以供“机器阅读”为必要,对作品的数字化使用应在人工智能系统内部进行,不与“人类读者”发生接触。换言之,只有将作品向公众传播的行为,才属于版权控制的范围。(2)非欣赏表达的使用。人工智能选择和阅读的材料,其使用方式及其属性是为归纳总结原作品的构造性特征并形成自己的表达规则和模型,而不是欣赏作品所表达的思想和情感。概言之,生成人工智能物,大量产生与特定作品相同或类似的表达,属于欣赏类或享受类的使用,不在合理使用范围之内。(3)非对抗性的数据库使用。未经许可使用他人销售或正在预售的用于信息分析的数据库作品,必然与该数据库的许可使用市场相冲突,即“影响著作权人对作品的正常使用”。为适应大数据训练的需要,著作权人应对用于信息分析的数据库及时发布有偿使用的信息。(4)非侵权复制品的使用。使用人进行数据输入、数据训练时,不得使用盗版资源类侵权复制品。在合理使用的情形下,使用人知道或应该知道其数据化的作品有合法来源,并在获取和使用中采取了必要防范措施。综上所述,合理性的“使用方式”是一个类型难以穷尽的构成要素,也是一个需要结合其他因素进行综合分析的认定条件。


三是“使用后果”要素分析。使用作品的后果,即“不得不合理地损害著作权人的合法权益”,是合理使用认定的重要标准。在美国1985年《福特回忆录》版权诉讼案中,美国法院曾宣称该要件是“合理使用中唯一最重要的因素”。毫无疑问,市场影响分析在合理使用要素分析中具有重要意义。前述“使用目的”是为主观要素分析,其使用目的正当性评价有必要借助客观使用结果的客观市场影响分析;“使用方式”无论是使用对象性质还是使用行为状态,其分析、判断应落脚于使用作品的后果。作为“使用后果”的市场因素,其要义在于市场损害的发生,美国学界将其描述为使用人得到“实质性利益”,或著作权人遭受“不利的影响”。在这里有两种结果评价标准。一是使用人的“实质性利益”。一般认为,使用人使用他人作品所得利益,主要是非物质利益,即不具有营利性,传统类型的合理使用即为如此,数据信息分析的正当性证成概莫如此。二是著作权人的“利益损害”,这是评价市场损害影响的最主要尺度。对著作权作品市场价值的影响,须达到损害认定的一定条件。(1)损害须达到一定程度。即使用作品的结果超过法律许可的界限。(2)损害必须真实存在。即在损害已经发生或对权利行使造成妨碍,并在客观上可予认定的情况下才能说明使用不再合理。在数据信息分析中,个性化模仿的生成结果,构成对特定作者的利益损害,可以侵权使用论;而大众化模仿的生成结果,是对某类作者群体的利益损害,即使在合理使用的容忍范围之内,使用人似有必要给予适当补偿。总之,“使用后果”要素分析,有助于判定合理使用和侵权使用的界限,在其他要素不敷使用的情况下,对作品使用的市场影响分析往往是最后有用的尺度。


(三)进行数据信息分析的合理使用制度补充


合理使用是著作权法的重要制度构成,涉及权利的行使、限制和保护,关联作品的创作、使用和传播,是私益与公益、本权与他权相互关系的调整器。建构大数据时代的合理使用制度,重在行为类型法定和认定要素构成,此外还应关注以下辅助性制度的补充和完善。


一是数据库许可交易制度。在许可交易制度的指引下,使用人即被许可人可通过数字图书馆或作品数据库获取相关数据资料,在不接触作品内容本身的情况下实现机器学习的目的。任何人只需要支付一定费用就可以使用该数据产品进行人工智能活动;同时设置有严格的技术保护措施以防止作品内容的泄露。在英美国家的版权法律实践中,从电子时代、网络时代以至人工智能时代,版权许可中心即可提供批量使用作品的合法渠道。“要么提供许可使用,要么合理使用”,英美等国家通过立法和司法实践,鼓励著作权人作出许可。可以认为,数据库许可交易制度为数据信息分析提供了合法而有效来源,支付一定报酬而使用,但不接触作品内容而免责,该项制度与合理使用制度具有不同功用,共同服务于人工智能技术创新及其产业发展。


二是权利保留制度。合理使用在立法文件中称为“权利例外”,是对专有权利内容和效力范围的限制。在我国著作权法中,依权利人声明排除的“但书”条款为标准,合理使用可以分为相对性权利限制和绝对性权利限制。前者即为著作权人可以通过声明排除法律规定的合理使用限制,后者是指著作权人不可以通过声明排除法律规定的合理使用限制。我国法律规定的合理使用情形,大部分是绝对性的权利限制,仅有“新闻报道使用”“转载转播使用”含有“权利保留”条款。借鉴欧盟相关立法例,我国未来立法似可允许著作权人以适当方式声明保留权利,选择退出。于前所述,在合理使用反限制声明的情况下,著作权人则应提供作品数据许可使用的渠道。


三是数据信息披露制度。该项制度的核心内容是规定人工智能模型的训练数据信息披露义务,即使用人应记录并公开其训练数据内容摘要。数据信息披露是合理使用制度的重要配套规则,其制度功用表现:其一表明文本数据来源,尊重著作权人权益,使用人公开其训练数据内容的作品来源,类似于合理使用构成的一般要求,即“应当指明作者姓名或名称、作品名称”,以表示对作者及其作品的尊重;其二公开数据信息分析内情,有助于人工智能服务领域专门管理。数据输入和算法学习存在于人工智能系统之中,只有在足够详情公开的情况下,主管部门才能够有效行使监督检查职能。总体来说,数据输入及其训练具有不为公众接触、不为外人知晓的非公开性,在此情况下,规定数据信息披露义务是必要的,这是保护版权政策立场和实现透明度监管原则的重要体现。


四是适当补偿制度。在数据信息分析的合理使用情形中,由生成式人工智能企业给付著作权人以一定的补偿,这一主张既来自于一些学者的法律建议,也见之于国外权益纠纷当事人的和解方案。《伯尔尼公约》第10条之2对合理使用作出一个总的限定性要求,即“必须符合公平惯例”,可以认为,合理使用中的适当补偿制度,是符合《伯尔尼公约》精神的。以模仿人类表达能力、表达方式、表达内容为目的的数据信息分析,通常不会替代某一特定作品的市场份额,但可能替代某一领域作者群体的创作机会,从而“不合理地损害著作权人的合法利益”。因此,适当补偿是合理的、必要的。需要说明的是,此处的适当补偿是在合理使用框架内的制度设计,广义的合理使用主要是不支付报酬的使用,也含有适当补偿的使用。由于数据信息分析的使用作品场景复杂多样,有公共领域自由使用和专有领域合理使用之别,且都可作为侵权抗辩事由。在这种情况下,由法律直接规定而不加区别地支付报酬是不适宜的,换言之,在合理使用的特别情形下,才可以规定适当补偿。