13910160652
010-52852558
| |EN
首页 > 互联网 > 人工智能
  • 13910160652
  • ciplawyer@163.com

生成式人工智能预训练中权利限制制度的选择与建构

日期:2024-08-08 来源:科技与出版 作者:孙山,张雯雯 西南政法大学 浏览量:
字号:

摘要:生成式人工智能在预训练过程中对作品的海量使用,隐藏着巨大的侵权风险,需要通过权利限制制度加以化解。表面上看,预训练的合法性危机是人工智能运营主体进行预训练时体现公共利益,但现行规则未能涵盖、豁免其对作品的使用行为。究其实质,是人工智能运营主体大规模使用作品的过程中,由于许可使用的协商成本过高而引发的市场失灵。同为“卡—梅框架”下的责任规则,合理使用制度的法律价值取向是公平优先,而法定许可制度的法律价值取向是效率优先。公平优先的合理使用制度仅能涵盖极苛刻条件下的预训练,法定许可制度的效率优先取向决定了该制度可以用于应对市场失灵问题,预训练合法性危机的实质决定了预训练合法性问题的解决必须以法定许可使用制度的建构作为主要出路,辅之以特殊情形下的合理使用制度。


关键词:生成式人工智能;预训练;权利限制;合理使用;法定许可;责任规则


一、数据来源与研究方法


如果说2023年年末《纽约时报》起诉OpenAI和微软公司开启了著作权人向生成式人工智能的开发者维权之先河的话,那么2024年2月初,广州互联网法院判决AI公司构成侵害他人著作权则是为生成式人工智能的开发者彻底划定了预训练过程中不可逾越的红线。生成式人工智能预训练过程中合法性危机的化解,需要从权利限制制度背后的逻辑入手,建构兼顾产业发展需求和著作权人利益诉求的权利限制制度。多数学者将目光集中到了合理使用制度上,或主张扩张解释具体规则以完成涵摄,或主张创设新类型合理使用实现问题的一次性解决,或主张采用合理使用兜底条款和转换性使用相结合的方式在现行法框架下达成法的续造。但是,“扩张解释”超越了条文用语的可能文意,“不加区分的新类型合理使用立法创设”完全无视著作权人的合法利益,而尚未引入我国立法的转换性使用本身也存在突出的问题。也有少数学者提出以法定许可制度来应对机器学习中的著作权侵权问题,实现技术发展与文化创新的平衡,但法定许可使用制度的具体构建,却少有人关注。通过横向比较,发现同为著作权的权利限制制度的合理使用制度与法定许可制度优先考虑的法律基本价值与关切重点各异:合理使用制度优先考虑“公平”,聚焦公共利益的维护和公共职能的履行,而法定许可制度优先考虑“效率”,更侧重于作品的商业化利用。著作权权利限制制度将部分在应然意义上应由著作权人享有的利益归入公共领域,以此来平衡著作权人与作品使用人之间的利益冲突,但由于现有著作权权利限制制度滞后于技术进步,难以应对生成式人工智能预训练过程中的合法性危机。本文基于对作为预训练合法性危机解决方案的合理使用制度与法定许可制度的全面检视,尝试建构法定许可使用制度的具体规则,回应海量使用作品的市场需求,实现作品使用人与作品著作权人的双赢,推动生成式人工智能在著作权法框架下实现长效发展。


二、南辕北辙:合理使用作为预训练合法性危机解决方案的总体评析


01 合理使用具体规则的部分失灵


“个人学习、研究”类或“课堂教学或者科学研究”类合理使用具体规则是一些学者解决预训练过程中作品来源合法性问题的方案。但严格来说,预训练中对作品的使用不符合“个人学习、研究”类合理使用规则中对使用主体、使用目的和使用程度的限制条件。第一,人工智能运营主体与法律条款所预设的个体存在巨大反差。人工智能运营主体大部分是经济实力较雄厚、融资能力较强的公司,完全不符合法律规定的主体条件。第二,预训练的目的与法律规范所要求的目的间的矛盾不可调和。对于使用作品的目的,官方释义中反面列举出的排除项包括出版、营业性表演、制作发行录音录像带等,将营利性的使用行为排除在外。而大部分预训练以营利为最终目的,既不是为了实现个人的求知欲,也不是为了满足个体的精神消费需求,显然难以解释为 “学习、研究或者欣赏”。第三,预训练的使用与法律条款所涵摄的范围相去甚远。人工智能生成内容总体上受语料限制较大,合格语料尚且会产出垃圾内容,不合格语料更是会落入“垃圾进、垃圾出”的恶性循环中,因此预训练不满足该条款对使用程度的限制条件。从使用主体、方式与比例、使用目的看,预训练中对作品的使用与“学校课堂教学或者科学研究”类合理使用的适用条件也存在巨大差异。其一,教学或科研人员肩负公共职能,以助力公共事业为己任,即使将使用主体作扩大解释,也应当限定在具有公共职能履行义务的范围内,无法涵盖生成式人工智能的全部运营主体。其二,对原始文本、图像和视频的复制、翻译、改编和汇编是进行预训练的前置必备步骤,可作相同理解的翻译、改编、汇编之外,“复制”仅限于“少量”,以避免对正常市场价值的实现产生冲击。为了降低原始文本、图像和视频的检索成本,提高已收集到的作品的利用率,避免生成的内容存在明显的偏好或倾向,预训练时对作品的使用比例一般为全部使用。即使在“少量”这一要件上作扩张解释,也绝不可能包括“全部”,否则远远超过了法律解释的合理范围,也严重违背了合理使用制度追求公平的底层逻辑。其三,大多数预训练过程中对作品的使用并非以“学校课堂教学”或“科学研究”为目的,而是以营利为目的:在生成式人工智能模型训练完成并投入使用后,虽然会对用户发放一些免费试用额度,但全部功能仍然需要用户购买会员后才能够使用。一些学者指出:“表达性机器学习不仅会使它训练时使用作品的市场产生危机,还可能会完全边缘化作者。”这并非危言耸听,而是已经摆在我们面前的现实威胁。


只有少量基于科学研究目的、满足使用主体、使用方式、使用比例限制的预训练使用行为,才构成“学校课堂教学或者科学研究”类合理使用。具体来说,需满足下列条件:第一,主体是各类公立性质科研院所。在加快实现高水平科技自立自强的大背景下,各类公立性质的科研院所承担着促进科技发展的公共职能,允许各类公立性质科研院所进行的生成式人工智能预训练,有利于国家整体科学技术水平的提高。第二,使用目的必须为纯科研目的。只能将纯科研作为未经许可使用他人作品的唯一目的,不允许以直接或间接营利为目的,否则将引起著作权人和作品使用人之间的利益失衡。第三,使用方式必须限定在以公共利益追求为价值取向的科研,严格排除了企业内部的科研和公立性质科研院所所做的以个体利益追求为价值取向的科研,包括但不限于服务付费、刊登广告、商业合作等追求个体利益而非公共利益的使用行为。第四,严格限制预训练过程中使用他人作品的比例。生成式人工智能的开发者必须承担一定的注意义务,非必要不使用他人作品,最大限度地减少可能对著作权人带来的风险或造成的损失。总而言之,合理使用的具体规则虽然“部分失灵”,但严格适用“学校课堂教学或者科学研究”条款可以让生成式人工智能对作品的自由使用合法化。为减少争议,未来可在《著作权法实施条例》或其他法律规范中增设如下“合理使用”条款:“出于纯科学研究目的,在人工智能预训练过程中适量复制、翻译、改编或汇编已经发表的作品,供公立性质科研院所的科研人员使用,但不得出版发行。”


02 一般条款与兜底条款的貌合神离


国内部分学者主张适用合理使用一般条款或兜底条款来认定预训练构成合理使用。2020 年《中华人民共和国著作权法》(以下简称《著作权法》)修法以后,看上去弹性较大的一般条款与兜底条款让一些学者看到了预训练合法性危机化解的希望:或主张直接套用或突破三步检验法,给人工智能数据训练开绿灯;或主张直接适用兜底条款,通过兜底条款这一“开放性立法”明确数据训练构成合理使用;或以兜底条款为基础,结合四要素法,将符合转换性要求的数据使用行为归类为合理使用。但我国立法框架下同时规定的合理使用一般条款与合理使用兜底条款在功能上存在差异,应作严格区分。从法律性质上看,三步检验法属于合理使用制度中的一般条款。受国际公约制定目的的限制,三步检验法虽然居于一般条款的地位,但与《反不正当竞争法》第2条等可用于开放性解释的一般条款不同。三步检验法是各国国内立法的指导性原则,是判断具体规则设计合法性的标准,用以限制法官的自由裁量权。包括《反不正当竞争法》在内的国内立法中的一般条款则是授权法官行使自由裁量权的法律依据。反观兜底条款,其存在的目的是扩张类型化的有限列举。值得肯定的是,我国《著作权法》在引入兜底表述的同时还在该表述前面增加了限定条件,确保了兜底条款与三步检验法的逻辑统一。如此一来,合理使用兜底条款发挥作用的前提是其他法律、行政法规中另行创设了新的合理使用类型。正如一些学者所言,在司法实践中,“任何扩大解释都必须严格基于对法定列举类型的类推,而不得脱离既有规定进行法官造法”。申言之,权利的限制,与权利的内容、类型一样,都要遵循绝对权法定原则的限定。


一般条款与兜底条款在处理预训练侵权问题上“貌合神离”,根据三步检验法,预训练既不属于合理使用的特定情形,也不能适用合理使用的兜底条款。一方面,从法定要素的限制来看,预训练相关立法的缺失使其无法满足第一步“属于特定情形”。预训练和其他列举出的合理使用类型存在本质差别,不顾此种差别将导致对三步检验法的适用原则与立法初衷的彻底背离。另一方面,从法律条文的解释与适用来看,不应当允许通过解释的方式对权利的限制进行创设,否则可能引发向一般条款逃逸等现象。如前所述,我国著作权法中的合理使用兜底条款名不副实,并非真正意义上、超越绝对权法定原则限制的兜底条款。而作为一般条款的三步检验法本身不能用于开放性解释,兜底条款在“法律、行政法规规定的”限制下也对类型扩张无能为力。归根到底,合理使用是一种权利限制制度,属于例外而非常态。美国四要素法更接近于不受绝对权法定原则限制的兜底条款,判断标准较为灵活与宽泛,弹性较大。但受立法模式与知识产权法定原则的限制,我国目前不能适用四要素法及转换性使用来证成预训练的合理使用。首要原因是立法模式间的差异。美国合理使用制度采取完全开放式的立法模式,在本质上是赋权给法官,使其能够在个案中解释创设合理使用类型,四要素法的创设及其改进都得益于不受绝对权法定原则限制的法官自由裁量权。但我国知识产权立法充分实行知识产权法定原则, 这意味着知识产权的权利限制制度也须法定,授权法官解释创设合理使用类型的四要素法在我国欠缺生长的土壤。至于由要素一衍生出来的转换性使用,制度移植需要经过司法审判和学术研究的双重检验,虽然我国最高人民法院的司法政策文件中曾经将之作为判定的方法,但目前仍缺乏移植转换性使用规则的案例和学理积淀。其次是司法效果上的不同。我国对著作权的保护是典型的设权法模式,设权法模式的灵活性应当通过及时修法实现。如果不是选择及时修法或颁布配套的法律规范,而仅试图通过扩张解释的方式来提升合理使用制度的灵活性,那么不仅不能达到预期效果,还会间接增加法官的审理难度,提高司法实践成本。最后,在判例法国家,法官解释创设新类型的合理使用并不存在法理上的限制,但在坚守知识产权法定原则的大前提下,于个案中通过法官行使自由裁量权的方式扩张合理使用的类型也有损我国司法的公信力与裁判的权威性。需要注意的是,四要素法的裁判结果只是看上去完美,个案裁判的差异较大,美国学者的实证分析揭示了这一点。


03 单设新类型合理使用的无能为力


国内部分学者主张借鉴域外法经验,单设 “数据训练处理所需材料”的合理使用类型。欧盟、德国和日本探索以新设“文本与数据挖掘” 类合理使用来应对技术与法律规范之间的矛盾。欧盟《单一数字市场版权指令》(2019)中拓展了著作权合理使用的范围。德国《著作权与邻接权法》(2017)的第60d条中也引入了文本与数据挖掘这一合理使用新类型。日本《著作权法》(2018修正案)中新增了第30-4条关于文本与数据挖掘技术合理使用的相关规定。对比欧盟、德国和日本关于文本与数据挖掘合理使用的立法可见,日本对人工智能数据训练处理所需材料的态度最为宽松,欧盟次之,德国最为严格。


通过《著作权法》中单设新类型合理使用来全面应对预训练中作品使用的合法性危机在我国是行不通的。从修法的惯例来看,新设合理使用类型不具备现实的可行性。回溯历史,维护法律规范的安定性、稳定性的考虑之外,我国《著作权法》自颁布以来的三次修订间隔时间较长,即便是横向比较其他国内立法也罕见,修法惯例也决定了短期内在《著作权法》中单设新类型合理使用的可能性很小。第二,从法律规范对技术更新迭代因应的匹配程度看,新设合理使用类型没有明显的必要性。以公平为首要价值追求的合理使用制度对适用范围明确性的要求极高,随时处在变化之中的技术会损及公平。第三,从研究现状来看,目前学界在新类型合理使用的具体限制条件问题上仍存在分歧:就适用主体和使用目的而言,部分学者主张突破“非营利性”的限制 ,而部分学者坚持排除“营利性”的使用;就使用的方式而言也存在无法妥协的观点冲突。如前所述,我国单设新类型合理使用的条件并不成熟,不能盲目效仿其他国家设立新类型合理使用。放眼未来,在《著作权法》中创设普适性的新类型合理使用与司法实践相悖。细究欧盟、德国、日本设立的新类型合理使用规则,这些规则都是较为抽象和粗糙的,回避了如何区分商业性使用与非商业性使用、区分被使用作品的性质和类型等关键性的问题,导致虽然存在人工智能相关的合理使用条款,但这些条款在面对复杂的司法实践时还是有心无力。事实上,只有通过构建针对不同使用方式、不同性质作品的法定许可规则,才能对预训练阶段使用他人作品的行为进行全面、细致的规制,解决预训练中的合法性危机。


三、回归市场逻辑:作为预训练合法性危机优选解决方案的法定许可


01 预训练的合法性危机之表象与实质


表面上看,预训练合法性危机是人工智能运营主体在预训练时体现出公共利益,但现行规则未能涵盖、豁免预训练过程中对作品的使用行为。国内有学者提出,文本挖掘有利于公共利益的实现,可通过判断是否有助于实现著作权法所承认的社会公共利益来认定机器学习是否合法。但是,上述认识并不客观。预训练能否真正实现公共利益尚且存疑,更重要的是,预训练的最终目的是获得商业利益,并且训练数据一般都是不对外公开的。技术共同进步的前提是技术公开基础上的共享,而营利性人工智能运营主体为了获得更多的经济利益,势必不会将语料或其他材料公开给其他主体使用,自然也就远离了公共利益。


究其实质,预训练合法性危机是大规模进行作品商业性质的使用过程中协商成本过高引发的市场失灵。不能否认的是,现阶段大部分的预训练过程对作品的使用都是商业性质的使用。而且,各个企业已经在未征得许可的情况下使用了海量作品,为了保证生成式人工智能模型的准确性与先进性,生成式人工智能运营主体还将源源不断地搜集更多的作品进行训练。而海量使用作品意味着海量地征求著作权人的许可,这在事实上是很难实现的。以ChatGPT更新迭代所使用的数据量为例,2018年发布的GPT-1使用了1.17亿参数,而2023年GPT-4所使用的参数增至1.8万亿,可见,生成式人工智能模型使用的信息量呈指数型增长,已经达到万亿单位的惊人程度。预训练合法性危机,实质上是生成式人工智能运营主体非透明地使用作品提高了征求许可的交易成本,而市场机制却心有余而力不足。加之即使找到部分作品著作权人,试图通过协商方式达成作品使用许可,人工智能运营主体与海量的作品著作权人间也缺乏稳定、有效的协商机制。


生成式人工智能预训练过程中对著作权限制问题的不当处理,还会加剧负外部性的市场失灵问题。科斯定理下,如果交易成本大于零,协商将不是最佳的交易方式,只依靠市场宏观调控可能导致市场失灵。生成式人工智能预训练中使用作品也是一种交易行为,作品著作权人与作品使用者是交易主体,征求作品使用许可所产生的费用是最主要的交易成本。对于人工智能预训练而言,庞大的待许可作品数量导致事先协商不具备可行性,市场宏观调控在生成式人工智能的商业实践面前并非最优解。除事先协商之外,还存在其他替代解决方式,包括但不限于以限制著作权为手段来降低交易成本的方案。科斯指出:“一个个人权利不受限制的制度,将是一个没有权利可以获得的制度。”但需要注意的是,合理使用制度和法定许可制度属于双刃剑,在降低交易成本的同时也会削弱著作权对作者的激励作用。社会公众对他人作品的使用正在经历时代的巨变:前互联网时代,作品的使用总体上呈现出零散、公开但不透明的特征;互联网时代,集中的平台与分散的网络用户,共同造就了零散与集中兼具、公开但较透明的作品使用状况。生成式人工智能预训练又开拓了使用作品的新局面,呈现过度集中、不公开且不透明的态势,忽视预训练过程中的侵权行为势必会助长肆意侵权的不良风气,给著作权人带来不可估量的损失。但过度强调对著作权的限制也后患无穷:私人财产被异化为公共资源,创新动力不足,劣币驱逐良币,资源侵占和浪费现象将愈演愈烈,公地悲剧不可避免。


02 著作权法中权利限制制度的法律价值取向


作为著作权权利限制制度的合理使用与法定许可有着不同的法律价值取向偏好。合理使用制度的出现与市场失灵有关,但基本的法律价值取向是公平优先,公众不需要支付任何对价,可谓是对著作权人利益最大程度的限制。从合理使用的原意也可窥见公共利益的维护是美国实践合理使用制度的主要目标之一:“fair use”中的 “fair”,准确的翻译应是“公平”而非通用翻译中的“合理”。此后,弹性极大的四要素法赋予法官创设合理使用新类型的权力,转换性使用理论的提出更是扫清了商业目的使用构成合理使用的障碍,效率也成为美国合理使用制度的价值目标。不同于走向追求“效率”的美国合理使用制度,我国合理使用制度仍坚持“公平”的价值取向,直接指向公共利益,强调社会公平的实现和公共职能的履行。纵观《著作权法》中明确列举出的十二项合理使用情形,毫无例外,均指向公共利益维护或公共职能履行。按照同类事项应作相同解释的原则,第十三项合理使用兜底条款所对应的新类型合理使用的目的也只能是公共利益维护或公共职能履行。法定许可制度的法律价值取向是效率优先。法定许可制度的目的不是促进传播抑或增进公共利益,而是协调产业主体之间的矛盾进而提升交易效率,是“法官造法失败后的妥协性立法”从我国立法看,效率是法定许可制度的价值依归。现行著作权法中法定许可制度所能发挥的功能就是降低协商成本,以事后支付合理费用的方式取代事先的协商,加速作品的商业化利用。当然,效率优先并非唯效率论,无论是扩大作品的传播范围以保障知情权,还是丰富民众文化生活,更或是推动教育规划的落实,各项法定许可情形中都隐含着对公共利益的追求。


法定许可制度的效率取向决定了该制度可以用于解决市场失灵问题。著名的“卡—梅框架”确立了权利保护的三种模式——财产规则、责任规则和不可让渡规则,为整合传统上分别在财产、侵权等独立主题领域中分析的法律关系提供了一个分析框架。“卡—梅框架”下保护规则的配置,必须考虑交易成本,这为我们解决生成式人工智能海量使用作品问题提供了重要的参考依据。法经济学的另一巨擘波斯纳,则将“卡—梅框架”的三类规则简化为财产规则与责任规则,省略了不可让渡规则。在他看来,交易成本决定了规则的配置:交易成本较低时应优先适用财产规则,交易成本较高时优先适用责任规则。合理使用制度与法定许可制度都属于交易成本过高时用于规制行为的“责任规则”,允许部分作品在特殊情况下被他人未经许可而直接利用,由官方定价来实现资源配置的效率最大化。合理使用制度没有给予著作权人任何经济补偿,势必引发人们对著作权人合法权利被过度限制的担忧。美国学者詹姆斯·格里梅尔曼的发问直击预训练定性为合理使用的要害:为什么一个数字化的 “人文学者”要吞噬数以百万计的文本而不补偿它们的作者,而一个更传统的文字诠释者——或者一个普通的读者——必须为他所解读的有版权的作品付费?由于生成式人工智能预训练过程中对作品的使用并非完全公开,著作权人可能无法因预训练作品使用人的获益而获得相应的补偿,如果制度仍不弥补这种市场失灵情况,可能导致著作权人不愿再积极进行创作并传播作品。尤其值得注意的是,美国的合理使用制度在演进中逐渐将商业性质的使用也囊括其中,制度追求的目标被异化为公平与效率并重,利益天平慢慢失衡。有学者指出,合理使用可能不再符合其历史目的,现今这一理论越来越多地为大公司的经济利益服务,牺牲了作为个体的著作权人的合法利益。


效率取向的法定许可制度保留了著作权人的获酬权,市场失灵的实质决定了法定许可使用制度更适合于化解预训练中的合法性危机。生成式人工智能预训练所需作品的数量大、种类多、频次高,如果沿用传统的先授权后使用模式,也就是“卡—梅框架”下的财产规则,那么交易成本将会畸高。此时,用于压缩交易成本的责任规则就有了用武之地。不过,同为责任规则,合理使用偏重保护公共利益(特别是在我国),而法定许可强调作品使用人和著作权人之间的利益兼顾。以公平为优先价值追求的合理使用制度无法彻底解决预训练的合法性危机,因为预训练合法性危机的症结是协商成本过高而非对某一方不公平。在生成式人工智能运营主体与作品著作权人无法达成有效协商时,追求效率的法定许可使用才是解决危机的关键,将资源重新进行有效配置,才是实现著作权人和生成式人工智能运营主体的双赢选择。法定许可使用制度的建构是化解预训练合法性危机的主要出路,合理使用制度只在特殊情形下适用。


03 生成式人工智能预训练法定许可使用制度的建构


生成式人工智能预训练法定许可使用制度的建构包括“法定特殊情形+定价”两部分。法定特殊情形的创设在区分不同类型作品的基础上展开,而在定价的问题上,本文将从定价主体和具体价格区间两个角度提出相应建议。


对于经著作权人同意而汇集到数据库中的个人作品,可以创设新类型法定许可使用。此数据库与《生成式人工智能服务管理暂行办法》中的 “公共训练数据平台”有所区别,公共训练数据平台无偿为公众提供作品,平台上作品的数量较少,质量参差不齐。如果个人作品许可给数据库将获得收益,著作权人将乐于让自己的作品汇集到数据库中供他人使用,数据库也会始终保持一定的数量优势。由于数据库的所有者也会获得一定的收益,为了持续扩大收益,数据库所有者将努力提升数据库中作品的质量来吸引更多的使用者,由此形成了作品数量与质量的良性循环。具体而言,针对经著作权人同意而对其作品进行汇集的中国知网、万方、JoVE科学视频数据库等各类数据库,可以允许生成式人工智能在支付报酬的情况下对其汇集的作品进行使用。这样一来,能够减少预训练过程中征求作品许可的协商成本,解决了使用他人作品需要征求众多著作权人许可而许可人难以寻找的问题,极大提高了预训练的效率。


对于由平台企业集中管理的法人作品,可以创设新类型法定许可使用。法人作品由法人主持创作、代表法人意志,著作权权属明确,接受集中管理的作品的作者固定、作品集中、寻找途径透明,具备创设法定许可使用规则的条件。在现实中,符合条件的平台企业也不在少数:爱奇艺、优酷、腾讯视频等视频平台,与掌阅、番茄小说等阅读平台,喜马拉雅、荔枝FM等音频平台,都拥有大量平台主持创作并拥有著作权的高质量原创作品。数据显示,爱奇艺原创剧集的数量逐年增加,占平台视频比例逐年提升,2022 年的爆款剧集中原创内容的占比超过60%。又如,阅文集团2023年财报数据显示,其旗下在线阅读平台新增了约38万名作家及67万本小说。可见,这些平台企业的创作能力、作品数量以及作品质量都很可观,创设生成式人工智能预训练使用平台企业集中管理的法人作品的法定许可使用类型,能够在一定程度上减少授权程序、降低交易成本、促进作品的创作与传播。


对于已经由集体管理组织管理的各类作品,可以创设新类型法定许可使用。作者的原始著作权归属是创作者,但出于有效行权的目的,可以通过向集体管理组织授权或与出版机构签订允许转许可的出版合同的方式集中行使著作权。我国现有的五个集体管理组织本身就具备授权许可的职能,纵观各个集体管理组织具体管理的内容,发现其基本涵盖了生成式人工智能预训练中使用作品的类型。此外,集体管理组织集中许可的作品也在不断丰富,以中国音乐著作权协会和中国文字著作权协会为例:中国音乐著作权协会年报显示,协会通过DIVA系统管理音乐作品资料, 2022年底,DIVA数据库所登记音乐作品的数目达1 664.74万余首,是全球最大华语音乐著作权信息大数据系统。中国文字著作权协会发布的年报显示,2021年度收取的著作权使用费达到2 455万元,同比增长9.4%。如果允许人工智能预训练时以法定许可使用的方式使用已经由集体管理组织管理的各类作品,则可以直接将使用费支付给相关集体管理组织,由集体管理组织转交给著作权人,不需要再单独向每个作品的著作权人支付使用费,有效地降低了许可使用成本。


法定许可使用情形下合理报酬的定价,可由国务院相关部门事先确定。国务院相关部门对法定许可使用的报酬定价具有显著优势:首先,当事人协商出的定价的效力仅限于各方当事人,但国务院相关部门权威性高,由其给出的价格具有更强的贯彻力与更全面的适用性。其次,国务院相关部门具备定价的实践经验与能力,国务院相关部门掌握具体集体管理组织的许可数据,了解不同作品的市场许可价格,在实际数据的基础上确定出的价格更科学合理。最后,由国务院相关部门事先定价,能最大限度地降低获取作品许可使用的协商成本。有使用他人作品需求的人工智能开发者,可以直接参考国务院相关部门给出的定价决定是否使用相关作品,极大提高获得许可的效率。对于法定许可使用的定价,目前已有多个行政法规和部门规章的成熟经验可供参考。


法定许可使用制度下合理报酬的定价要远低于协商许可的价格,不过分增加研发企业的负担,体现效率上的追求。设定法定许可使用制度本身就建立在市场失灵、无法进行协商的基础上,如果法定许可使用的定价高于协商许可的价格,理性主体还是会选择综合许可成本较低的协商许可,有违创设新类型法定许可使用规则的初衷。由此观之,新类型法定许可使用规则的合理报酬定价应当以促进高效资源分配为目标,在金额上便体现出法定许可使用优于市场协商,这样才能使法定许可使用制度充分实现其功能。此外,生成式人工智能的研发本就存在成本高、风险大等困境,如果忽视从事技术研发企业对于信息、技术等资源的高需求,仍然给研发企业的发展增加过重的经济负担,将严重打击研发企业的研发热情。应当让更有创新力的企业获得足够的资金从事颠覆性技术研发,在合理范围内减轻研发企业的负担有助于优化生成式人工智能的研发环境,在促进作品创作与传播的同时,提升企业的研发积极性与研发能力,进一步激发生成式人工智能行业的创造力。


四、结语


著作权法中权利限制制度的建构与适用,关系到新技术的生存与发展,这一点已经在历史上被多次验证过,如今又在生成式人工智能预训练中使用作品的问题上再度引发关注。数字技术时代生成式人工智能在预训练过程中对他人作品的海量使用单靠合理使用制度已经不足以证成其合法性。归根到底,预训练过程中使用作品的合法性危机是作品商业化利用过程中协商成本过高引发的市场失灵,危机的化解也应以效率而非公平作为权利限制制度的优位法律价值取向。因此,解决预训练的合法性问题,必须以法定许可使用制度之建构作为主要出路,辅之以特殊情形下的合理使用制度。2024年3月20日,法国市场监管机构针对美国科技巨头谷歌公司开出了一张2.5亿欧元(折合人民币约19.7亿元)的罚单,处罚的原因是谷歌公司在未征得法国出版商和新闻机构同意的情况下,擅自使用其内容训练自身旗下人工智能服务Bard的基础模型。谷歌公司收到的巨额罚单为生成式人工智能的发展敲响了警钟,欧洲已经开始拒绝提供免费午餐了,我国的付费午餐还会远吗?