13910160652
010-52852558
| |EN
首页 > 理论前沿 > 版权
  • 13910160652
  • ciplawyer@163.com

论算法创作中涉数据的著作权侵权风险及其化解

日期:2023-04-12 来源:法律适用 作者:彭飞荣 浏览量:
字号:

摘 要


算法创作是指算法对现有的数据或数据集进行输入、学习以及训练,并依此输出相应的创作物。算法创作过程中,输入阶段,未经许可使用以及超范围使用会引发侵权风险,并将该风险延及全流程;学习阶段,“临时复制”虽然不构成侵权,但会抬升主体的注意义务;输出阶段,“表达性使用”存在侵权风险。鉴于现有的侵权豁免制度难以调适,应考虑构建标准与法律协同作用的治理体系,并扩大合理使用与法定许可规则的适用范围,以防范算法创作中涉数据的著作权侵权风险,顺应人工智能文化产业发展趋势。


关键词


算法创作 数据 著作权侵权 风险化解


一、问题的提出


在当今社会,人工智能(Artificial Intelligence,简称 AI )已经成为社会发展的关键词之一,其不仅是世界各国高度重视的尖端科技,而且也使新一轮信息革命的图景具备了极大想象空间。AI 并非是一个单一内涵概念,随着类神经网络(Artificial neural network)、机器学习(machine learning)算法等技术的兴起,其也不断进化出自然语言处理、语音识别、专家系统等多种形式。其中,运用算法在绘画、作曲、小说等领域进行内容生成,目前这种形式已经成为人工智能文化产业的新热点。算法创作的过程在于,通过输入-学习-输出三阶段得以生成内容,期间离不开数据这一“燃料”。在输入阶段,原先为物理载体的作品将被数码化为数字作品,与其它数字作品一并转化为机器可识别的二进制数据,供算法进行学习,经过反复对算法模型的训练以及验证,使其能在输出阶段生成特定要求的内容,这一内容同样应经过转化成为人类所能理解且认同的“作品”形式。因此,算法创作不可避免要大量使用已有作品,而已有作品的取得与利用多受著作权法的调整,故存在著作权侵权风险。


但在人工智能的井喷式发展下,传统著作权法的规定并不能机械或简单的套用于算法创作的侵权处理中:一方面,从生成机理而言,算法的“学习”与“创作”方式有别于人类的学习与灵感创作,无法机械适用传统规定;另一方面从经济成本角度考虑,机械适用会使得人工智能公司承担海量的著作权许可及相应的巨额费用,这不利于科学技术的总体进步与社会福祉的整体增加,甚至公司完全可能为了获取训练数据而转向“隐性侵害”,利用爬虫等技术攫取他人作品数据,这与著作权法规定的初衷相违背,无法有效保护著作权人的利益。新兴技术给传统著作权法的规制基础与适用规则带来了全新的挑战,以至于在司法实践中,法院在回应算法创作中涉数据的著作权侵权的问题时也出现裁判分歧,亟待立法或学理上对相关适用规则予以明确。


中共中央国务院印发的《知识产权强国建设纲要(2021-2035年)》提出要“研究完善算法、商业方法、人工智能产出物知识产权保护规则”。2022年11月,国家知识产权局《关于确定数据知识产权工作试点地方的通知》(国知办函规字〔2022〕990号)也明确了在北京市、上海市、浙江省等8个地方开展数据知识产权试点工作。在著作权法领域,学界目前研究主要集中于人工智能(算法)生成内容的可版权性以及权利归属方面,趋向于关注算法创作中的成果输出;也有少量研究关注输入阶段的文本与数据挖掘行为的正当性。另有学者对数据获取与利用的著作权侵权风险与化解进行论述,但对数据能否受著作权法保护,数据获取与利用、输出各阶段间关系等仍有待于进一步挖掘。因此,本文将系统分析算法创作中涉数据的著作权侵权风险,基于其风险节点类型,给出在现有法律体系下的自主性解决方案。在此基础上,为应对算法创作这一新技术的外部挑战,法律应当与其他规制方式相结合,在风险与法律互动的背景下给出系统性治理方案,希冀籍此以推动人工智能文化产业的进步与发展。


二、算法创作中涉数据的著作权侵权风险的形成机理


迈入数字社会,尽管广义上的数据能否被著作权法保护尚存在争议,但狭义上的数字作品及其集合能得以被保护已成为理论界与实务界的共识,数字编码载体并不影响其以图片、文字等具象化表达的性质。算法创作则基于狭义上数据,历经输入阶段、学习阶段和输出阶段这三个阶段,以小冰诗歌创作软件为例,小冰的诗歌“创作灵感”可以仅根据图片即可进行诗歌“创作”,其实现逻辑同样可分为三阶段:在输入阶段进行的“意向抽取”与“灵感激发”,实质是对使用者提供的图片进行图像识别,匹配相应的关键词,使用者还可键入文字提示来辅助“创作”;学习阶段则是将以上数据输入至训练调试完毕的“文学风格模型”中;最后的输出阶段是将模型不断迭代的语句结果进行不同篇幅的组合,从而得到输出结果。


可以说,数据在这全流程中贯穿流动:在输入阶段数据的取得以及“喂养”,在学习阶段算法对数据的调校,在输出阶段数据作品的生成与传播,算法创作全过程中的三阶段均可能存在相应的著作权侵权风险。


输入阶段主要任务是导入数据或数据集(Dateset)并建立模型。算法创作的数据来源包括数字作品、数字化后的作品两类;模型也可分为算法与参数两部分,研究人员根据不同的需要来进行算法的选择以及参数的调整,例如,在文字创作领域,算法程序一般采用循环神经网络(Recurrent Neural Network,RNN)语言模型方法。在图像识别领域使用卷积神经网络(Convolutional Neural Network,CNN)或者卷积神经网络图像分类算法(R-CNN)模型。该阶段将既有作品作为训练样本输送给上述的模型进行学习,进而调整参数与算法迭代,因此,既有作品的获取是否侵权为此节点的关键,一旦打上侵权的原罪烙印,在后续的学习环节以及输出环节均成立著作权侵权。


在学习阶段,算法创作的机器学习原理上类似于人脑的思考过程,算法模型只会接收和返回数值形式的数据,因此需将训练集的数据转化为机器可接收并“理解”的数值(通常采用多维数组),期间的转化关系也需要进行设定和调整,这种调整是否为著作权法意义上的“改编”行为,仍需进一步讨论;在该阶段会进行多轮学习,每一轮学习过程中,需要纠正模型,即将预测输出的数值与正确输出的数值通过某种方法得到它们的相差值,再根据相差值来调整模型参数,让下一轮模型的预测输出值更接近正确的输出数值,这过程中数据会阶段性的存储,可能构成著作权法上的“复制”行为。


输出阶段不仅有单纯的结果输出,还同时包含了调试和训练的“前阶段”。在训练阶段的生成内容并不会作为最终的结果产出,研发人员需要使用验证集(Validating Set)进行验证是否达到收敛(Converge)或是过拟合(Overfitting),并与测试集(Testing Set)判断最终模型是否可以单独处理数据并完成输出。通过优化后的模型对任务进行处理而输出的结果,同样需要经过转码才能获得大众所熟知的“作品”形式。正如上文所述,现有的学术研究多集中于转码过后的“作品”讨论,但对数据集以及未转码的数据这两方面缺乏应有的关注。随着对抗式神经网络技术(GAN)的广泛普及,人工智能算法可自行合成训练集,此种数据集与真实数据集并不相同,其由人工智能自体合成,仅能够在统计学层面反映实际情况,并不会明确指代真实个体,在数据稀缺的情况下,使用合成数据可以增加(称为数据增强)或改变训练集中的数据量以达到训练目标。因此,在此阶段的风险不仅来自于未转码数据,同样可能来自于“合成数据集”,其作为真实数据集的“数字镜像”,在真实数据集存在未经授权情形时,也会存在侵权风险。


很明显,上述算法创作中有关数据的著作权侵权样态有别于传统著作权侵权。一方面,数据的低密度性使用使得传统的“接触+实质性相似”比对存在适用困境;另一方面,由于海量的数据需求使得实施人进行算法创作将承担巨额的许可费用,实施人出于理性“经济人”的考量,或放弃人工智能技术的研发应用,或采用隐性侵害手段使得著作权侵权不易被察觉。随着机器学习能力的增强,深度学习技术的深入发展,人工智能由窄域人工智能(Artificial Narrow Intelligence,ANI)进化为通用人工智能(Artificial General Intelligence,AGI);与之相应的是所需求的数据量将指数级地提升,算法创作中的著作权侵权风险也随之升高。


三、算法创作中涉数据的著作权侵权风险的系统检视


(一)输入阶段:未经许可的使用风险


算法创作的本质是基于概率算法,从大量数据中进行学习,即对现有作品所在的数据库集合中作品的规律进行模仿和预测的技术。在输入阶段,核心在于训练数据集(training dataset)的建立,此过程会对数据进行复制来纳入数据集中(literal reproduction in datasets)。


算法创作需要使用大量的数据供于学习。根据使用数据的来源不同,可分为受著作权法保护的数据以及不受著作权法保护的数据。对于后者,由于早期的权利意识并不明晰,互联网上存在大量的“无主作品”,对此类作品,一般认为目前无权属人可以主张其著作权,暂不落入著作权规制的范围。对于前者,其来源不仅有本体即为数字作品的,也有如谷歌图书馆计划一般将物理媒介数字化而形成的。数据集的建立系对原作品复制权、传播权乃至改编权的利用,因此,当数据集没有得到有关权利人授权抑或不存在合理使用抗辩,即属于侵权行为,其风险因数据获取方式不同而呈现出相应的差异。


第一,未经许可使用他人电子数据或者以商业目的数字化非电子数据的行为,均属于侵权行为。未经许可使用他人电子数据的行为较为普遍,并且侵权形式呈现多样态,如短视频平台有采用非法聚合方式侵害个人权利,也有在平台间采用深度链接侵害其他平台权利;又如常见的“爬虫”侵权行为,不仅可针对个体数据,还能对数据库数据进行抓取。在我国,数据库的保护仍然是学理与实践中的难点,“专家论案”中法院否定了数据库一级分类的独创性,但是同时也肯定二级分类中原告进行了有意的编排,因此具有独创性。据此,如对存在内容选择、编排而具有独创性的数据库,“爬虫”行为侵害其著作权;而不具有独创性的数据库,则不构成对于数据库权属人的著作权侵权(但受到如反不正当竞争法等部门法的规制),而是对于数据库中个体数据权属人的著作权侵权。


对于以商业目的数字化非电子数据的行为,典型案例如“美国谷歌图书馆案”。在该案中,针对谷歌将作品进行全书扫描的行为,美国联邦最高法院不予受理美国作家协会对谷歌公司提起的诉讼,认为谷歌构成合理使用而不侵犯版权。在我国,“王莘与谷歌公司案”中,谷歌公司上诉认为其数字化行为系合理使用,但北京市高级人民法院考量了合理使用认定标准以及相关因素,如适用作品的目的与性质、使用作品对著作权人的权利不合理损害等,最终认为谷歌公司侵犯著作权。“同案不同判”的原因在于,中美双方在“三步检验法”的判断中,对“全文复制”行为合法性认定不同。根据我国《著作权法》第48条第1款第1项规定,对于物理载体的作品进行数字化,系对复制权的侵害,并不存在疑义。


第二,即便经授权的数据,在授权范围外使用仍可能存在侵权风险。大型互联网企业通常会设置“服务条款”或者“用户须知”格式条款,在其中允许为用户提供服务的同时,互联网企业可以免费使用用户发布的信息,此种为个体自主授权而形成的数据集。然而,非互联网企业或者中小企业并不具有“网络效应”,其通常选择直接或者间接购买他人提供的数据集作为算法训练材料。这仍然存在风险,是因为服务商本身并不对数据库或者其中的数据享有著作权或者不享有完整的著作权;如在“荔浦市花样年华娱乐俱乐部、中国音像著作权集体管理协会案”中,被告花样年华娱乐俱乐部即向案外人视易公司支付了费用用以购买其曲库数据库,案外人视易公司仅就曲库享有原告授权许可的复制权,并不享有放映权,因此被告仍然构成著作权侵权。


(二)学习阶段:侵权的特别注意义务


学习阶段的核心需要将文本语言通过机器翻译(Neural Machine Translation)转化成为机器语言,这样才可以进入预先设定的算法模型进行数据训练。该阶段仰赖于输入阶段的数据,一旦输入阶段存在侵权风险,学习阶段当然也构成侵权。但前述阶段不存在侵权情况下,该阶段的算法学习是否会引发著作权侵权风险?


前述提及,基于学习阶段的算法创作原理,在学习过程中,数据会被无数次的复制、模拟、再复制,在此过程中,数据只是一种暂存状态(transitory durations),在Cartoon Network LP, LLLP v. CSC Holdings, Inc.案中,法院认为资料只有1.2秒的存储时间,并不符合著作权的复制行为中要求的“存储”要件,因此不属于著作权侵权。机器学习运行算法模型的前提需要对数据进行存储和运算,在目前数字技术背景下,应当区分这种临时复制行为和复制权,这种临时复制不能纳入复制权的范畴,否则将会不合理地扩大著作权人的权利。


因此在学习阶段并不会导致著作权侵权风险。但算法能对数据进行筛选、分类、储存,进行处理与加工,并产生相应的个性化输出,更精确得知数据是否侵权,如在“叨叨记账案”中,法院从整体商业目的、规则设计、算法设计三个层面分析认为,公司能基于算法运行发现用户上传了侵权内容,因此存在侵权行为。基于此原理,如算法创作是基于他人上传数据而发生的,使用者具有侵权注意义务,则可能成立间接侵权行为,而不能以“避风港”规则予以免责。


(三)输出阶段:“表达性使用”的风险


输出阶段是侵权行为争议纠纷发生的主要阶段,但输出内容是否构成侵权需要进一步明确。算法创作所输出的内容不应是被价值先验的“作品”,而是一种数据,只是其具体的形态表达为“作品”形态,以便更好产出商业价值。因此在输出阶段,侵权的客体本质是一种数据或者数据集合,符合《著作权法》第15条的保护范围。


有别于传统分析进路下直接采用“接触+实质性相似”的侵权判断规则,正如前述分析所提及的“谷歌数字图书馆案”,若输出仍然是输入阶段的数据内容,谷歌公司自然完全符合“接触”与“实质性相似”的要求,但得到的却是侵权的结论,这和前述美国联邦最高法院的结论迥异,存在明显不合理之处。因此就有学者提出“表达性使用”与“非表达性使用”这一组概念,即非表达性使用只是对于事实信息进行利用,而表达性使用则是使用信息作独创性表达。这一区分的实益在于判断是否对权利人合法权益造成减损,这是三步检验法的首要一步,只有基于此才能进入侵权判断规则的适用。


同样,“接触+实质性相似”规则在数字时代焕发了新的活力。正如前文所述,对人类作者的影响进行精确的事实调查是不可能的,但是对一些人工智能学习模型来说,只需要调查它们的训练语料就能得到结论。如果输入数据中出现了被指称的复制作品,这将证明对原告作品的访问,必然满足“接触”要求;“实质性相似”则存在不同的认定方法,正如汉德法官所言,“思想与表达”永远不会有一个界限,只能在个案中进行裁判。我国现有司法实践中地方法院对于此判断方法上存在显著差异,如“《奇迹MU》案”与“《太极熊猫》案”中,法院判决是将玩家/网友的观点作为判断是否构成实质性相似的考量要素;也有如“琼瑶诉于正案”中法官对于情节的逐渐抽离进行比较;还有如“《蓝月传奇》诉《烈焰武尊》案”中,有对于玩法规则、游戏设计对比,也有从普通玩家视角进行感知。但是以上几者其实又并非是严格的只考虑感官测试或只进行抽象分离比较,笔者认为目前审判观点可归类为“内外部测试法”,即用“感官测试法”对于“抽象概括法”进行补充,使其相较于单一的“抽象概括法”,更注重作品的整体性,同时也能克服因判定标准不同而使判定结果具有不确定性的弊端。对于算法创作案件,尽管法院目前并未对判断标准予以论述,但在现有案件的审理思路仍值得借鉴:在“菲林律师事务所案”中,北京法院虽并未明确其采用的标准,但在审理思路采用主体、行为进行分析;在“腾讯Dream Writer案”中,因是直接移植相同的文章,也并未对以上标准的适用明确,但审理思路仍然是遵循主体、行为进行分析。


综上所述,在针对输出阶段风险案件的审理思路上,审判人员可遵循:(1)诉讼主体资格判断;(2)是否有侵权行为;(3)侵权抗辩是否成立这三步进行分析。诉讼主体资格判断往往是算法创作中著作权侵权案件的核心争议焦点,其中涉及到作品是否具有独创性以及诉讼主体是否有权提起诉讼等问题。而在侵权与抗辩方面,首先需要对是否构成“表达性使用”做出判断,其后再对于输出的数据内容进行侵权比对,从具体实现上而言,第一步是进行外部测试,司法人员与专业辅助人员对作品要素抽象、剥离,进行相似性分析比较;第二步是进行内部测试,从两部作品的整体观感来判断是否构成实质性相似。笔者认为,现有研究均将算法创作停留在文字作品或者美术作品阶段,而这些形态只是数据内容的表现形式之一,当数据内容是数据集这一重要形式时则被忽略。随着元宇宙NFT与GAN技术的风靡,数据集必将扮演愈发重要的地位。


(四)侵权豁免的困境


对于算法创作中涉数据的著作权侵权风险的豁免,有本源性抗辩与法定抗辩两类区分。前者为存在非侵权使用的情形:如部分数据集可能完全由公有领域的作品组成,或者是只为数据挖掘和机器学习目的而特别授权的受版权保护的材料。法定抗辩形式则是为平衡著作权与社会文化进步之间的紧张关系,立法上特别规定了著作权侵权的豁免规则。我国现行《著作权法》对于著作权侵权的豁免规定了合理使用与法定许可这两种类型,对于国际公约中的强制许可并没有在法律上确定,以下将从规范分析视角逐一分析算法创作中涉数据的著作权侵权豁免的适用困境。


1. 合理使用的场景受限


我国现行《著作权法》第24条第1款规定了合理使用制度,其中的第(一)项“个人学习、研究”、第(二)项“适当引用”、第(六)项“科学研究”为侵权抗辩可能援引的依据。具言之,第一项中的个人使用必须为自然人,并不包括法人或其他组织,如“桂林伟文纳米材料有限公司与赵春青案”中,法院即认为,被告桂林伟文公司系商业主体,显然不属于为个人学习、研究。而在实践中,人工智能的研发需要一定的技术与物质基础,自然人很难为单独实施的主体。即便确实存在个人研发行为,仍然需要符合个人使用的非商业目的要求。第(二)项“适当引用”尽管能解决主体上的限制,但算法创作中使用数据不符合“适当引用”需要具有的“介绍、评论和说明”这一目的要件,在“李桂英、汪黄任诉彭俐案”中,裁判要旨所总结的“超出必要和限度”“产生替代作用”和“影响作者合法利益”判断规则可为司法判断提供指引,算法创作如小冰诗歌、DALL-E作画等吸引了一大批拥趸,完全可预见其对市场以及原作者利益的冲击,因此算法创作显然超出了上述要件的限制,不符合该要件。第(六)项“科学研究”确实可以满足非商业性使用数据的场景需要,但是根据学者观点,其适用主体仅限于“国家设立的教育、科研公共事业单位(比如经相关主管部门、教委批准设立的学校、全额财政拨款的国家科研机构等)”。在实践中,商业性公司如腾讯、阿里等,均为人工智能领域头部研发企业,但却均难列入上述要件中,存在较大的限制。


2. 法定许可的实施缺陷


我国现行《著作权法》规定了四种法定许可制度,分别为第25条第1款“编写教科书法定许可”、第35条第2款“报刊转载法定许可”、第42条第2款“制作录音制品法定许可”以及第46条第2款“播放作品法定许可”,除此之外,在《信息网络传播权保护条例》中,规定了“制作和提供课件的法定许可”以及第9条“向农村提供特定作品”这一准法定许可制度。法定许可制度与合理使用一样,均是法律对于著作权的限制性规定,因此均设置了严格的适用要件,并且法定许可制度仍需要向著作权人支付报酬。在具体适用场景上,算法创作很难用于编写教科书或制作、播放作品,公司也不符合录音制作者或者报刊等主体要件,因此在实施上存在缺陷,无法适配算法创作中涉数据的著作权侵权豁免需要。


四、算法创作中涉数据的著作权侵权风险的化解策略


算法创作中的数据流动,牵涉较多的著作权侵权风险,既有的法律规范并不能完全免除侵权责任,因此相关产业人员面临着较大的侵权风险。早在2017年7月,国务院发布的《关于印发新一代人工智能发展规划的通知》中便提出“建立人工智能法律法规、伦理规范和政策体系”,可见优化人工智能产业发展的政策与法治环境,化解我国产业发展的系统性风险,有着重要的社会效益与国家战略意义。


(一)标准与法律协力防范风险


对于算法创作这一新兴技术带来的风险,现有法体系不仅无法及时提供规制工具,同时应对新兴技术问题时立法决策缺乏有效的参考点,这使得在技术应用与纠纷处理间存有“真空”地带,社会亟需一种创新性的新治理解决方案做出回应。


标准作为一种“软法”,近来被认为是治理人工智能与算法领域问题的最佳补充方案。2020年五部门共同发布了《国家新一代人工智能标准体系建设指南》,对八个模块中的算法模块纳入规范,指出需要充分发挥标准对于人工智能发展的支撑性、引领性作用,国际标准化组织如ISO、ITU、IEEE等也先后对于人工智能交互领域、图像处理、大数据等领域开展标准化工作。标准相较于法律法规这些“硬法”,具有更强的灵活性和适应性。因此,能以标准与法律协力以防范风险。


1. 协力规范产业健康发展


工业化发展的必然趋势是规模化运用,而规模化的前提则是需要统一基础,技术标准作为产业发展的基础作用不可或缺。在内部体系中,标准可以破除通用层到应用层之间的技术沟通障碍,以共同术语固定基础表达,用标准打通不同应用层之间的层级合作;在外部体系中,能消弭语言与技术认知不一的分歧,可融通算法创作与其他各类技术间合作关系。


标准作为一种技术规范,不仅回应了监管与指导发展需要,而且能为司法机关与行政机关判断事实提供了判断基准。其基础在于,标准中的强制性标准具有法规范的授权,具有强制力,而其他非强制性标准尽管本身无法成为规范性法源作为裁判依据,但实践中司法裁判仍会援引作为说理依据,以应对复杂的技术问题。


以个人信息数据产业的发展历程为例:虽然《个人信息保护法》确立了“知情-同意”规则,但在具体场景中,该法的法条语义并无法具象化,执法与司法缺乏锚点,由此我国逐渐形成以《个人信息安全规范》为基础,以《个人信息安全影响评估指南》《个人信息去标识化指南》《政务信息共享数据安全技术要求》《数据安全能力成熟度模型》《移动智能终端个人信息保护技术要求》《网络安全等级保护安全》等标准为主干的标准体系,以具体的技术要求与操作规范指导产品生产以及其他行为,既结束了执法与司法中的混乱局面,又能规范与指导产业合规发展。


2. 协力机制的实现路径


就标准制定计划而言,可以团体标准先行,激发社会其他主体的参与积极性,而最终多个社团发布的标准文本,由市场检验其成效与不足。政府主体通过先行的团体标准尝试,更快、更精准地为国家标准、行业标准以及地方标准奠定基础。


在具体的实现上,可依阶段划分为:输入阶段,应当至少制定有:(1)数据交易标准;(2)数据获取与分级分类标准;学习阶段,应当至少制定有:(1)数据安全技术标准;(2)人工智能算法评估标准;(3)算法透明度标准。以此才能强化对输出阶段作品侵权风险的管控。在此基础上,还可进一步建构标准-认证-认可体系,根据《认证认可条例》第2条,由国家认可的第三方权威机构的认证,可对相关企业符合认证要求的颁布认证证书,通过此种立体结构能使相关企业更好落实相关规则。


除规范需完备以外,政府与学界仍需强化对于相关技术企业的宣传引导,充分利用自媒体平台、实务讲座、产学界研讨会、校企联合等模式,全方位、多层次宣传算法创作中的侵权风险化解机制,围绕算法创作不断发展的趋势,及时跟进关键技术开展理论与实务双轨并进研究,反推完善安全、伦理和隐私等相关标准法律政策。


(二)限制规范扩大化顺应发展


著作权法规定“专有权利”的目的,并非是赋予创作者完全垄断的权力,而是为最终社会利益的总体增加,在《伯尔尼公约》第9条第2款中规定,允许成员国在某些特殊情形下对于专有权利做出限制。对于这种限制方式的认知,不同法系乃至不同国家之间存在较大的区别。美国于《版权法》第107条规定了合理使用制度(fair use),但是并没有穷尽列举,而是以这四种考量要素作为法官判断的依据。同为英美法系的英国、加拿大等国则是采用公平协商行为制度(fair dealing)作出限制与例外规定,并以判例法作为判断基准。而我国参仿大陆法系的立法模式,并未设置判断的一般原则,而是以具体列举式的立法技术对于适用场景作出规定。这种立法技术在一定程度上能限制法官的恣意裁判,但也在面临新技术发展时会无所适从。


1. 合理使用制度的改造


我国《著作权法》第24条列出可构成“合理使用”的具体场景,在2020年修法时进一步引入了兜底性条款“法律、行政法规规定的其他情形”,解决了体系闭合和僵化困境的问题,使得我国司法在应对新技术问题时能有法律依据作出灵活裁判。因此,我国在应对算法创作中涉数据的著作权侵权风险问题时,在解释论上有两种解决策略可供选择,一是在十二种具体列举情形以外增设新的例外,另一是出台相应的法律或者行政法规,针对人工智能文化产业算法创作中涉数据的著作权侵权风险行为作出特别规定。


第一,在合理使用框架下增设新的例外条款。具体而言,至少需要从主体、目的性以及必要限度方面做出规定。域外对于适用主体方面存在不同的认识,在欧盟地区发布的《数字化单一市场版权指令2019/790》第3条规定了科研机构和文化遗产机构这两类主体,第2条(1)项与(3)项分别对“科研机构”与“文化遗产机构”作出详细解释,但是这相较于日本、美国等无适用主体限制而言仍显狭窄。就我国而言,主体无限制的立法策略更值得提倡。一方面是可通过目的性去进一步限缩使用范围,另一方面是在实践中,除高校科研院所以外,头部互联网公司都正投身于数据与算法的开发使用中,其研究成果以及科技水平在我国乃至世界均有举足轻重的地位。因此,不应当将这些公司径行排除于合理使用主体之外,否则不利于国家人工智能发展战略的实施;在目的性方面,欧盟现有规定仍将其限定于“非营利目的”或者“公共利益目的”,似乎已经不合时宜。欧盟成员国英国在2021年10月就AI与知识产权问题的咨询答复文件中,就拟通过“可以使用受版权保护的材料进行文本挖掘和数据挖掘”这一条款来作为新的版权和数据库例外,以便出于任何目的进行文本和数据挖掘。在全球AI技术竞争激烈背景下,日本也于2019年1月1日生效新的日本《著作权法》,以新修的30-4条改变了原47-7条的规定。原则上,当人工智能研究与开发“用于信息分析”而使用数据时,可以使用“以任何方式”,使用方法而不仅限于“记录或改编”。可见,在现有比较法背景下,扩大目的范围已经成为共识;在必要限度方面,尽管现有立法均未明确限度,但基于合理使用的基本法理,限制性规范的设立应当平衡多方当事人之间的利益。对于获得豁免例外的算法创作主体,应当遵从此规则对其采用的技术措施控制在必要的限度,并鼓励权利人和科研机构之间就此进行协商。


第二,如在合理使用框架下增设特别规范,可就人工智能领域的法律框架进行系统性立法。上述提及的《数字化单一市场版权指令2019/790》自颁布以来,其实学界一直有反对声音,主要观点认为,在网络效应下新指令可能意味着市场集中和总体福利损失。但是该项法令仍然不遗余力地被欧盟委员会所推行,引入其中的第3条作为“文本和数据挖掘”例外,主要原因正是先前欧盟采用的严监管导致其在数据挖掘方面技术发展已经明显落后,版权保护与创新之间存在显著的负相关关系。欧盟方面希望放松监管来活跃市场创新,提高科技竞争。为此,欧盟已于2022年的《人工智能法(草案)》审议决议中,即要求在原第40-55条之上,放松对于人工智能的限制,扩大其可应用的范围与适度放松其监管力度。该立法态度的转向,与其他科技大国也不谋而合,例如美国政府即相继制定《2017人工智能未来法案》《2018美国人工智能安全委员会法》《国家人工智能计划法》等多部法案在推进人工智能与算法的进步,同时联邦各州也对算法应用以及规范制定法案,支持建立标准研制以及推动人工智能数据集和算法的安全性、价值性研究。对于我国立法而言,制定一部特别法以助力人工智能与算法的发展与应用,同样有其合理性与必要性。特别立法可于人工智能概念、隐私保护、责任认定、例外规定等方面细化规定,结合强制性国家标准,为我国保持在全球人工智能领域的领先地位持续助力,与此同时,《著作权法》第24条可将其作为特别法援引,以对算法创作的问题予以回应。


综上所述,我国若采用合理使用制度作为进路,可考虑在《著作权法》第24条第1款第12项后增设例外规范,如有必要,可于人工智能单行特别规定中制定例外规定,由《著作权法》第24条的兜底条款援引适用,以此扩大合理使用的适用范围。摒弃主体限制,而采用结果导向型的立法模式,取消“个人使用”或“科研院所”等主体限制,扩大至所有主体,在遵从必要限度规则下,允许非商业性目的的使用行为,更能科学地平衡产业发展与著作权人的合法权益,也更契合现有实践。


2. 法定许可作为补充


有学者指出,算法创作中自动扫描、抓取他人数据或存储数据等行为并不符合转换性使用的合理性证成,因此应当适用法定许可作为解决路径。笔者认为这种说法存在以偏概全的缺陷。转换性使用判断的需要以使用目的作为关键要素,而以科研型非商业目的行为自然符合该构成要件,而商业性目的行为,则符合该学者所认为的,会对原作者作品产生市场竞争关系,且不具有公共利益目的,无法适用合理使用制度。


而在商业性目的使用的情境下,相对于合理使用制度,法定许可对于作者的补偿金制度更贴合利益平衡的价值功能。法定许可这一制度的设立,得以在一定程度上缓和算法创作这些新兴科技给传统著作权制度带来的冲击,在合理使用制度之外,调和研发人员与著作权人之间的利益冲突。我国在立法上不无依照该思路进行诸多尝试,例如,《信息网络传播权保护条例》第9条中规定了“向农村提供特定作品的准法定许可”制度,该项制度对我国农村地区居民提供了切实的帮助,保障其基本的生活文化权利,但同时也尊重了著作权人的合法权利,当其提出异议时,网络服务提供者不仅要删除作品,还应支付作品使用期间的报酬。可见我国在特殊群体与著作权人之间的利益平衡已有立法尝试,该制度对算法创作中的数据侵权豁免制度(法定许可)的构造有重要的参考意义,未来立法可设立如下条款:以商业性目的进行数据的输入、学习,在著作权人未提出异议的情况下,可以径行使用;但是当著作权人做出不得使用的保留声明,或者接受到使用通知后提出异议的,即应立即停止使用行为,已输入的数据应当删除并支付使用报酬。


综上,算法创作中涉数据的著作权侵权风险化解策略,不仅需要采用法律、行政法规定做直接回应,也应当采用一系列技术准则破除技术本身自创生性风险。标准则是这种准则最好的承载机体,因“有关方面共同遵守”,能对行政机关与私主体产生事实上的拘束力,形成基于市场发展逻辑的“最佳秩序”。


结语


人工智能技术的发展对诸多行业领域造成直接或者间接的影响,人们对于计算机的想象也被颠覆,从传统的物理载体作品转向数据形式的作品,内涵的重塑也给著作权法带来了巨大挑战。当数据成为人工智能文化产业发展必不可少的“燃料”,一旦对于数据的输入、学习、输出三阶段苛以严格标准,则会使得算法创作背负上侵权的“原罪”。本文以全新的视角剖析了算法创作这一过程,不落入既有研究仅对于输出阶段的“作品”进行分析,而探其本质,着眼于全流程中涉及数据的著作权侵权风险。本文首先系统阐述算法创作全阶段存在的自生性风险节点,与现有侵权豁免规范存在的适用困境,其次分别从解释论与立法论的进路对规范改造作出重述,并对可能构成侵权的案件审判提供建议,最后尝试构建标准与法律协力作用的治理格局,希冀能对理论界与实务界就算法创作中涉数据的著作权侵权风险问题化解提供解决思路。