13910160652
010-52852558
| |EN
首页 > 理论前沿 > 商业秘密
  • 13910160652
  • ciplawyer@163.com

崔国斌:公开数据集合法律保护的客体要件

日期:2022-05-09 来源:知识产权杂志 作者:崔国斌 浏览量:
字号:

内容提要:内容公开的数据集合满足何种条件才能获得法律保护,依然是一个悬而未决的问题。这里假定立法者将来会选择特殊产权模式来保护此类数据集合并且仅仅赋予收集者有限排他权(公开传播权)。在此类立法下,受保护的数据集合应满足如下客体要件:第一,数据集合的条目处于公开状态;第二,具有实质量的数据条目;第三,收集者付出实质性的收集成本。除此之外,该立法无需考虑数据收集行为的合法性、数据的时间敏感性、收集者是否采取技术措施等因素。通过上述三项客体要件,特殊产权立法能够与现有的商业秘密保护机制和著作权法有效衔接,并与美国式的热点新闻规则和欧盟式的数据保护模式相区别,实现不同的立法目的,有效平衡数据收集者、竞争者和公众的利益。


引  言


在人工智能和大数据时代,大规模数据集合作为一种资源的重要性被提到全新的高度,与之相关的产权保护问题也成为法学界的关注热点。现有的商业秘密保护制度、著作权法、反不正当竞争法(一般性的反抄袭保护)以及合同法(通过合同限定接触者的使用行为)等已经为大多数数据集合提供了有效保护,尚未解决的是处在公开状态而又不具备独创性的数据集合的保护问题。比如,电子地图中的数据集合、大众点评网站收集的消费者评价、社交媒体网站收集的用户创作内容、电子商务网站的用户展示的商品或交易信息等。


世界范围内,这类公开数据集合的保护还没有成熟的方案。20世纪90年代中期,规模较小的数据集合或数据库的知识产权保护,曾经引起欧美学界的热烈讨论。当时,多数意见认为传统数据库类型的数据集合应当获得某种程度的产权保护或反不正当竞争法保护。其争议的焦点是提供何种形式或何种程度的保护才能防止市场失灵。这也是过去欧洲、美国和世界知识产权组织轰轰烈烈推动数据库保护专门立法的原因。中国知识产权界一直在探索数据集合的法律保护模式,但并未直接立法。最新进展是在2020年《民法典》中含混地规定“法律对数据、网络虚拟财产的保护有规定的,依照其规定”。这里的数据包括本文所述的数据集合。立法者对于此类数据集合是否应该获得产权保护,并未给出明确的答案。


现在,网络数据集合的数据规模进一步扩大,投入成本和商业价值进一步增加,客观上进一步增强了公开数据集合额外法律保护的正当性;同时,中国的确出现不少抄袭公开数据集合内容并对外提供的案例,法院大多依据反不正当竞争法制止此类数据利用行为。主流意见虽然对于数据保护的具体内容存在争议,但不质疑最低限度保护的必要性。在这一背景下,本文假定认真对待数据集合产权保护的时机已经比较成熟,并假定立法者有必要赋予数据收集者最低限度的产权保护,即赋予数据收集者限制他人利用其公开传播数据集合的权利。后文将这一权利称作有限的排他权(公开传播权),它不包含复制权、使用权、制作衍生数据的权利等。在这些假定的基础上,后文将深入分析在这一有限产权保护机制下,作为保护客体的数据集合应当满足的基本条件。


本文认为,为了保护数据收集者的投资积极性,平衡数据收集者、竞争对手和公众的利益,保证数据特殊产权保护制度与现有知识产权制度相互协调,数据集合的保护客体应该满足如下条件:(1)处于公开状态;(2)具有实质量的数据条目;(3)收集者付出实质性的收集成本。接下来,本文将逐一分析这些要件的合理性、具体的认定思路与操作标准。最后进一步指出,在将来数据集合有限产权保护模式下,无需特别考虑收集行为合法性、数据时间敏感性和收集者是否采取技术措施等因素。


一、客体要件分析的假设前提


(一)法律保护的正当性假设


现有知识产权法已经为数据集合提供了实质性保护。如果数据条目内容或数据集合整体处于秘密状态,收集者可以寻求商业秘密保护。如果数据集合最终处于公开状态,但数据内容本身或数据的收集和编排体现了收集者的独创性贡献,收集者可以依据著作权法,将数据内容视为普通作品或将数据集合整体作为汇编作品保护。不过,如果收集者对数据内容本身没有独创性贡献,则该著作权保护仅仅及于数据的选择和编排,而不覆盖数据内容本身。此外,一些国家和地区在商业秘密保护制度和著作权法之外,对数据或数据集合提供特殊保护。比如,在美国,具有时间敏感性的事实消息可以获得反不正当竞争领域盗用规则的有限保护;《欧盟数据库指令》对数据库内容提供保护。 


现行知识产权法对处于公开状态且数据内容、数据选择或编排不具有独创性的数据集合缺乏针对性保护。这类公开数据集合在数量上远小于非公开数据集合。因此,数据集合产权保护制度的空白地带很有限。部分学者过分夸大了数据集合产权保护领域的制度空白,会误导决策者选择宽泛的立法思路,也会让后续研究人员接受混乱的思想地图,无益于立法和研究的推进。在中国,甚至连公开数据集合都不处在严格意义上的制度空白地带。中国虽然没有数据集合保护的专门立法,但是各级法院可以适用反不正当竞争法的原则条款保护数据集合,禁止竞争对手抄袭和利用公开数据集合。从很早的阳光霸才案,到最近几年的一系列案件,司法实践的做法已经成为惯例。从某种意义上说,我们现在要做的事情不是填补法律制度的空白,而是将原则条款具体化,提升数据集合法律保护的确定性。


长期以来,虽然中国法院一直适用反不正当竞争法的原则条款保护公开数据集合,但是这一司法实践并未真正得到具体立法的正面支持。即:立法者始终没有明确,是否有必要在现有的知识产权保护制度之外,为数据集合提供额外的法律保护。最接近这么做的立法不过是《民法典》第127条模棱两可的表述。在学理层面,现有研究已经对数据集合产权保护的正当性问题进行了相对深入的讨论。多数意见认为,为了保护数据收集者的投资积极性,有必要对竞争对手的数据利用行为进行适当的限制,但是大家对于这一法律保护的具体内容还存在较大争议。受篇幅限制及避免模糊焦点,本文假定公开数据集合最低限度的保护(仅保护公开传播权)具有正当性,然后在这一基础之上讨论公开数据集合保护制度的设计问题。


值得一提的是,数据集合法律保护的正当性在很大程度上与保护制度本身的可行性或可操作性有直接关系。如果在制度设计层面难以提出具体可行的数据集合保护规则,那么,即便立法者在理念层面认同数据集合法律保护的主张,也可能因为具体制度的不确定性过大或管理成本过高,而认为数据集合法律保护不具有所谓的正当性。在这一意义上,数据集合法律保护的正当性与制度的可行性,相互影响。这也意味着,在社会对于数据集合法律保护还存在疑虑时,讨论具体制度的设计思路,可以强化数据集合法律保护的正当性。换言之,即便在数据集合有限产权保护的正当性还存在疑问的情况下,深入讨论其保护客体的构成要件依然有重要的理论意义。


(二)有限排他权保护模式的合理性假设


假定公开数据集合应当获得有限的法律保护,之后的问题是选择何种保护模式。在世界范围内,一直存在数据集合财产权保护模式和行为法保护模式(反不正当竞争法保护模式)的争议。欧盟曾经在类似的数据库保护方面就选择了财产权保护模式;美国当初的立法建议则有很多是典型的反不正当竞争法保护模式。学理上,这两种保护模式存在明显差异。行为法保护模式关注竞争者的具体竞争行为,通常要求存在市场失灵才干预,提供比较窄的保护;财产权保护模式则相反,通常强调权利人对有形或无形物的绝对支配。反对财产权保护模式的观点认为,数据集合的后续利用行为多种多样,财产权保护模式可能过度限制这些行为,导致社会成本过度增加。中国学界存在类似争议。 


本文作者在先前的研究中,讨论过数据集合保护模式选择的问题,认为数据集合的财产权保护模式与行为法保护模式无本质区别,关键在于具体制度的设计。财产权保护模式可以设计得很窄,对保护客体提出苛刻的条件,仅赋予有限的排他权,仅提供很短时间的保护,设置宽泛的权利限制;行为法保护模式也可以设计得很宽泛,设置很低的保护门槛,宽泛地解释竞争关系,限制可能造成微弱损害的竞争行为,等等。抽象地讨论两种保护模式提供保护的宽窄,并没有什么现实意义。比如,日本和韩国的反不正当竞争法对数据集合采用行为法保护模式,但赋予收集者相对宽泛的权利,包括复制权、后续利用权等,比本文所建议的有限排他权(公开传播权)要宽泛很多。后文关于“客体要件与行为法保护模式的相关性”的讨论,也会进一步证实这一点。因此,这里坚持先前研究的立场,认为从促进数据转让和许可交易角度看,选择有限财产权保护模式更为合理,这样相对成熟的产权交易规则或习惯可以参照适用于数据集合许可领域。在接下来的讨论中,本文假定立法者将来会选择财产权(有限排他权)保护模式来处理数据集合的保护问题。从《民法典》专门规定数据保护问题看,将来立法者可能会选择特殊产权保护机制保护数据集合,因为传统上纯粹的反不正当竞争法问题通常会被排斥在《民法典》的视野之外。


如果采用财产权保护模式,立法者必然要解决一系列基本问题,包括:受保护数据集合的范围(客体要件)、特殊权利的内容、权利归属、保护期限、权利限制等。毫无疑问,这里的每一个问题都很复杂,都需要而且值得专门研究。特殊财产权保护模式是否可行,取决于我们能否针对上述重要问题制定出切实可行的规则。现阶段,多数研究还停留在“数据产权”的概念厘清、正当性分析、保护模式选择和制度框架勾勒等宏观层面,尚未深入探讨上述问题的具体制度设计。仅仅停留在宏观层面,研究人员很容易低估特殊权利保护制度设计的挑战性,提出过于雄心勃勃的立法建议。


本文假定立法者将选择特殊产权保护模式保护数据集合,但无意全面揭示此类新产权制度的复杂性,而是专注于保护客体要件的讨论,即数据集合满足哪些条件之后才能成为特殊产权保护制度的客体。在探讨保护客体要件时,我们不能将其作为一个孤立的问题;相反,要将其置于产权制度的整体框架下全盘考虑,即需要与前面提到的权利内容、权利归属、权利限制和保护期限等规则相呼应。如果我们仅仅授予数据收集者非常有限的排他权(公开传播权),可以将客体要件设置得宽泛一些;相反,如果授予数据收集者相对宽泛的权利,可以将客体要件设置得更为严格一些。同样,权利限制、保护期限等规则也会有类似的影响。遗憾的是,现在学界对数据集合产权保护的基本制度框架远未达成共识,与客体要件配套的其他环节的具体规则尚无处可寻,这导致专门的客体要件研究相当困难。


为了方便后续的讨论,本文假设将来的特殊产权保护仅赋予数据集合非常有限的排他权(公开传播权),给予5—10年的较短的保护期限,承认独立收集、合理使用之类的侵权抗辩,对竞争法或消费者权益保护法上的限制也持开放态度,然后,再在这一假想的制度框架下,讨论数据集合作为特殊产权保护客体应当具备的基本要件。


(三)客体要件分析与行为法保护模式的相关性


在讨论财产权保护模式下的客体要件之前,这里特别强调,即便将来立法者没有选择特殊的财产权保护模式,而是坚持细化现行反不正当竞争法的原则条款,即采用行为法保护模式,本文关于保护客体的讨论依然具有意义。


在反不正当竞争法保护模式下,立法者或法院同样需要定义数据不正当利用行为的边界。以美国典型的NBA诉摩托罗拉公司案为例。该案明确了反不正当竞争法框架下保护事实信息内容的盗用规则的适用条件,即只有满足下列五项条件时,事实数据的利用行为才构成盗用:(1)收集信息需要一定成本;(2)信息的价值具有高度的时间敏感性(highly time-sensitive);(3)相对原告费力的生产或收集工作,被告对该信息的使用构成搭便车(free-riding);(4)被告使用该信息直接与原告的产品或服务竞争;(5)被告的搭便车会损害原告提供产品或服务的积极性,对原告产品或服务的生存或质量造成实质性威胁(substantially threatened)。 


上述典型行为法保护模式定义数据不正当利用行为边界的各项要件,也可以转化为财产权保护模式下数据集合保护的客体要件。比如,第(1)项要件要求收集信息需要一定成本,第(2)项要件要求信息具有时间敏感性,二者均是对信息本身特性的描述,可以直接作为数据集合产权保护模式下的客体要件。再比如,第(3)项和第(4)项要件要求被告与权利人存在竞争关系,同时被告的行为应构成搭便车。此类行为法上的典型要件,表面上仅仅排除了竞争对手,没有排除其他公众。在很多人看来,它的保护范围看起来要比财产权保护模式窄。其实,类似较窄的保护范围在产权保护模式下,可以通过客体定义或限制权利内容的方式实现。首先,如果法律要求受保护的数据条目总数达到实质的量,耗费了实质性的收集成本,同时仅仅赋予权利人公开传播权,意味着被控侵权者总是和权利人一样公开传播实质数量的数据,自然和权利人有竞争关系。其次,被控侵权者避免了实质性的成本支出,因而也几乎总是构成搭便车。毕竟,与权利人无竞争关系的普通公众,几乎没有什么理由要以此种方式对外提供实质数量的数据内容。最后,第(5)项要件要求被告的行为对权利人的产品或服务构成实质性威胁。这一要件在一定情形下同样可以转化为产权保护模式下的客体条件。如后文所述,数据集合保护客体要件中包含付出的收集成本达到实质性的要求。在个案中,法院可以结合行业的具体情况,将这一要求控制在对该行业的“产品或服务的生存或质量”造成实质性威胁的程度。不仅如此,客体要件中对数据量的要求,也暗含行为法保护模式下“造成实质性威胁”的要求,因为如果竞争对手利用的信息数量很少,通常不会实质性损害原告的投资积极性,无需法律提供救济。


上述分析表明,财产权保护模式与行为法保护模式之间的界限,并不像有些学者想象的那样泾渭分明。本质上,财产法并非规制权利人对财产客体的支配行为,而是规制权利人与公众之间的互动行为。只是财产法在定义它所规制的行为时,依赖“客体边界”的表述方式,行为法保护模式则依赖“行为特征”的表述方式。财产法和行为法保护模式下的保护范围,可以大致相当,也可以相去甚远。数据集合保护力度的差异取决于立法者对客体要件、权利内容、权利限制例外的定义,与立法者宏观上选择产权保护模式或行为法保护模式无直接关系。这大概也是知识产权领域商业秘密保护在不同人眼里,既可能是财产权保护模式,也可能是行为法保护模式的原因所在。


既然产权保护模式下客体要件的诸多内容,只要简单变通,就可以作为不正当竞争行为的构成要件,那么即便立法者最终选择行为法保护模式,本文关于数据集合保护客体要件的讨论,依然有助于明确数据不正当竞争行为的边界。该“行为法”保护模式的立法甚至可能像现在的商业秘密保护制度一样,在反不正当竞争法的框架下,依赖“客体要件”的表述方式定义不当行为的边界。诚如此,后文关于客体要件的讨论,可以直接为未来行为法保护模式的立法提供参考。


二、处于公开状态


(一)公开状态要件的合理性


对于企业类主体而言,数据集合的内容在公开前,通常可以作为商业秘密获得保护。该保护及于任何未公开的数据条目内容,自然也包括处于秘密状态的数据集合整体。如果在此基础上,再提供特殊的产权保护,会导致重复保护。迄今为止,最接近数据集合特殊产权保护立法的《欧盟数据库指令》,并没有避免特殊权利保护与商业秘密保护的重叠,日本和韩国的反不正当竞争法保护则相反。欧盟委员会的研究报告认为二者之间的重叠保护并没有带来明显的挑战或改变特殊权利的实际价值,因此不是问题。该报告指出,知识产权领域的重复保护很常见,已经被广泛接受。比如,商业秘密保护和著作权保护,著作权保护与外观设计专利保护都有可能重叠,在一定条件下,它们都可以用来制止未经许可的复制、发行(销售)或传播行为。


的确,知识产权领域的重叠保护,未必会带来严重问题。不过,在数据集合保护方面,本文与欧盟研究报告的意见不同,认为数据集合获得特殊产权保护的前提应该是,它所包含的任意数据条目内容已经处于公开状态。主要有以下三个理由。


第一,数据集合的条目内容公开之前,商业秘密保护机制可以提供有效保护,无需通过特殊产权机制提供平行保护。依据现行《反不正当竞争法》,权利人可以禁止他人非法获取、披露和使用该数据集合中处于秘密状态的数据条目。从公众的角度看,商业秘密保护覆盖了数据集合中任何具有秘密性的条目,自然也限制了他人对数据集合整体的利用。这一保护力度不亚于数据集合保护专门立法或反不正当竞争法对数据集合整体的保护。比如,《欧盟数据库指令》为数据库规定了特殊权利,权利人可以禁止他人获取或利用数据库内容的实质性部分。虽然这一立法被普遍认为给予数据库很宽泛的保护,却没有明显超出商业秘密保护机制的范围。更重要的是,本文主张数据集合的特殊权利为非常有限的排他权,即公开传播权,不包含复制权和使用权等权利,比《欧盟数据库指令》赋予的特殊权利要窄很多。这样,在数据条目内容处于秘密状态时,坚持该数据集合整体应获得商业秘密和特殊产权的重叠保护,并无实际意义。


第二,数据集合任意条目内容公开,对于确定数据集合特殊产权的保护期限具有重要意义。实际上,特殊产权保护在多数情况下只对那些因商业模式需要而公开数据的收集者有意义。从数据条目的公开之日起计算保护期,比较容易操作也更容易公示。如果在秘密状态下就提供特殊产权保护,计算保护期时,将缺乏有效的公示依据,操作起来也比较麻烦。另外,数据集合的保护期比较短,如果收集者在公开商业化利用数据前的准备工作耗时较长,很容易出现数据内容还未公开,特殊产权保护期就已经结束的尴尬局面。这样,数据集合特殊产权保护立法就无法实现预期目的。


第三,特殊产权保护制度的客体范围具有较大的不确定性,避免双重保护可以敦促公众尽可能有效地利用商业秘密保护机制,避免对特殊产权保护制度形成不合理的依赖,从而威胁公共领域的行动自由。商业秘密保护机制要求权利人采取有效的保密措施,对公众而言,客体边界比较清楚,对公共领域的行动自由影响较小。而特殊产权保护机制依赖后文所说的“具有实质量的数据条目”“收集者付出实质性的收集成本”等相对模糊的要件确定客体边界,具有不可避免的不确定性,对公共领域的行动自由影响较大。如非特别必要,我们应尽量避免在秘密状态或非充分公开的情况下,适用这一边界相对模糊的保护机制。


(二)商业秘密保护与特殊产权保护的衔接


过去,很多研究并没有认真考虑商业秘密保护与数据集合专门保护的衔接问题,认识上出现了一些混乱。诸多数据集合的权利人原本可以主张商业秘密保护,却舍近求远,寻求《反不正当竞争法》第2条保护所谓的“数据权益”。著名的淘宝公司诉安徽美景公司不正当竞争纠纷案、北京微梦公司诉北京淘友天下公司等不正当竞争纠纷案就是典型代表。 


除此之外,学界对著名的“顺丰与菜鸟数据争议案”的反应,也反映了上述问题。在该案中,菜鸟公司由阿里巴巴公司牵头设立,从淘宝公司那里获得海量淘宝卖家和买家的交易信息,为多家物流公司提供物流平台服务。菜鸟公司根据卖家或买家的选择,与特定的后续物流平台交接,向后者提供买卖双方的交易信息,以方便后续的物流公司提供服务。顺丰公司是淘宝卖家经常选择的主要物流公司。基于合同,顺丰公司获得菜鸟公司提供的秘密的用户交易信息,随后添加用户后续货物派送、收货确认等方面的信息,并反馈给菜鸟公司。后来,菜鸟公司指控顺丰公司超出合理范围调用淘宝公司用户电话号码等信息并不当使用,威胁数据安全。双方发生争议后,停止向对方提供数据,引发舆论的广泛关注,最终以和解收场。这场争议普遍被新闻舆论和学界贴上数据产权争议的标签,并以此案来说明新型数据产权立法的重要性。其实,本案属于典型的商业秘密许可争议,在法律上并无新意。顺丰公司是否超出约定范围接触并使用菜鸟公司提供的秘密数据,完全取决于二者商业秘密许可协议的约定和《反不正当竞争法》等相关法律的规定。在这一分析框架中,我们无需引入任何新的数据产权制度。


为使两种产权制度无缝衔接,数据特殊产权保护的立法应尽可能采用与商业秘密保护的“秘密性”标准相反的标准定义数据条目内容的“公开状态”。商业秘密保护终止的地方就是特殊产权保护的起点。商业秘密的秘密性是指,该信息作为一个整体并未被相关人员所普遍知晓(generally known)且不能轻易获取(readily accessible)。数据集合内容的公开状态,也应强调该数据集合的任意条目内容被相关公众所普遍知晓或可以轻易获取。比如,大众点评网通过网页公开所有用户对餐饮企业的评价信息;百度地图通过其导航应用向所有用户呈现地图信息。公众通过网络客户端可以随意获取其中的任何一条或部分信息,该数据集合的任意条目内容应视为处在公开状态,无法再获得商业秘密保护。不过,如果数据集合的内容被提供给多个用户,且每个用户都承担保密义务,则该数据集合的内容依然处在秘密状态。即便实际获得该数据内容的用户数量很大,也依然如此。


这里强调的是数据集合的任意条目内容处于公开状态,而非数据集合作为一个整体处在公开状态。实际上,完全有可能出现这样的情况:数据集合的条目内容通过网络对外提供,处于公开状态;但是,完整的数据集合本身并不作为整体对外提供。以前面的大众点评或百度地图服务为例。理论上,公众通过网络可以一个数据条目一个数据条目地下载所有的用户点评信息或地址信息,然后将它们拼凑在一起形成一个数据集合。如果这一过程耗时费力,比如,下载过程不时被网站的技术措施打断而难以为继,则意味着记录该数据集合整体的存储在服务器端的文件本身并不处在可以被轻易整体下载的状态,依然可以作为商业秘密保护。如果他人破坏服务器上的有效保密措施,直接下载含有该数据集合整体内容的文件,可能依然会侵害收集者的商业秘密权益。换言之,这时候,商业秘密保护禁止他人走“捷径”,直接破坏权利人的保护措施下载记录该数据集合整体内容的文件。


“酷米客数据不正当竞争纠纷案”就属于这方面的典型案例。该案中,被告不能直接获得原告存储在服务器端或授权用户客户端的关于公交实时情况的后台数据信息。被告破解了原告客户端安装包,将自己的程序伪装成原告授权客户端,获得后台数据,然后通过自己的服务器向用户提供数据。法院指出:“鉴于‘酷米客’APP后台服务器存储的公交实时类信息数据具有实用性并能够为权利人带来现实或潜在、当下或将来的经济利益,其已经具备无形财产的属性。谷米公司系‘酷米客’软件著作权人,相应的,也就对该软件所包含的信息数据的占有、使用、收益及处分享有合法权益。未经谷米公司许可,任何人不得非法获取该软件的后台数据并用于经营行为。”不过,遗憾的是,法院并没有考虑后台数据构成商业秘密的可能性,而是直接将该数据视为某种无形财产,利用《反不正当竞争法》第2条的原则条款提供保护。


“酷米客数据不正当竞争纠纷案”中被告的数据获取行为不同于通过权利人公开的应用程序界面一点点抓取公开的条目内容,并将它们重新整合成数据集合的行为。后者并不侵害权利人的商业秘密权益。如果寻求保护,需要依赖数据产权的特殊立法。当然,如果后来者从权利人网站下载和拼凑数据的过程并不耗时费力,则意味着公众通过公开渠道就能轻易获得内容与服务器端整体文件相同或类似的文件,也就意味着服务器端的整体文件不具有秘密性,无法作为商业秘密保护。即便如此,公众破坏权利人限制访问的技术措施获取该文件,也并非没有其他法律上的后果。如果权利人通过技术措施识别访问者的身份,限制访问服务器和下载文件的频率,而访问者规避这一技术措施,超出权利人的许可范围下载文件,可能构成“非法获取计算机信息系统数据罪”。 


(三)主动公开与被动公开


数据集合内容进入公开状态有两种途径:一是收集者在经营过程中主动公开。比如,前述大众点评或百度地图对外提供服务,就不可避免地公开很多数据信息。二是第三方未经许可公开,即被动公开。被动公开的常见情形是,数据收集者一开始选择商业秘密途径保护数据集合,但是经营过程中,未采取有效措施阻止数据外泄,或者虽然采取了有力的保护措施,但依然被第三方破解并公开数据集合内容。


按照商业秘密的保护逻辑,追究第三方侵害商业秘密权益的责任,通常可以事前有效吓阻类似被动公开的侵权行为,事后弥补权利人遭受的损害。不对这些被动公开的数据提供额外的数据产权保护,通常不会导致市场失灵。当然,有效的商业秘密保护并不意味着,实践中不会出现天价商业秘密被侵权者公开而无法获得有效救济的个案。实际上,只要商业秘密等产权制度能够将社会公众整体的侵权几率控制在合理范围,就可能是有效的,无需达到杜绝任何零星个案出现的程度,否则可能会因为过度威慑而产生更多的不效率。既然立法者无需为个案被动公开的商业秘密提供事后的特殊产权保护,是否意味着,数据集合的特殊产权保护应同样拒绝保护被动公开的数据集合呢?


理论上,特殊产权保护立法区别对待主动公开与被动公开的数据集合,且拒绝保护被动公开的数据集合,可能会鼓励部分数据收集者更早地主动公开数据,以避免保密失败后被第三方公开的后果。评估这一鼓励公开策略的可能效果,可以参考美国《专利法》“歧视”从一开始意图在商业化过程中对发明保密的发明人的做法。如果发明人在开始商业化利用发明时,选择保密而不是申请专利,法院会将这一商业化利用行为解释为美国《专利法》意义上的“公开使用”。依据法定阻却规则,上述发明人自己的“商业化使用”超过一段时间(如一年),会导致发明人事后无法再寻求专利保护,即便该发明事实上并未被发明人或第三方真正公开。当然,第三方申请专利的机会不受在先发明人秘密商业化行为的影响,即该秘密的商业化行为对第三人而言,并非公开使用。法院这种做法迫使发明人在商业化利用发明时,必须作出二选一的选择:要么立即寻求专利保护,要么坚持商业秘密保护。发明人只能一条路走到底,不能中间切换,即不能先寻求商业秘密保护,等到形势不利时,再寻求专利保护。美国法院不希望发明人有作出选择或两边渔利的机会,希望鼓励他们更多地选择专利保护路径,更早地公开发明内容,而不是充当“潜水艇专利”申请人。不过,这一制度大体上只会促使那些原本就不能长期保密的发明的发明人在商业化利用发明时,更多地选择专利途径,从而产生鼓励公开的效果;如果是原本就能长期保密(接近或超过发明专利权保护期20年)的发明,其发明人不受影响,会选择保密。


对照美国《专利法》的做法,我国是否有必要在数据特殊产权保护中“歧视”初始试图保密而事后被第三方公开(被动公开)的数据集合,以鼓励数据收集者更早地公开数据呢?权衡各项利弊,本文认为,没有必要这么做。


首先,数据集合与技术发明的本质属性有明显差异,“歧视”数据收集者的初始保密行为,难以有效实现鼓励公开的目标。在技术发明领域,他人可能做出相同或类似的发明,是影响原始发明人选择申请专利而不是商业秘密保护的关键因素。在这一背景下,“歧视”发明人自己的秘密商业化行为,可以促使部分发明被提前公开,从而增进社会福利。在数据集合领域,在商业模式不要求收集者公开数据内容的情况下,他人收集到相同内容的数据集合并公开的威胁很小;同时,数据集合内容公开后只能受到有限排他权的保护,比商业秘密保护要弱很多。因此,与发明人面临的技术竞争背景不同,数据收集者很少会因为担心被动公开不受保护而选择主动公开数据集合内容以寻求更弱的特殊产权保护。这意味着,特殊产权保护立法“歧视”被动公开数据集合所产生的鼓励主动公开的效果,相较于美国《专利法》“歧视”发明人初始秘密商业化利用鼓励技术公开的效果,微乎其微。


其次,保护被动公开的数据集合对公众在公共领域行动自由的影响非常有限。著作权法与数据集合的特殊产权保护机制接近,但是著作权法没有区别对待主动公开和被动公开的作品。只要作品创作完成,无论是否为作者自己公开,都自动获得保护。个别情况下,作品是否发表,会影响著作权保护期限的计算。但是,著作权法并没有区别对待权利人主动发表或被动发表(被第三人发表)的作品。这意味着,著作权法并不需要依赖作品的被动公开实现公共政策目标。与此类似,数据集合的特殊产权保护立法也无需依赖数据集合的被动公开实现公共政策目标。如前所述,数据集合的特殊产权保护立法仅赋予收集者非常有限的排他权(公开传播权),对公共领域普通公众行动自由的影响甚至小于著作权法保护普通作品所产生的影响,可以忽略不计。允许他人自由传播被动公开的数据集合的内容,除了有利于竞争对手搭便车外,无法满足更多的公共利益需求。


再次,不保护被动公开的数据集合会损害原本计划公开利用数据的数据收集者的利益,迫使他们在公开前强化保密措施,从而增加经营成本。从数据收集完成到公开商业化利用,可能有相当长的时间间隔或诸多流通环节。如果这一过程中的被动公开会导致收集者失去特殊产权的保护,无异于惩罚收集者及其合作伙伴在公开商业化利用前采取的保密措施不够有效。为了避免被他人公开的不利后果,收集者会在数据采集过程中投入更多资源采取更严厉的技术措施和管理制度。相反,如果对被动公开的数据集合也提供保护,可以降低数据收集者公开商业化利用其数据资产前的投资风险和保护成本。


最后,数据特殊产权保护不刻意区别对待主动公开和被动公开的数据集合,可以降低这一制度的管理成本。在个案中,当事人无须就主动公开或被动公开的细节举证,法院也无须审查这些证据。这就降低了这一特殊产权制度的管理成本,节省了整个社会的资源。


三、具有实质量的数据条目


(一)条目数量要件的正当性


现行著作权法下,普通数据信息一旦被公开,除非落入著作权法保护范围,否则,其传播和利用就不再受到限制。比如,技术信息、科学实验数据和商业经营信息(如股票指数、客户名单等),即便生产或收集耗费了巨大成本,一旦公开就进入公共领域。之所以如此,可能有多方面的原因:首先,如前所述,在多数情况下,商业秘密保护机制在此类数据信息公开之前,已经提供了相对有效的保护,无需在数据信息公开后再提供补充性的产权保护。其次,保证这些处在公开状态的数据信息的自由传播,有利于保障公众的创作和表达自由。普通公众会以各种方式接触、传播并利用这些公共领域的数据信息,对这些数据信息提供产权保护,会大大增加社会的整体成本。最后,在此类处于公开状态的数据信息上设置额外的产权保护,操作成本高昂。在数据量不大的情况下,这些信息缺乏鲜明的个性特征,很难与特定的收集者建立关联,确定权利归属与认定侵权行为相对困难。


为了克服上述难题,将来的数据特殊产权保护应当要求,获得保护的数据集合应当具有实质量的数据条目。原因如下。


首先,随着数据量的增加,数据集合的商业产品色彩将更加明显,商业价值也随之增加。从保护言论自由或表达自由的角度看,言论越具有商业性质,市场就越能促进此类言论的产生,产权保护对该言论进行限制的寒蝉效应就越小,产权保护的正当性随之增加。法律限制此类言论或表达,不会轻易导致这类言论或表达销声匿迹。相反,后续的表达者很可能基于商业利益的需要,越过成本障碍,对外发表该商业言论。


其次,保证受保护的数据集合的规模或篇幅远超普通作品所包含的数据条目的数量,可以避免对普通公众的创作和表达自由产生负面影响。数据集合保护本质上是对不具有独创性的数据或事实的集合提供保护,如果保护数据数量的门槛过低,会大大妨碍公众利用公共领域数据信息创作普通作品,产生巨大的负外部性。相反,规定受保护的数据集合的数据规模远超普通作品中的数据量,这一负外部性将随着数据数量的增加逐步减弱。原因是,公众原封不动地利用海量数据进行再创作或言论表达的需求随之降低。实际上,在普通作品中,公众使用数据条目的数量远远低于受保护的数据集合的数量,所以不用担心特殊产权保护影响他们的行动自由。


最后,数据规模的增加也强化了设立特殊产权保护机制的正当性。一方面,数据规模的扩大增加了数据集合的价值,也增加了社会容忍产权制度负面影响的意愿。另一方面,确定客体边界、权利归属和认定侵权行为将变得相对容易,特殊产权保护制度的管理成本也将大大降低。


与本文的建议不同,其他法域现有的保护公开数据条目或小规模数据集合(数据库)的法律制度,如美国法的“热点新闻规则”和《欧盟数据库指令》的数据库保护规则,都没有明确提出数据量方面的要求。如果这些做法具有内在的合理性,那又如何理解本文的建议与这些规则之间的明显差异呢?


其实,美国法的“热点新闻规则”并非专门针对大规模数据集合保护的产权规则,仅仅是在著作权法外保护单纯事实新闻或小规模数据集合的例外规则。如前所述,在著作权法框架下,单纯事实消息或数据集合(假定不具独创性)不受保护,否则会损害公共领域的创作自由和表达自由。而“热点新闻规则”是这一原则的例外,直接保护单纯事实消息。比如,证券市场小规模的公开交易信息或实时新闻消息,其负面影响不言而喻。因此,美国法院为这一保护设置了极为严格的限制要件。如前所述,在著名的NBA案中,法院指出,只有满足信息收集需要一定成本、信息具有时间敏感性、被告行为构成搭便车、双方存在直接竞争关系、实质损害原告积极性五项条件,事实信息才能获得保护。其中,信息具有时间敏感性的要求大大限缩了受保护信息的范围和期限,从制度上保证了这一例外规则对著作权法所维护的公共领域行动自由的损害被压缩到最小。


本文所关注的多数普通的数据集合,通常不具备热点新闻的时间敏感性,需要获得相对较长期限的保护。比如,前文提到的大众点评类、百度地图类、法律法规类的数据集合。特殊产权保护失去时间敏感性要求的限制后,立法者替代性的选择之一就是要求数据集合的数据条目数量达到一定标准,使受保护的数据集合客体远离普通公众创作所需的事实消息或小规模数据集合的范畴,从而避免过度损害公共领域的表达自由。


与美国法的“热点新闻规则”不同,《欧盟数据库指令》的特殊权利保护规则更接近本文所说的特殊产权保护立法,对耗费实质性资源的“独立作品、数据或其他材料的系统或有序地排列的集合”提供保护。《欧盟数据库指令》要求数据库的制作者在获取、核实或呈现(obtaining, verification or presentation)数据内容的过程中付出了“实质性投资”(substantial investment),对数据集合本身并没有直接提出数据量的要求。过去有学者甚至认为,该数据库可能包括单个网页内容,因为它包含所谓的文字作品、图片、视频、音频信息甚至计算机程序等版权或非版权内容的组合。该指令第8条从权利限制的角度规定,数据库的制作者不得阻止他人获取和利用数据库中的非实质部分(insubstantial parts of its contents, evaluated qualitatively and/or quantitatively)。这更多是指受保护数据库的非实质部分可以自由利用,而并非对数据库本身的绝对规模提出量的要求。


未明确数据集合的数据数量要件是《欧盟数据库指令》的明显缺陷之一。这导致数据库的保护门槛过低,保护范围太广。比如,在Kindnet.de案中,原告核实和收集了251个关于家教和自助群体的网站链接信息,德国法院认为原告的投入满足实质性投资的要求。251个网站链接的数据集合即满足保护要求,这一门槛几乎等同于普通作品的投入门槛。含有数百条数据条目的普通作品是非常普遍的。该集合的数据条目数量没有显著超过普通作品中的数据条目规模,如果给予保护,如前所述,会威胁公共领域个人的创作和表达自由。


《欧盟数据库指令》的“实质性投资”要求不能替代数据条目数量要求,消除产权保护对公共领域个人创作和表达自由的威胁。比如,技术性信息数据条目的量可能相对有限,但获取该数据所耗费的投资可能巨大。对于此类数据信息的社会共识是,它们一旦被公开,就不应该在商业秘密保护法或专利法之外获得额外保护,否则公众会随时担心自己从不同渠道获知的公开信息是否可以利用或公开传播。为了弥补单一的“实质性投资”要件的不足,欧盟法院(CJEU)后来在个案中解释“实质性投资”要件时,认为它仅仅包括收集者收集和整理已有数据方面的投入。在大多数情况下,这等于变相地要求数据量必须达到一定量,否则该收集或整理工作很可能被认定为未作出实质性投入。不过,这依然不能完全替代数据条目的量化要求。很多时候,有限数量数据条目的集合也可能耗费收集者实质性的投入。比如,数十条数据条目中的每一条都可能需要耗费相当的搜寻成本,才能被收集起来。这时候,该数据集合可能越过实质性投入的门槛,但是,可能依然没有超过本文所主张的最低数据量的门槛。当然,反过来,数据集合满足了“具有实质量的数据条目”要件,也未必当然满足“耗费实质性的收集成本”要件。比如,利用通用的网络爬虫技术从单一不设防的网站下载海量数据,可能并未耗费收集者(爬虫控制者)的实质性资源。


因此,本文认为,对数据集合数据条目的数量设定量化要求,并非是变相的“实质性投资”要求,而是具有独立存在价值的要求。要求“数据量应远超普通作品”,法院在划定数据集合客体边界时,就有了明确的方向。


(二)条目数量的量化标准


“具有实质量的数据条目”标准有一定的模糊性,是产权制度不可避免的缺陷。日本田村善之教授就认为,产权机制难以处理数据集合客体范围不清楚的难题,并建议利用行为法保护模式保护数据集合,即要求权利人采取技术措施,第三方才构成数据收集者权利的侵害。如果数据集合处于秘密状态,田村善之教授的思路自然没有问题。只要第三方破坏了技术措施接触了该数据信息,就触犯了权利保护的边界。如果数据收集者的商业模式导致其必须公开数据,则通常很难单纯依靠技术措施是否被破坏判断竞争对手的行为是否越界。另外,即便技术措施能够限制数据获取,但是任由收集者单方面定义可以利用的公开数据的数据量的界限,也可能过度限制了公众在公共领域的行动自由,不是合理的方案。因此,日本《反不正当竞争法》虽然最终采纳了行为法保护模式,但是依然要求数据具有相当的数量。


有意思的是,日本法对于相当数量的要求是保证数据“存储到能产生价值的数据量”。因此,“相当数量要根据各个数据的性质,对通过电磁方法储蓄数据后产生的附加价值、利用可能性、交易价格、收集和解析时投入的劳力、时间和费用等因素进行考虑。”这本质上还是要求被保护的数据集合具有实质性的商业价值或耗费了实质性的收集成本,与本文所主张的数量要件的立法目的有明显差异。如前所述,日本这一思路与《欧盟数据库指令》思路的共同缺陷是,在单个数据收集成本较高的情况下,保护的数据量门槛可能会降低,从而不能有效保证公共领域的行动自由。不过,在认定后文所述“付出实质性的收集成本”要件时,可以参考日本法所罗列的评估数据数量要考虑的上述因素。


“具有实质量的数据条目”标准如何进一步量化,并不容易。不同领域数据集合内容的差异较大,保护这些内容对公共领域行动自由的威胁大小不一,竞争对手搭便车导致市场失灵的可能性也不尽相同。立法者不可能为各行各业数据集合的“具有实质量的数据条目”要件制定统一的量化标准。就像著作权法不能为各种类型作品的独创性要求(“最低限度的创造性”)设置更为具体的量化标准一样。此外,科学技术的进步也会使公众利用数据的方式和范围发生巨变,这就要求随时调整数据集合条目数量的量化标准。


在缺乏具体立法指引的情况下,我们不可避免地要依靠法院在个案中的具体裁量。在个案中,法官暂时选择的标准既可能导致过度保护,也可能导致保护不足。不过,法院会根据社会的反应逐步调整并建立具有指导意义的标准,进而形成稳定的社会预期。这很像著作权法下作品“独创性”的判断。它也没有量化标准,依靠法官的自由裁量,但一般我们并不认为“独创性”标准不可操作。比如,其实我们并不确切知道最低多少个汉字的组合会成为具有独创性的文字作品,多少线条或色彩的组合能够成为一幅受保护的美术作品。但是,我们通常相信法官根据相关领域作者的共识,能够在个案中判断有一定篇幅的文字作品或比较复杂的绘画作品等是否具有独创性。尽管在边缘地带法官的判断会引发争议,比如数个汉字组成的短语、简单的几何图案,我们可能并不确定它们是否具有独创性,但这一不确定性并没有从根本上动摇我们对著作权制度的信心。


这里强调数据条目的数量,而非单个数据条目本身(或条目内部)的数据量。理论上,有些数据集合单个数据条目的信息量可能就很大。比如,视频汇总类的数据集合中,单条视频的数据量就轻松超过1G(1,073,741,824字节)。但是,在此类数据集合中,该条视频不过是一个数据条目,相当于数据集合中的一个数据黑点,与用户信息类数据集合中一条只有几百字节的数据条目并无本质差别。这里关注的是数据条目的数量,而不是单个数据条目的数据量。


在未来的司法实践中,作为一项原则,法院应确保受保护的数据集合的数据条目的规模远超出普通作品(包括汇编作品)中所包含的数据条目的数量,避免损害著作权法的公共政策目标。以法律信息类数据集合为例,全国领先的北大法宝的法律法规数据库过去的光盘版数据规模大致是“20多万篇,5亿多个汉字”。从数据条目数量要件的立法目的看,它并不要求此类受保护的数据集合也要达到类似的商业规模,实际上应该低很多,达到千条以上就能远超公众在普通作品中利用的数据条目的量,就能满足数据条目最低量的要求。具有商业规模的网站所收集的用户个人信息或交易数据、大众点评或微博网站收集的用户创作内容、全国性新闻网站收集的海量新闻报道等,其条目数量可能要达到上万条或几十万条才能与传统作品(如词典、电话黄页或百科全书类作品)拉开距离。


在上述量化标准下,一些常见的有限数据条目的集合,比如,电视台的电视节目表、普通单位的电话号码本、NBA或CBA某个赛季的比赛安排表、有限的作品汇编、单个科研项目产生的有限实验数据之类的数据集合,就可能无法达到本文主张的量化要求。曾经引发广泛讨论的“广西电视节目表案”涉及的每周电视节目表信息,就是典型的例子。该案中,法院认为中央电视台每周电视节目表不具备独创性,但属于受保护的劳动成果。从数据集合保护的角度看,该节目表明显不能满足数据量的要求(其实是否满足后文所述的“付出实质性的收集成本”要件也存在疑问)。它甚至不及普通作品所包含的数据条目的数量,就更不及大数据时代典型数据集合所包含的数据条目数量了。因而,该案只能依据传统知识产权法规则来处理,结论是:该电视节目表的数量太少,不应受到保护。


最后,有必要强调一下,在个案中,法院应关注的是被告抄袭的数据条目的数量,并以此判断该数据集合是否可以获得产权保护,而不是直接依据原告收集的所有数据放在一起时的规模,来判断争议的数据集合是否受到保护。这与著作权法在判断作品独创性时,仅仅关注被告抄袭的作品内容是否有独创性,而非原告完整的作品的独创性的道理是一样的。 


(三)一定时段内的累积数据


在确定数据条目的数量时,还需要考虑数据条目在时间维度上的累积问题。有些数据收集者持续地产生数据条目并逐步对外公开(数据流),他人则亦步亦趋地对外传播该数据条目,但并不长期传播历史数据条目,只利用有限的最新数据条目。比如,北京阳光数据公司诉上海霸才数据信息有限公司案中,被告每天使用原告提供的实时金融信息数据;美国International News Service v. Associated Press案中,International News Service每天抄袭的事实消息。假设数据的使用者,在单位时间内(如每天)使用的数据条目的数量没有达到数据集合数据条目的最低量化要求。这时候,收集者是否可以将使用者在一定时间段内使用的数据条目累积起来作为数据集合主张权利?


本文认为,使用者在任意单位时间点上利用的数据条目数量,只要没有超越最低的量化门槛,就不能将其累积起来作为数据集合主张权利。这时候,使用者在单位时间点上利用的数据数量仅停留在传统作品可能含有的数据条目的数量范围内,依据传统的著作权法,使用者享有公共领域的行动自由,不应受到数据集合特殊产权保护制度的约束。如果特殊产权保护制度保护纵向时间维度的累积数据,会导致著作权法刻意维护的传播自由被特殊立法禁止。在极端情况下,如果法院认为迫切需要限制此类小规模数据利用行为,或许可以发展出类似美国法上的“热点新闻规则”,将这类保护限制在非常窄的范围和非常短的时间内。


此外,如果保护纵向时间段内累积利用的数据条目,数据产权边界的不确定性也是全新的挑战。公众在特定时间点并不清楚自己所利用的数据从何时开始累积计算,到何时结束,难以预测自己利用少量数据的行为是否会侵害数据集合收集者的特殊权利。


最后,上文所述的时间段内的累积数据,是从数据使用者(被告)的角度,而非收集者的角度而言。收集者跨越一定时间段收集收据条目,是司空见惯的做法。当然可以将这些跨越一定时段的数据条目集合起来加以保护。具体个案中,争议的是被告使用而非原告实际收集的数据集合是否符合客体要件。这与著作权侵权认定环节,法院仅仅关心抄袭部分是否构成作品的道理是一样的。


四、付出实质性的收集成本


(一)要求成本的原因


数据集合要获得保护,还需要满足另一要件,即数据收集者为收集工作付出了实质性的收集成本。只有收集者作出了实质性的投入,法律才有必要给予一定程度的保护,以维护收集者的投资积极性。也只有在这种情况下,竞争者才能通过抄袭数据而获得一定的竞争优势。如前所述,很多时候,数据条目的数量与收集成本之间没有直接的对应关系,因此,需要将二者作为相互独立的要件对待。如前文提到的例子,收集者利用爬虫程序从政府部门的个别服务器上自动下载已经公开的数据,然后将它们简单拼凑在一起,成为一个新的数据集合。该数据集合即便满足了数据条目的量化要求,其收集成本也可能未达到实质性的程度,因而无法获得特殊产权保护。


数据产权保护要求收集耗费实质性成本,与传统著作权法的低投入门槛形成鲜明对比。著作权法仅仅要求作品具有独创性,至于它是否耗费实质性成本,在所不问。为什么著作权法可以如此,而数据产权保护不可以呢?比如,数据条目达到实质数量后,无论是否耗费了实质性成本,都给予产权保护?


本文认为,决定耗费实质性成本标准高低的关键因素应该是,产权保护对公共领域的负面影响和产权制度的管理成本。为较低投入标准辩护的主要理由是,降低保护门槛并会不限制公共领域的自由,因为公众自行收集相同数据的自由不受影响。这一思路明显带有著作权法的痕迹。在著作权法体系下,有独创性但创作成本很低的作品依然可以获得保护。比如,儿童随意创作的画作或摄影外行者拍摄的普通照片,依然能够获得著作权保护。这之所以不是问题,是因为在绝大多数情况下,作品的独创性要求和“思想表达二分法”规则保证公众有充分的选择,公众通常也无需依赖特定的作品来实现自我表达。同时,著作权法合理使用规则也豁免了一些作品利用行为,避免了某些市场失灵。因此,即便该作品没有耗费实质性的创作成本,而对它进行保护,对后来者的影响也微乎其微。


数据集合在这一点上与普通作品存在很大差异。数据库市场上数据信息的来源通常比较单一,难以通过替代性的渠道获得。同时,很多数据集合中的条目常常为单纯事实、交易信息或科学数据类信息,达到一定规模后,对外提供能够满足很多后续非表达性的衍生用途。在这一意义上,数据集合更接近功能性或实用性产品,公众对数据集合内容的依赖程度明显高于对充满个性的特定作品表达的依赖。对于很多单一来源的数据信息,社会的替代性选择就更少了。限制后来者传播这些数据,会造成公众后续利用这些数据机会的负面影响。如果收集成本很低,收集者无需激励时,迫使公众自行收集,或者越过交易成本障碍,获得收集者的使用许可,是不效率的安排。保护数据集合的外部性将轻易超出著作权法保护作品表达的外部性。


“具有实质量的数据条目”要件在一定程度上降低了数据集合特殊产权保护对公共领域行动自由的威胁,但还不够。“具有实质量的数据条目”要件主要考虑的是普通公众表达自由的需要,要求数据条目的数量远超普通作品所含的数据条目量。这一要求未充分考虑不同领域数据收集和利用的需求。在网络时代,利用互联网或物联网平台自动收集的数据集合的规模和企业利用数据的规模都远远超过传统行业。数据条目数量的限制要件对网络行业而言,并不总是构成有意义的筛选指标。很容易出现这样的局面:部分越过“条目数量”门槛值的数据集合,可能并不需要实质性的收集成本,因而收集者并不需要依靠特殊产权保护来获得回报;与此同时,保护此类数据集合可能导致潜在的使用者被迫负担交易成本以获得许可,或者因为交易成本而放弃使用该类数据集合,或者重复投资收集类似数据。为了避免这些产权保护的负面后果,立法者有必要在数据条目数量门槛之外,单独提出付出实质性收集成本的要求,为立法目标的实现提供双重保险。


坚持较低付出实质性收集成本标准的意见还可能认为,不通过付出实质性收集成本要件排除部分客体,依然有替代性的选择降低数据集合产权保护的负面影响,如通过合理使用等例外规则排除部分利用行为,从而降低数据集合产权保护的社会成本。如果收集者的数据收集成本较低,而后来者传播该数据集合有一定的社会价值,但交易成本较高,法律可以规定此类利用行为属于合理使用,从而避免市场失灵。这类似于著作权法的做法:保护低成本的作品,然后利用合理使用或法定许可制度等消除市场失灵。不过,如前所述,数据集合体现的个性化表达有限,公众对数据内容的依赖很容易超出他们对普通个性作品表达的依赖。在数据集合领域,依赖模糊的合理使用制度消除可能出现的市场失灵,可能比在著作权领域这么做产生更多的危害。这时候,直接提高数据集合保护的投入值门槛,避免保护低收集成本的数据集合,增加法律的预见性,是更有效率的做法。


(二)区分生产成本与收集成本的原因


在考虑收集者的投入时,我们需要区分数据条目的生产成本和数据集合的收集成本。数据条目的生产成本是指条目从无到有过程中发生的成本;数据集合的收集成本是指将已经存在的数据条目收集汇总成数据集合这一过程中发生的成本。很多时候,单个数据条目本身的生产过程就耗费甚大。比如,体现商业经营策略的核心秘密信息可能耗资数十万元;视频数据库中一个电影条目的拍摄可能需要数百万元;有良好市场前景的应用材料或药物核心配方的研发费用可能需要上千万元。无论这些数据条目从无到有的过程耗费了收集者或第三方多少生产成本,一旦公开,只要未获得现有知识产权法的保护,就自动进入公共领域。该数据条目生产成本的大小,并不影响这一结果。


在判断收集者是否付出实质性的收集成本时,无需考虑数据条目自身的生产成本,仅需考虑数据条目收集工作所耗费的成本。这么做的合理性,可以从欧盟法院(CJEU)在数据库保护方面的案例中寻找。早期的重要案例是Fixtures Marketing系列案,欧盟法院明确指出,《欧盟数据库指令》要求的实质性投资不包括用于生产数据库中数据材料的投入。原告为确定足球联盟比赛赛程安排表中的比赛日期、时间和队伍信息所付出的资源,并不属于该指令所说的受保护的投入;在此基础上,原告在获取、核实或呈现数据库内容过程中的投入也没有满足实质性投资的标准。在后续案例中,欧盟法院继续依据衍生学说(Spin-off doctrine),认为那些并非专门为制作数据库而作出的投资,并非《欧盟数据库指令》所要保护的用于获取和核实数据库内容(obtaining and verification of the contents of the database)的投资。相应地,数据库的保护并不延及数据库中的数据条目本身,即便该信息条目本身是全新的内容。在Ryanair案中,欧盟法院认为该案诉争的航空公司的航班信息(一般认为是单一来源信息)数据库,是航空公司正常经营的副产品,航空公司没有为此作出实质性投资。在英国著名的“赛马日程信息案”中,欧盟法院认为赛马活动的组织者对上百万马匹信息和比赛信息的收集和核实,并非《欧盟数据库指令》获取和核实数据库内容方面的实质性投资。欧洲多国国内法院也有类似判决。比如,在荷兰“公共商业广播组织NMA电视节目表案”中,一审法院认为编制电视节目表的投资并非《欧盟数据库指令》保护的投资。海牙上诉法院也认为这只是电视台常规活动的副产品,不是《欧盟数据库指令》意义上的实质性投资。 


欧盟法院个案中的结论或许没有什么问题,但是法院论证区分数据条目本身的生产成本和数据集合的收集成本的理由,并不十分令人满意。法院并没有进一步说明,为什么数据库特殊权利不保护数据条目这一事实就导致法院在分析收集者是否付出实质性收集成本时不能考虑该条目信息自身的生产成本。有意见认为,欧盟强调数据创作成本和收集成本,是为了避免单一来源数据的后续利用被垄断。单一来源数据的收集者通常为生产数据支付实质性成本,否认这一成本的相关性,在一定程度上削弱了它受到的保护,从而使公众更容易利用该数据。本文认为,更合理的解释可能是,在多数情况下,生产数据条目的成本,可以通过现有的商业秘密保护制度、著作权法或专利法等保护机制收回,无需特殊的数据产权保护机制提供激励。比如,前文提到的耗费实质性成本的经营信息、药物配方或电影作品等数据条目。如果现有知识产权保护机制对这些数据条目生产者的激励不足,立法者可以直接修改现有知识产权规则,无需通过新的、额外的产权保护机制提供激励。因此,在现有知识产权保护机制的基础上,数据集合产权保护机制仅需关注数据集合本身的收集成本及相应的回报机制,无需关心单个数据条目的生产成本。换言之,要求实质性投入必须用于数据集合的价值增值部分,符合数据特殊产权保护的立法目的——促进数据收集者的积极性。 


不对公开的数据条目或小规模数据集合提供额外的产权保护,可能出现这样的情况:数据条目本身的生产成本很高,其虽然可以作为商业秘密保护,但是却很难通过许可或转让机制获得合理回报,同时也可能大大限制了公共利益的实现。比如,每天的天气预报信息,城市交通路况信息,热点新闻类消息等,生产者很难按照商业秘密商业化路径获得回报。这时候,决策者可能会选择政府资助提供公共物品或公共服务的模式组织此类数据的收集与发布,而不是依靠产权保护机制提供激励。当然,决策者的另一选项就是前面提到的美国法下的“热点新闻规则”模式,在具有高度时间敏感性消息公开后,提供非常有限的保护,以保证收集者可以收回投资。理论上,决策者可以让这类例外的保护机制与本文所关注的数据集合产权保护机制平行存在,各自适用于不同规模的数据集合,而不必彼此相互重叠。


(三)收集成本的范围


在说明区分数据条目生产成本和收集成本的必要性之后,应关注操作性问题,即如何区分数据条目的生产成本与数据集合的收集成本。


在数据条目的生产者与数据集合的收集者相互独立,数据条目产生前没有直接关联时,区分这两类成本并不难。比如,法律法规类数据库,收集者收集已有的法律法规内容,收集成本与法律法规作为数据条目的生产成本的界限非常清楚。再比如,视频分享网站中,用户独立制作视频并上传,网站提供存储服务和对外发布服务。用户制作单个视频文件的投入与网站收集视频内容的服务成本有清晰的界限。类似地,微信类社交平台内,用户相互之间交流产生的数据条目的生产成本完全独立于平台的收集成本。


不过,如果网络服务商向创作数据条目的用户提供某种物质激励,或以某种方式参与数据条目的创作过程,服务商的部分投入可能成为数据条目生产成本的一部分。比如,视频分享网站可能以现金奖励或广告费返还等方式分担部分用户的创作成本;电子商务平台为吸引用户使用自己的网络平台进行交易,可能提供补贴或者其他物质帮助,从而促进用户交易信息数据条目的产生。这一类成本虽然由数据收集者负担,但依然只能视为数据条目的生产成本。收集者如果希望就这一部分成本获得回报,可以和用户就数据条目的知识产权归属作出约定。比如,规定收集者对受资助的数据条目享有某种排他性的使用权或作出其他符合收集者商业目的的安排,而无需依靠数据集合的产权保护机制收回上述成本。


在数据条目生产者与收据收集者相互独立时,数据收集者还常常为维持网络平台的正常运作和市场竞争力,耗费大量资源采购设备,租用办公场所,支付人员工资等。这些资源投入并不指向特定用户的创作过程,也并非单纯的数据收集成本。这时候,要刻意识别出那些与数据收集工作直接有关的投入,即便可能,也非常困难。毕竟,创造一个有竞争力的网络平台是吸引用户使用该平台的前提,也是收集用户数据的前提。换言之,这些投入是平台商业模式自身的需要,也是在为收集用户数据作物质准备,二者之间并不存在截然的界限。个案中,法院可以根据数据收集工作在网络平台业务中的比重、相关投入与数据收集工作的相关性、社会平均收集成本等因素确定收集者的合理收集成本。如果数据收集工作在平台业务中的比重很大,资源投入与数据收集工作关系密切,经营成本可能被视为收集成本。法院参考社会平均的收集成本,可以避免个案中认定收集者效率过高或过低,从而导致投入成本被过低或过高计算的问题。


在数据条目生产和数据收集主体合二为一时,数据条目的生产成本和数据收集成本之间的界限非常模糊。前面提到的欧盟法院处理的“航班信息案”“赛马日程信息案”等,就属于这种情形。航空公司或赛马机构为了正常运营,必须确定自己的航班或赛马日程信息,然后汇总这些信息并及时对外提供。如前所述,欧盟法院认为,这些并非专门为制作数据集合而作出的投入,不属于《欧盟数据库指令》所保护的投资。换言之,经营者在从事其他经营活动时几乎自动生成的数据集合,作为其他活动的副产品,不受保护。 


理论上,允许法院在个案中考察收集者是否出于正常经营之目的收集数据条目,并区别对待基于不同目的而产生的数据集合,可以避免保护某些不需要保护的数据集合。处在两个极端的数据收集者,可能相对容易判断。比如,航空公司或赛马组织为了拓展现有业务,本身就有充分的收集动机和公布动机,是无需特殊产权保护的典型代表;大众点评或百度地图之类的网络平台则需要额外产权保护以保护其投资积极性,是需要特殊产权保护的典型代表。处在这两类典型之间的多数数据收集者,则较难判断其正常业务是否提供了足够的收集动机和公开动机。比如,收集海量病人病历的医院;收集海量用户信息的社交网络服务商;收集海量在售商品信息的电子商务平台;等等。如果允许法院在个案中判断数据收集是否为收集者的附带业务而无需产权保护制度提供激励,实际上是让法院判断现有市场环境下的数据收集激励机制是否处于最优状态。这会大大增加特殊产权保护机制的信息成本,并带来新的不确定性。更合理的选择是,让法院从社会的角度判定数据集合的收集工作是否耗费了实质性的成本,即假定正常合理人从事相同的收集工作,是否会耗费实质性的收集成本。如果答案是肯定的,则认定实质性收集成本要件得到满足,而不是在个案中逐一分析收集者是否已经从自己经营的主业收回了收集成本。


当然,部分收集者基于经营主业的需要而有充分动力收集并对外提供数据,对其提供额外的产权保护,会在一定程度上限制数据集合的后续传播,产生负面影响。不过,由于本文建议的保护仅仅限于公开传播权,在收集者已经对外公开提供的情况下,产权保护的负面影响有限。同时,额外的产权保护使对外授权使用数据集合成为收集者新的收益渠道,会促使收集者更及时、更全面地对外提供数据,降低数据收集者采取技术措施的意愿。这对社会也是有益的。


按照上述分析思路,本文认为,欧盟法院上述意见并未严格贯彻区分数据条目生产和收集成本的二分思路,有改进的必要。以“航班信息案”为例,在上述案例的争议背景下,单个航班信息可以视为数据条目,多个航班信息汇总或列表可以视为数据集合。航空公司为确定航班时间、机型、起降机场、检票口等信息付出的投入,属于数据条目生产所付出的成本,而将一个个航班汇总所支付的成本,属于数据收集的成本。只要汇集这些数据付出了实质性成本,就可以获得数据集合的保护。即便航空公司汇集这些航班信息的数据条目,是出于正常经营之需要,也不影响这一结论。当然,本文并不认为上述欧盟案例中航空公司或赛马组织的数据集合就一定能够越过数据条目数量和实质性收集成本的双重门槛,这需要在个案中具体分析才能得出结论。如果此类数据集合的数据量较少,则航空公司或赛马组织的收集成本大多不是实质性的。


(四)收集成本的标准选择


如何确定收集成本应达到的“实质性”程度,是一个难题。《欧盟数据库指令》“实质性投资”的要求,可以从质和量两个维度认定。一般认为,《欧盟数据库指令》所说的投资可以是资金,实物或人力。量的维度,是指可以量化的资源(人力或物力)的投入要达到一定的量;质的维度,通常是指投入的人力或物力难以量化,但是具有较高的品质。《欧盟数据库指令》关于实质性投资要求没有更具体的规定,很多意见从该指令的序言出发,认为较低的投入就可以。不过,序言文本所表达的意思并不清楚,上述意见的说服力有限。迄今为止,欧盟法院也没有提出明确的量化标准。因此,对于该指令究竟是坚持较高的投入标准还是较低的投入标准,欧洲学界存在巨大分歧。主张坚持较低投入标准的意见认为,这使较小规模的数据库可以获得保护,有利于激励中小规模的投资者制作小规模数据集合,繁荣数据库市场。在他们看来,较高投入标准对大企业有利,容易导致垄断,会导致数据公开被延迟(等到达到较高标准要求时才公开)。同时,较高标准到底要多高,有更大的不确定性,等等。主张坚持较高标准的意见则认为,只有较大的投入才值得特殊产权的保护,这样可以避免公共领域被过度侵占等。 


有学者指出,欧洲成员国法院整体而言偏好较低标准。这一方面最为极端的代表性案例是前文所述的德国的Kidnet.de案。在该案中,原告核实和收集了251个关于家教和自助群体的网站链接信息,法院认为原告所作出的投入满足了实质性投入的要求。显然,这里原告仅仅收集了251条网站的链接信息,其收集成本接近最普通作品的创作成本。在较低标准下,可能几个小时的时间投入就可以满足最低投入标准。只有那些小规模的私人地址信息列表或名人名言录(bon mots),才无法满足最低要求。 


虽然本文认为实质性的收集成本应该坚持相对较高的标准,但并不主张立法者应该为“实质性收集成本”设置统一的量化标准。相反,我们只能依赖法院在个案中考虑不同行业的实际需求进行裁量,然后逐步建立共识。这里应该坚持的原则是,该数据集合的收集成本相对该行业典型经营者在数据收集方面的投入规模而言,应达到实质性的比例;相应地,竞争对手的搭便车会获得实质性的竞争优势。不同行业在数据收集方面的投入规模有很大差别,对竞争对手搭便车行为的敏感性也不同,因此,不同行业“实质性收集成本”的绝对门槛值也不同。如前所述,日本法在确定受保护的数据集合的数据数量要求时,要求法院考虑数据集合的行业性质、数据集合后的附加值、利用的可能性、收集时的劳力和资本投入等。这实际上更像是确立实质性收集成本标准时需要考虑的要素,值得参考。在此基础上,本文适当变通,认为法院在个案中确定“实质性收集成本”标准时,应考虑下列因素:经营者所处行业的投资规模;该行业的数据收集规模;数据集合在经营中的重要性;争议数据集合所占经营者全部数据集合的比例;经营者收集争议数据集合所耗费的实际劳力或资本投入;公众后续利用相关数据集合的可能性;相关行业的数据利用习惯;等等。权衡这些因素之后,法院应该能够在个案中把握特定行业“实质性收集成本”的大致标准。依据上述原则确定的收集成本标准应该远远高于普通作品的创作成本。比如,对于法律法规数据库行业而言,入门的投资可能不过数百万人民币,具有商业价值的数据集合中的条目可能不过20余万条。假定竞争者避免1%的成本投入,才可能获得竞争优势,对应算得上实质性的收集成本约数万元以上。对于大众社交媒体行业,需要收集数百万甚至上千万用户产生的活动信息,入门的投资可能要数千万元或更多。这时候,如果抄袭1%以上的数据才能获得竞争优势,则实质性收集成本的门槛值可能比法律法规数据行业要高很多,要十万元或百万元,甚至更高。当然,这里抄袭比例(1%)的假设和投资规模的估计,只是为了讨论问题方便而举例,在实际案例中,法院可以作出更准确的判断,提出更精细的标准。


五、其他可能的考虑因素


(一)收集行为的合法性


数据收集者在收集数据的过程中,可能会侵害他人的在先权益。比如,网络服务商超出用户许可的范围,收集了海量的用户个人信息,形成一个数据集合。收集者也可能未经著作权人同意,从互联网上下载海量的图片内容,形成图片数据集合。除了侵害个人信息权或著作权,收集者也可能侵害他人的商业秘密权益、隐私权或肖像权等。


收集行为侵害他人的在先权益,是否应该阻却收集者获得数据集合的产权保护呢?有学者主张“商业数据取得的合法性是产生和享有数据权的前提性要件”,但并未说明理由。本文并不认同这一主张,这里从产权制度的内在逻辑和立法政策两个角度来回答。理论上,允许违法收集者对这类数据集合主张产权保护,并不会导致产权制度内在的逻辑矛盾。收集行为如果侵害他人的在先权益,收集者可以依据该在先权益的法律规定承担法律责任。立法者并不需要以否定数据集合产权保护的方式增加该威慑效果。同时,数据集合产权与著作权类似,只是一种消极的排他权。收集者对违法收集的数据集合主张数据产权,只是使收集者可以阻止他人未经许可公开传播该数据,并不意味着收集行为合法或许可收集者公开传播或以其他方式利用该数据。收集者是否可以公开传播该数据集合,取决于其他法律。如果公开传播行为违法,数据收集者要承担侵权责任,甚至承担更严厉的行政责任或刑事责任。


既然是否对非法收集的数据集合赋权并没有法律逻辑上的问题,剩下的就是立法政策上的考虑:有无必要为有效保护公众的在先权益而否认数据收集者对收集成果所享有的特殊产权呢?这不是一个容易回答的问题。在著作权法领域,的确有为更有效保护在先著作权,而限制非法演绎者获得著作权保护的先例。比如,美国《版权法》通过“不洁之手”原则,拒绝保护非法演绎作品。这样可以防止原始作者的被许可人被非法演绎作品的作者骚扰,从而更好地保护原始作者。同时,这也减少了一开始就愿意从事非法演绎活动的人,降低了侵权威胁。不过,我国《著作权法》并未明确规定这一原则。学界一般认为,非法演绎的作品,只要体现了演绎者的独创性,依然能够获得保护。不过,演绎者未经许可不得公开传播该演绎作品,否则应承担著作权侵权责任。 


对非法收集的数据集合,选择美国《版权法》的做法或中国《著作权法》的做法,都有一定道理。不过,本文稍稍倾向于我国《著作权法》的做法,认为收集行为的违法性不应影响收集成果获得产权保护。既然中国立法者认可非法演绎作品的著作权保护,应该也可以接受非法收集的数据集合的产权保护。原因是,数据集合涉及的数据条目内容众多,如前所述,动辄有数十万或数百万条数据条目之多。部分数据条目的收集侵害某种在先民事权益(如个人信息权、商业秘密权益或著作权)的情况比较容易发生。如果因为部分收集行为违法而否定整个数据集合的产权,很容易使侵权者利用这一抗辩逃脱侵权责任。这容易违反比例原则,对收集者进行过度惩罚;同时,侵权者的行为也没有更强的道德正当性,以至于值得被免除责任。即便立法者要求收集者的违法行为达到实质性的程度才剥夺收集者数据集合的产权,或者仅仅排除数据集合中违法收集数据条目的产权保护,也并非合理的制度选择。这么做就意味着,法院必须在个案中审查收集者的违法程度,或者识别出违法收集的数据条目,将增加司法成本和产权的不确定性。在在先权益人自己不追究收集者责任的情况下,耗费社会成本并不值当。


当然,这里并不是说,公众的在先权益保护不重要。在先权益保护的法律本身应该努力为禁止收集者的违法行为提供有效威慑,而不是在该法律之外以否定数据集合产权的方式提供额外的威慑。这么做的社会成本过高,得不偿失。


(二)数据的时间敏感性


在建议的特殊产权保护中,数据集合中数据内容的价值是否具有时间敏感性,也非考虑因素。其中原因,在前文已有涉及,这里再进一步系统说明。


时间敏感性要件源于美国法的“热点新闻规则”。该规则将盗用规则延伸到传统作品规模的单纯事实消息保护,前提是该事实消息具有高度时间敏感性。如前所述,从著作权法的角度看,这一保护威胁了公共领域的创作或表达自由。在批评意见看来,这类客观上保护过时的商业模式,妨碍了新技术和新商业模式的应用。虽然自从美国联邦最高法院否定联邦层面存在普通法后,“热点新闻规则”在联邦法上已经不再是有效的法律,但是它在很多州的普通法中顽强地生存下来,且未被联邦版权法排除适用。这一现状至今并未受到严肃质疑。


“热点新闻规则”强调时间敏感性因素,有独特的时空背景,将其引入数据集合特殊产权保护制度,并不合适。在International News Service v. Associated Press案中,International News Service跟在美联社后面抄袭后者报道的欧洲战场的事实消息。美联社报道的每天发生的事实消息的数量应该相对有限。从多数意见看,法院默认的争议问题也应该是每天新闻报道中单条或为数不多的事实消息是否应该获得某种保护。异议法官也指出,被告每天抄袭的事实消息只占其传送给客户的消息中很小的一部分。支持保护的多数意见最终没有对事实消息的量提出要求,这意味着该保护可以延伸到很小规模的事实消息集合。在后来事实消息类的案件中,争议数据条目的量也很少达到今天所说的海量或实质量的程度。 


有人可能会认为,在对“热点新闻规则”的适用条件进行细化的NBA案中,根据法院提出的第(5)项要件要求,抄袭行为应威胁到竞争者的积极性,可能暗含有一定数量的要求。只有抄袭的事实消息达到一定数量后,竞争者才会节省了实质性的收集成本并获得竞争优势,进而威胁到原告的生产积极性。这一分析有一定道理。但是,这里对数据量的要求取决于数据条目的生产成本。如果单条事实消息的生产成本较高,按照法院的逻辑,对数据量的要求就可能就会降低。因此,我们有理由相信,“热点新闻规则”所保护的热点新闻与我们今天讨论的海量数据集合的数据规模,并不在同一数量级上。


不对数据量提出具体要求,美国法院自然需要采取措施消除或减少法律保护带来的负面影响。法院的做法是,强调事实消息本身的时间敏感性。这一限制导致此类保护的数据信息范围很窄,保护时间很短,大大降低了该保护带来的负面影响。否则,随着时间的流逝,数据信息大量涌入社会,各式各样的再利用方式出现,若继续保护它,社会成本将会急剧增加。 


“热点新闻规则”可能很好地解决了数量有限的具有高度时间敏感性的事实消息条目及其集合的保护问题,但并没有考虑海量普通数据集合的保护问题。普通数据条目数量大大增加后,“热点新闻规则”原本担心的对普通公众表达自由的负面影响急剧减小,甚至不复存在。特殊产权保护制度也就无需利用“时间敏感性”要件消除上述负面影响。同时,因为普通数据集合的规模扩大和收集成本增加,数据集合的价值随之增加,更长的特殊产权保护期的正当性也随之增加。此外,中国的司法实践也表明,普通的、不具有时间敏感性的数据集合保护问题日益突出。比如,大众点评案、百度地图案、百度诉奇虎案等涉及的数据集合都不像热点新闻那样具有高度时间敏感性。


基于以上原因,未来数据集合的特殊产权保护不应再利用时间敏感性因素限制客体范围。不过,本文并不否认,具有时间敏感性的单个或小规模的事实消息需要单独的解决方案。美国法的“热点新闻规则”,对中国而言,也是可以参考的方案。


(三)采取技术措施


对于本文所关注的数据集合,日本和韩国最新立法采用行为法保护模式。其立法规定,只有数据收集者为此类数据集合设置技术措施限制公众对其数据的获取之后,法律才禁止他人对该数据的后续利用。这相当于是默认不保护,只有数据收集者通过采取技术措施主动表明其希望得到保护的主观意愿后才提供保护。理论上,这一规则能够帮助公众以较低成本识别出那些收集者自己无意保护因而没有采取技术措施的数据集合,而无需担心侵权风险。因此,部分学者认为采取Robots协议或IP地址限制等电子管理措施是数据集合保护的前提条件。 


在日本法或韩国法保护模式下,技术措施要求符合立法的内在逻辑。日本法或韩国法提供了相对宽泛的保护,限制后续的数据获取、利用和披露,覆盖了很多种利用行为,对公共领域的自由有重要的影响。其实,很多数据收集者并不需要这么宽泛的保护,因而未必会通过技术措施阻止部分后续获取或使用数据的行为。立法者要求收集者采取技术措施后,公众可以根据收集者是否采取技术措施来识别出那些不受保护而留在公共领域的数据集合。换言之,日本法的技术措施要求显著降低了公众避免侵权的信息成本,扩大了公共领域的自由。


不过,在本文建议的有限排他权的产权保护模式下,采取技术措施的重要性明显低于日本法的规定。拟议中的数据集合产权的保护范围和力度也远不及日本法的规定。如前所述,它要求数据集合具有实质量的数据条目,并耗费了实质性收集成本,且仅仅赋予公开传播权。依常理推测,此类数据集合的收集者绝大多数都不乐见第三方复制自己的数据并对外提供。这时候,法律如果效仿日本法,额外要求收集者采取技术措施来展现保护意愿,会导致多数收集者负担采取技术措施的成本,却不会显著增加公共领域的行动自由。同时,第三方也几乎无需依靠技术措施就能感知多数收集者无意容忍平行公开传播行为的主观意愿。这时候,第三方面对的困难不是如何感知收集者的保护意愿,而是究竟在何种程度上利用数据是正当的。类似日本法的技术措施要求,对回答这一问题没有帮助。因为即便数据收集者采取了技术措施,公众依然要根据自己利用数据的数量和体现的收集成本来判断自己利用行为的合法性。中国的司法实践中涌现的百度地图案、大众点评案、新浪微博案、百度诉奇虎360案就说明了这一点。破坏技术措施本身不应被视为侵害数据集合产权的行为,否则这一保护过于宽泛,过度损害了公共领域的自由。


另外,要求数据收集者采取技术措施还会给公众利用其服务带来不便。很多数据提供者原本无需公众注册或采取其他限制措施就可以直接提供服务,这大大便利了用户。如果法律要求收集者采取技术措施才保护数据集合,会排除部分公众自由接触数据的机会,增加部分公众接受该服务的成本,也可能会牺牲用户的隐私利益。想象一下,搜索引擎服务、地图导航服务或社交媒体服务,如果要求用户必须经过认证程序才能获得服务,每次使用就不够方便。如果法律担心技术措施成本或用户不便,只对技术措施提出象征性的要求,将导致这一要求流于形式,失去现实意义。比如,如果服务商无差别地接受公众以简便方式注册,就算满足法律对于技术措施的要求,但是此类技术措施原本就被各种网站所普遍使用,公众很难从技术措施有无上判断收集者是否有意保护自己的数据集合。有些人相信,在将来的立法中,禁止网络爬虫的Robots协议就是可以接受的技术措施。采取这样的技术措施,服务商仅仅需要在网站的Robots协议文本中增加几行代码,成本几近为零。如果未来的产权保护将此类措施视为合格的技术措施,那么绝大多数可以满足前述客体要件数据集合的收集者可能都会这么做,只是这样的技术措施要求不能有效实现筛选出不受保护数据集合的立法目的。


基于以上原因,本文认为,在法律严格限制数据客体的保护范围,并仅赋予有限排他权(公开传播权)的保护模式下,法律无需要求数据集合的收集者对其数据内容采取技术措施。将来,如果立法者将保护延伸到数据集合内容的获取或使用环节,才有必要认真考虑类似日本法或韩国法上的技术措施要求。


结  语


在现行知识产权法框架下,填补数据集合法律保护方面的空白,是极富挑战性的工作。美国法的“热点新闻规则”和《欧盟数据库指令》代表了国际社会在小规模和中等规模数据集合法律保护方面作出的尝试。但是,它们并未解决现在和未来大规模数据集合保护的问题。目前,我们在数据集合产权保护的必要性和保护模式等基础问题上还未达成高度共识。在这一背景下,探讨未来产数据集合权保护的制度细节,比较困难。不过,具体制度的可行性研究,反过来会影响决策者对于制度正当性和保护模式选择等基础问题的看法。因此,我们不能等待正当性的基础问题被解决之后,再来探讨具体制度设计的问题。


从现有学术研究和司法实践看,中国将来很有可能会选择产权保护模式的特殊立法保护大规模的数据集合。本文假设将来仅赋予数据收集者有限排他权(公开传播权),然后在这一基础之上,探讨数据集合产权保护的客体要件,包括:数据集合的条目处于公开状态;具有实质量的数据条目;收集者付出实质性的收集成本。通过这些要件的限制,特殊产权保护制度能够与现行商业秘密保护制度或著作权法相衔接,并且与美国法的“热点新闻规则”和《欧盟数据库指令》相区分,分别保护不同规模的数据集合,实现不同的立法目的,以有效平衡数据收集者、竞争对手和社会公众的利益。除了上述三项要件,未来数据集合的产权保护并不需要在客体要件方面考虑收集者行为的合法性、数据的时间敏感性和收集者是否采取技术措施等因素。