
法学论文:机器学习适用著作权合理使用的困境与出路.docx
21页法学论文:机器学习适用著作权合理使用的困境与出路 摘要: 人工智能技术在给人类生活带来便利的同时也深刻影响着着作权制度以往机械学习使用作品的行为并不侵犯着作权人的专有权利,可适用合理使用规则保证技术的发展而机器学习作为人工智能的核心技术,对其适用合理使用将打破着作权人专有权利与技术发展之间的利益平衡从机器学习技术的工作原理出发,讨论机器学习技术存在的着作权侵权风险;并从理论基础、规则适用等方面分析机器学习技术对着作权合理使用制度的挑战为解决着作权人权利保护与人工智能技术发展之间的矛盾,提出对人工智能技术公司适用法定许可作为解决之道 关键词: 人工智能; 机器学习; 合理使用; 转换性使用; 法定许可; Abstract: While artificial intelligence technology has brought convenience to human life,it has also profoundly affected the copyright law.Mechanical learning in the past did not infringe the exclusive rights of the copyright owner,and fair use doctrine could be applied to ensure the development of technology.As machine learning is the core technology of artificial intelligence,applying the fair use doctrine to machine learning will break the balance of interests between the exclusive rights of copyright owners and technological development.Based on the working principle of machine learning technology,this paper discusses the copyright infringement risk of machine learning technology.Furthermore,this paper analyzes the challenge of machine learning technology to the basic principle of copyright fair use doctrine and the challenge of machine learning technology to "transformative use" doctrine from the perspective of rule application.In order to resolve the conflict between the exclusive rights of the copyright owner and the development of artificial intelligence technology,a legal license can be applied to artificial intelligence technology companies as a solution. Keyword: Artificial Intelligence; Machine Learning; Fair Use; Transformative Use; Statutory License; 一、问题的提出 人工智能对人类的社会生活影响深远,在便利人类生活的同时,也给现有的着作权制度带来巨大挑战。
目前,学界多将目光聚焦于人工智能生成物的可版权性与权利归属问题上,对人工智能学习过程中的着作权侵权问题少有研究一般而言,人工智能的“学习资料”包括以下两种:一是不受着作权法保护的数据;二是受着作权法保护的作品就前者而言,人工智能是否可以对数据进行免费学习存在争议如果认为应当对数据设定“数据财产权”(Data property right),人工智能在对数据进行学习之前显然应当获得数据所有者的授权相反,如果认为不应为数据建立新的财产权,人工智能就可以对数据进行免费学习德国马克思·普朗克研究所(简称马普所)研究表明,数据不应设定财产权:第一,数据的属性会使数据交易更加复杂,为数据设定财产权并不能促进数据的交易;第二,为数据设定财产权可能加强数据持有者对数据的垄断地位,将第三方排除在外;第三,为数据设定财产权可能带来法律的不确定性1本文赞同该观点,认为人工智能可以对数据进行复制、学习,而无须获得数据持有人的许可就受版权保护的作品而言,其可能来源于以下两种渠道:一是人工智能技术公司在获得着作权人授权之后使用作品,二是未经着作权人授权,人工智能技术公司擅自使用作品在第一种情况下,使用作品的行为不具有违法性。
但在第二种情况下,人工智能技术公司使用版权作品的行为可能落入着作权权利内容的控制范围内,构成侵权行为本文即在第二种情况下探讨机器学习是否能够适用着作权合理使用制度 人工智能的发展,表现为从机械学习(mechanical learning)到机器学习(machine learning)的进步过程机械学习是指依托技术设备获得作品并进一步使用的过程,2其本身表现出强烈的工具属性,需要使用者预先规划操作流程、确定学习对象及特征而机器学习以计算机如何模拟人类的学习行为作为主要研究内容,3可以自主确定学习对象、构建其特征,跳出预设指令的局限性进行额外操作从“思想——表达二分法”的角度来看,机械学习只能从作品的思想中获取经验,而机器学习则可以从作品的表达中发掘价值比如,Arriba的缩略图搜索引擎、谷歌图像搜索和谷歌图书等都属于机械学习的范畴,无法从原作品的独创性表达中进行“学习”;而谷歌的“智能回复”应用就可以“学习”网络中大量作品的表达,使智能回复的语句和人类无异,属于机器学习的范畴 对于人工智能技术公司非以商业目的使用作品的行为,如以科学研究或以文化遗产机构收藏为目的使用作品的,无论是机器学习还是机械学习,既不会影响作品的正常利用,也不会不合理侵犯权利人的合法利益,可以认为属于合理使用的范畴。
而以商业目的使用作品时,机械学习和机器学习在是否可以适用合理使用问题上可能存在分歧机械学习依然可以适用合理使用,在未经许可的情况下使用作品,究其原因,在于合理使用可以调和技术发展与专有权利之间的利益冲突而对于机器学习,合理使用制度是否依然可以作为利益平衡的工具,值得研究本文以机器学习的工作原理为出发点,分析合理使用的基本原理与认定标准,认为以商业目的的机器学习适用合理使用陷入了困境;并对如何走出困境,平衡作者的专有权利与技术发展之间的矛盾提出解决之道 二、机器学习“学习”过程中潜在的着作权侵权风险 (一)机器学习之“学习”过程 分析机器学习潜在的着作权侵权风险,前提要了解机器学习的“学习”过程以自然语言处理(Natural Language Processing)为例,机器学习的工作流程包括以下五个步骤: 步骤一,数据的收集,从作品、辞典和网络文本中收集数据并建立成数据库步骤二,数据库的预处理,将数据库中的人类语言转换为计算机语言步骤三,数据库的标注,根据语法、词性、形态等不同的分类标准,将数据进行标注,建立起最初模型步骤四,模型的训练,最初模型提取一组已被标注的数据,学习数据与分类标准之间的相关性,得出事物之间的规律。
步骤五,模型的固定,将经过步骤四的模型创建成永久文件,得到机器学习的最终模型基于机器学习自动在网络中收集的数据或者由使用者输入的数据,最终模型会产生输出结果,即人工智能生成物 机器学习根据上述步骤三的不同可以分为三类——监督学习、无监督学习和强化学习在监督学习中,步骤三依然对数据进行分类、标注,再用标注的数据进行模型的训练无监督学习就不包括分类、标注这一过程,机器学习直接根据未标注的数据进行训练,自主得出事物之间的规律强化学习介于监督学习与无监督学习之间,同时利用标注的数据和未标注的数据进行模型训练无论是哪种类型的机器学习,均需要建立学习“资料”的数据库 (二)机器学习的着作权侵权风险 人工智能是基于计算机对人脑的数字化抽象而产生的,机器学习更是类似人类的学习过程,可以说,机器学习就是人脑在计算机中的再现当人类学习一门新语言时,通常会把训练信息(比如课文)转变为大脑中专门负责语言区域的电化学痕迹储存起来,此即人类学习记忆的过程人类背诵记忆他人作品并不侵犯他人着作权,究其原因一方面是着作权人的经济利益未受影响,另一方面是规制背诵记忆行为不具有现实操作性,因此传统着作权法理论认为这种活动超出了着作权法的范畴。
4然而,机器学习从收集数据到生成物的产生面临着着作权侵权风险至于机器学习究竟可能侵犯哪些着作权权利内容,学界的讨论主要集中在复制权、翻译权、改编权和汇编权上,5以下分述之 1.机器学习是否构成复制行为 关于是否构成复制行为,学界对此并无分歧,6学者多认为机器学习的“学习”过程涉及复制作品的行为为保证机器学习获取数据的准确性,消除输出结果的误差,机器学习需要将尽可能多的已知数据纳入数据库中7因此,步骤一涉及大量未经授权的复制行为,落入着作财产权中复制权的规制范围而步骤四是最初模型的学习过程,往往伴随临时副本的生成,由于我国并未将“临时复制”纳入“复制”的范畴,机器学习的临时复制问题在我国无须进行调整 2.机器学习是否构成翻译行为 在步骤二中,机器学习将数据库中的人类语言转换为计算机语言,有学者认为该步骤涉及翻译行为8笔者对此持不同看法,此种行为实际上仍然是复制,而非翻译 首先,翻译行为主要是指将此语言文字翻译为彼语言文字,两个作品若满足“接触+实质性相似”的侵权认定标准,则后者侵犯了前者之翻译权而以计算机语言为要素的“作品”并不属于作品的范畴纵观《着作权法》第3条规定的作品类型,9要么是能够为人类所欣赏(比如文字作品、音乐作品),要么是能够为人类所使用(比如工程设计图、产品设计图)。
但对于计算机语言,人类无法理解,亦无法使用,只能通过计算机间接使用将人类语言转换为计算机语言亦不属于“计算机软件”的范畴,《计算机软件保护条例》第2条规定计算机软件包括计算机程序和有关文档,10第3条进一步对“文档”的含义作了说明,11而计算机语言构成的“作品”并非属于“文档”的范畴既然计算机语言构成的“作品”不属于着作权法意义上作品的范畴,机器学习对作品的使用也就不可能侵犯翻译行为了 其次,即使认为计算机语言构成的“作品”属于着作权法意义上作品的范畴,将人类语言转化为计算机语言也并非翻译行为,实则复制行为第一,根据《着作权法》第10条12的规定,翻译权是指将原作品转化为另一种语言文字的权利然则无论何种语言,都应当是人类所能理解的语言,而计算机语言,诸如C语言、Java属于计算机语言,而非人类的“语言文字”第二,翻译作品应当具备独创性如果两种语言之间存在一一对应的关系,从一种语言到另一种的转换不具有独创性,不属于翻译权控制的行为例如将某部作品由繁体字转换成简体字,就属于复制行为而非翻译行为,因为简体字。












