
深度学习技术及其应用.docx
14页深度学习技术及其应用 方芸 马林梓摘要:该文以深度学习技术的前身机器学习为切入点引出接下来的研究,随后介绍了深度學习技术的基本概念,并通过图示来让晦涩难懂的概念更加简洁明了;再通过有无监督特征学习两个方面来探讨它未来发展方向及其应用,主要是音、像的识别和自然语言的处理,并在不同的领域分别进行举例介绍;最后讨论了在实践过程中出现的挑战以及未来的发展方向关键词:深度学习;机器学习;大数据:TP393 :A:1009-3044(2020)05-0190-04开放科学(资源服务)标识码(OSID):在大数据处理中,数据的计算、存储和分析是它的核心技术,而对大数据的有效分析就是大数据的价值所在所以,大数据处理中的最核心、最关键的部分就是数据分析而这些大数据的主要来源之一是互联网每分每秒互联网上都有大量的网页和数不清的音视频、图像等数据产生现如今,大数据越来越与人们的工作和生活密切相互关联,已经影响到了人们的方方面面比如,从淘宝、京东等互联网上的电子商务交易到航空交通管制,从医生接触病人、诊断出什么疾病、并做出可治疗方案到警察局接到报警出警,再从通过天气预报来减少灾害的破坏到利用人民群众的举报来降低犯罪的发生等等,随处可见大数据的身影。
但是目前,由于技术有限,只能分析和利用极少数的数据这就要求需要研发新的更智能的数据算法技术,在大量无序且复杂的数据中找出规律并发现新的模式,从而提取出新的、有用的知识,来帮助人类做出正确的决策或给出预测所以,利用深度学习技术和机器学习技术去分析大数据,尽量让机器代替人工分析数据,而这项技术也获得了广泛的应用前景[1]1 深度学习技术概述1.1机器学习的发展阶段要想领会、认识深度学习技术,首先要领会与其前身机器学习的相干的基本知识作为人工智能领域的一部分,在大多数特定的情况下,可以由机器学习来代替人工智能,机器学习便是经由过程中出现很多分歧的算法,使得大量数据能被机器发现并学习其中的规律,从而对新总结出的数据样本做出智能辨认或者对将来可能产生的现象做出猜测1980年前后,机器学习的大概发展阶段主要是两次,划分是:shallow learning(浅层学习)、deep learning(深度学习)1.1.1第一阶段:shallow learning大概1980年前后,一种叫作反向传播算法作用于人工神经网络的发现(也叫作BP算法),让人们对机器学习技术燃起了新的希望人们从中发现,在大批训练样本中,该算法能够通过运用人工神经网络模型来学习并从中找出新的规律,从而对将来不可知的事务做出尽量精确的展望。
而人工神经网络又是什么呢?可以先从最简单的说起,最简单的人工神经网络就是由一个神经元组成,如图1[2]而多个神经元根据某些特定的方法互相结合起来,即这一个的输入是另一个的输出,就可以组成基本的人工神经网络,神经网络如图2[2],图中的圆形代表神经元的输入内容,最左边是输入层这类以数据统计为根本的机器学习方法,在很多方面要优越于以前以人工法则为根本的体系这时的人工神经网络,因为在多层网络训练方面有很多困难,所以实际能被利用的大多数只是仅含有一层隐层节点的浅层学习模型从1990年开始,提出了很多不同的机器浅层学习模型,比如support vector-machines,简称SVM(支撑向量机),以及最大熵方法等等特别是从2000年开始,由于互联网络的发展,人们对大数据的需求变得更加急切,这也使得shallow learning在其互联网的利用中获得庞大的乐成1.1.2第二阶段:deep learning2006年,机器学习理论的专家Hinton(加拿大多伦多大学教授)和他的学生Salakhutdinov在《科学》上发表了文章[1],正是这篇文章打开了深度学习在工业和学术界中研发的大门,从文章中可以大概得到两个重要的信息,首先,很多隐层的不被人们发现的人工神经网络有着十分优秀的特征学习能力.经过特征学习得到的数据有着更加本质性的刻画,对于可视化和分类非常有利;其次,在训练深度神经网络上,可以使用“layeI-wise pre-training”(逐层初始化)来解决其中的难题,而逐层初始化可以经由无监督学习来实现。
同时从文中也可以得到一个重要的论据,那就是之所以深度学习技术可以被研发、被应用,是因为在脑神经系统中,的确存在着异常复杂、繁多的层次结构,从而使得深度学习的实现不再是空话所以,在当今这个大数据当家的时代,深度学习技术只能越来越炙手可热,谁能更快的取得深度学习技术的制高点,谁将更好地适应这个社会2 深度学习技术的分类2.1 深度学习技术的分类简述在深度学习中,可以通过有无监督特征学习两个方面来探讨它未来发展方向及其应用,而有无监督特征学习就可以作为深度学习技术的两个分类的依据,再在不同分类的基础上,研究它的特点和不同,以便人们更加方便的区分它们,并更加有效地利用它们,使它们在各自的领域发挥不同的功效,更好地为人类服务[3,4]2.1.1 无监督特征学习在深度学习技术的研发中,无监督特征学习方法也称无监督的贪婪逐层学习方法,是最开始被提出来的中心思想:在深度结构模型中,将低层输出转化为高层的输入,然后无监督地学习一层特征的变换,最后形成的深度模型的初始化权值,就是由通过学习得到的网络权参数按顺序一层一层地码起来形成的,权参数在初始化时是在一个空间内,而这个空间是比较接近输入数据的流行空间的,因此在模型训练过程中,降低了陷入部分最小值问题的概率,这就像在过程中施加了正则化约束。
在训练数据过程中,有标签的数据数量比较少而无标签的数据数量较多时,可以采用无监督特征学习方法而rest-rict-ed Boltzmann machine,简称RBM(也就是受限波尔兹曼机)、au-to-encoder,简称AE(也就是自编码模型)和sparse coding(稀疏编码)就是此中最主要的三个构成模块其中sparse coding最为特殊,可以通过图片来了解它的原理,sparse coding的计算过程如图3[2]2.1.2 有监督特征学习近年来,以有监督特征为基础的深度学习技术在计算机视觉的领域中取得了令人惊喜的研究成果,所以越来越多的人认为将深度学习技术从理论研究到实际的大规模应用是应该的其中最受重视的模型是convolutional neural network,简称CNN(也就是深度卷积神经网络),也是所有深度结构模型最早获得成功的,其中CNN包含了多阶段的Hubel-Wiesel结构,如图4[4]专家LeCun研究的CNN是比较特殊的,该CNN是具有两种类型的层结构:卷积层和降抽样层[8]每一层都有一种拓扑图结构,例如,每个神经元都对应着输入图像上一个固定的坐标,伴随一个感受野(输入图像上影响神经元活动的区域)。
在每层的每个位置处,都有很多不同的神经元,每个神经元都有它自己的输入权值,连接着上层中一个立方体区域的神经元不同位置的神经元都具有相同的一组权值,但对应着不同位置的立方体区域3 深度学习技术的应用3.1 图像识别在深度学习技术中最开始被应用的就是图像领域在1989年,纽约大学教授Le Cun等人就开始了关于convolutionneural networks,简称CNN f卷积神经网络)的相关研究工作[9]而CNN这一结构是如何被提出的呢?这多亏了在生物学领域的研究,人们正是在研究生物视觉行为时受到启发才提出这一结构,特别是通过研究在Hubel-wiesel模型中[10],模仿两个视觉皮层里的简单细胞与复杂细胞之间的行为动作时更加验证了这一结构在过去的一段时间,CNN仅限在手写数字等小范围的领域上,获得了很好的体验结果,但在大范围应用上还没有得到大家的重视而这一现象的产生主要是因为,CNN在大范围图像应用上还存在着问题,因此在计算机视觉领域上没有引起轩然大波这个低迷状态直到2012年才有所好转,在这一年图像识别技术取得了令人骄傲的大进步,而促进这一进步的正是加拿大多伦多的Hinton教授和他的学生们,他们在世界闻名的机器视觉识别问题上采用更加具有深度的CNN结构模型[3]。
该模型的识别流程如图5在该识别模型中,全部像素的输入都是由机器独立完成的随后在2013年,人们首次在简单图片的识别领域中运用了深度学习模型并取得了较大收获从已知经验中可以看出,运用该模型能够从根本上解决一般模型识别正确率不高的缺点,从而减少了人们再返工的时间,大大节约了人力资源,这样计算的正确率就可以很大程度的提高了[6]图像识别也不仅仅是识别图像,随着研究的不断深入,也可以进行人脸识别、视频分析以及图像分类其中人脸识别技术更加受到人们的追捧,因为人脸识别除了能够确认人脸之外,还能辨识不同身份的人脸,但由于不同的人有不同的身份,且相同的人由于在不同的场景拍照导致姿势、光线甚至脸型的变化,使得这一技术的实现更加困难综上所述,在未来深度学习技术一定会在图像识别领域中占据主要地位,并引领潮流,而以前的相对依赖人工的学习技术就会慢慢地退出时代的舞台3.2 语音识别在人们开始使用语音识别系统的历史中,比较容易被人们接受的就是GMM(也就是混合高斯模型),这种模型一直在该领域起着非常重要作用,主要原因就是它有比较容易获得的区分度训练技术,有了这一技术的加持,再加上在进行大数据训练时估计较简单,所以更容易被人们接受[5]。
但人无完人,同时这种模型也存在着许多弊端,比如,它从根本上来说就是一种网络层比较浅的建模,而网络层较浅就说明没有足够的深度来记录它的空间分布,虽然这一缺点可以通过区分度训练来解决一部分,但能起作用的空间还只是很小的一部分其后,人们又开始运用DNN模型,但同样有着很大的弊端和不足后来,根据这一缺点,微软首先迈出第一步,比较有前瞻性的研究了以深度神经网络为基础的语音识别系统,正是这一研究颠覆性的解决了原有的深度不够这一缺点新研发的系统,能够将原来不连续的语音片段通过描述片段之间的相似性合并起来,从而形成一个新的高维度的片段特征在实际应用过程中,这一技术,除了去其糟粕外,还取其精华,与原来的虽然不成熟但也有很多可取之处的语音识别技术相互联结,不但提高了语音识别的正确率还节省了不必要的开支,正可谓一举两得可以通过一个表,从三个方面来看看这三种模型的不同之处,如表1随后几年,谷歌和百度也相继采用了这一技术进行语音识别,不得不说这两大龙头企业非常具有前瞻性,这也对将来其他公司的业务拓展提供了资料3.3 自然语言处理(NLP)在上文中已经了解到深度学习技术在音、像领域的应用,接下来还要介绍它在其他相对陌生的领域的应用,即自然语言的处理(NLP),顾名思义,它主要的研发方向就是通过自然语言使得原本沟通有障碍的人类和计算机之间能实现沟通,而自然语言的范畴也比较广泛,既包括人类语言也包括计算机语言,同时还注重这两者与數学之间的联系,因此涉及范围较广。
在过去的历史长河中,虽然以人工神经网络为基础的NLP模型一直存在,但由于研发的力度不够,使得人们只能一直应用存在弊端的以统计为基础的自然语言处理模型随后,紧接着有许多学者渐渐意识到人工神经网络的重要性,开始转移了研究方向直到2003年,Bengio(加拿大蒙特利尔大学教授)和他的同事首次提出用非线性神经网络代替原来的处理模型而真正开始研究将深度学习技术应用于自然语言处理的是在2008年,在美国NEC研究所,Collobert研究员和Weston研究员为了有效解决原始模型不能完成词性标注、程序分块命名实体识别和语义角色标注等在NLP领域经常出现的问题,他们采用了通过嵌入多层的一维卷积结构的方法在该方法中值得一提的是,不论是一个模型完成一个任务还是完成不同任务,正确率都较高同时自然。
