
人工智能的核心技术.docx
13页人工智能的核心技术是什么?《人工智能标准化白皮书(2018)》1 机械学习机械学习(Machine Learning)是一门涉及统计学、系统辨识、逼近理论、神经网络、优化理论、运算机科学、 脑科学等诸多领域的交叉学科,研究运算机 如何模拟或实现人类的学习行为,以获取新的知识或技术,从头组 织已有的知识 结构使之不断改善自身的性能,是人工智能技术的核心基于数据的机械学习是 现代智能技术中 的重要方式之一,研究从观测数据(样本)动身寻觅规律,利用 这些规律对以后数据或无法观测的数据进行预 测依照学习模式、学习方式和 算法的不同,机械学习存在不同的分类方式1)依照学习模式将机械学习分类为监督学习、无监督学习和强化学习等监督学习监督学习是利用已标记的有限训练数据集,通过某种学习策略/方式成立一 个模型,实现对新数据/实例的标记 (分类)/映射,最典型的监督学习算法包括 回归和分类监督学习要求训练样本的分类标签已知,分类标签精 准度越高,样 本越具有代表性,学习模型的准确度越高监督学习在自然语言处置、信息检索、文本挖掘、手 写体辨识、垃圾邮件侦测等领域取得了普遍应用无监督学习无监督学习是利用无标记的有限数据描述隐藏在未标记数据中的结构/规律,最典型的非监督学习算法包括单类 密度估量、单类数据降维、聚类等。
无监督学 习不需要训练样本和人工标注数据,便于紧缩数据存储、减少计 算量、提升算法速度,还能够幸免正、负样本偏移引发的分类错误问题要紧用于经济预测、异 常检测、数据挖掘、图像处置、模式识别等领域,例如组织大型运算机集群、社 交网络分析、市场 分割、天文数据分析等强化学习强化学习是智能系统从环境到行为映射的学习,以使强化信号函数值最大 由于外部环境 提供的信息很少,强化学习系统必需靠自身的经历进行学习强化 学习的目标是学习从环 境状态到行为的映射,使得智能体选择的行为能够取得环 境最大的奖赏,使得外部环境对 学习系统在某种意义下的评判为最正确其在机械 人操纵、无人驾驶、下棋、工业操纵等 领域取得成功应用2)依照学习方式能够将机械学习分为传统机械学习和深度学习传统机械学习传统机械学习从一些观测(训练)样本动身,试图发觉不能通过原理分析获 得的规律,实 现对以后数据行为或趋势的准确预测相关算法包括逻辑回归、隐 马尔科夫方式、支持向 量机方式、K近邻方式、三层人工神经网络方式、Adaboost算法、贝叶斯方式和决策树 方式等传统机械学习平稳了学习结果的有效性与 学习模型的可说明性,为解决有限样本 的学习问题提供了一种框架,要紧用于有 限样本情形下的模式分类、回归分析、概率密度 估量等。
传统机械学习方式一起 的重要理论基础之一是统计学,在自然语言处置、语音识 别、图像识别、信息检 索和生物信息等许多运算机领域取得了普遍应用深度学习 深度学习是成立深层结构模型的学习方式,典型的深度学习算法包括深度置信网络、卷积神经网络、受限玻尔兹曼机和循环神经网络等深度学习又称为深 度神经网络(指层数超过 3 层的神经网络)深度学习作为机械学习研究中的一 个新兴领域,由 Hinton 等人于 2006 年提出深度学习源于多层神经网络,其实 质是给出了一种将特点 表示和学习合二为一的方式深度学习的特点是舍弃了可 说明性,单纯追求学习的有效性 通过量年的试探尝试和研究,已经产生了诸多 深度神经网络的模型,其中卷积神经网络、 循环神经网络是两类典型的模型卷 积神经网络常被应用于空间性散布数据;循环神经网 络在神经网络中引入了经历 和反馈,常被应用于时刻性散布数据深度学习框架是进行深 度学习的基础底层 框架,一样包括主流的神经网络算法模型,提供稳固的深度学习 API, 支持训练 模型在效劳器和 GPU、TPU 间的散布式学习,部份框架还具有在包括移动设备、 云平台在内的多种平台上运行的移植能力,从而为深度学习算法带来前所未有的 运行速度 和有效性。
目前主流的开源算法框架有TensorFlow、Caffe/Caffe二、CNTK、MXNet、 Paddle-paddle、Torch/PyTorch、Theano 等3)另外,机械学习的常见算法还包括迁移学习、主动学习和演化学习等迁移学习迁移学习是指当在某些领域无法取得足够多的数据进行模型训练时,利用另 一领域数据取 得的关系进行的学习迁移学习能够把已训练好的模型参数迁移到 新的模型指导新模型训 练,能够更有效的学习底层规那么、减少数据量目前的迁 移学习技术要紧在变量有限的 小规模应用中利用,如基于传感器网络的定位,文 字分类和图像分类等以后迁移学习将 被普遍应用于解决更有挑战性的问题,如 视频分类、社交网络分析、逻辑推理等主动学习 主动学习通过必然的算法查询最有效的未标记样本,并交由专家进行标记, 然后用查询到 的样本训练分类模型来提高模型的精度主动学习能够选择性地获 取知识,通过较少的训 练样本取得高性能的模型,最经常使用的策略是通过不确信性 准那么和不同性准那么选取 有效的样本演化学习演化学习对优化问题性质要求极少,只需能够评估解的好坏即可,适用于求 解复杂的优化 问题,也能直接用于多目标优化。
演化算法包括粒子群优化算法、 多目标演化算法等目 前针对演化学习的研究要紧集中在演化数据聚类、对演化 数据更有效的分类,和提供某种 自适应机制以确信演化机制的阻碍等2 知识图谱知识图谱本质上是结构化的语义知识库,是一种由节点和边组成的图数据结 构,以符号形 式描述物理世界中的概念及其彼此关系,其大体组成单位是“实体 —关系—实体”三元组, 和实体及其相关“属性—值”对不同实体之间通过 关系彼此联结,组成网状的知识结构 在知识图谱中,每一个节点表示现实世界的“实体”,每条边为实体与实体之间的“关系” 通俗地讲,知识图谱确实是把所有不同种类的信息连接在一路而取得的一个关系网络,提供 了从“关系”的角度 去分析问题的能力知识图谱可用于反讹诈、不一致性验证、组团讹诈等公共平安保障领域,需 要用到异样分 析、静态分析、动态分析等数据挖掘方式专门地,知识图谱在搜 索引擎、可视化展现和 精准营销方面有专门大的优势,已成为业界的热点工具但 是,知识图谱的进展还有专门大的挑战,如数据的噪声问题,即数据本身有错误或 者数据存在冗余随着知识图谱应用的不断深切,还有一系列关键技术需要冲破3 自然语言处置自然语言处置是运算机科学领域与人工智能领域中的一个重要方向,研究能 实现人与运算 机之间用自然语言进行有效通信的各类理论和方式,涉及的领域较 多,要紧包括机械翻译、 机械阅读明白得和问答系统等。
1)机械翻译机械翻译技术是指利用运算机技术实现从一种自然语言到另外一种自然语 言的翻译进程 基于统计的机械翻译方式冲破了之前基于规那么和实例翻译方式的 局限性,翻译性能取得 庞大提升基于深度神经网络的机械翻译在日常口语等一 些场景的成功应用已经显现出了 庞大的潜力随着上下文的语境表征和知识逻辑 推理能力的进展,自然语言知识图谱不断 扩充,机械翻译将会在多轮对话翻译及 篇章翻译等领域取得更大进展目前非限定领域机械翻译中性能较佳的一种是统计机械翻译,包括训练及解 码两个时期 训练时期的目标是取得模型参数,解码时期的目标是利用所估量的 参数和给定的优化目标, 获取待翻译语句的最正确翻译结果统计机械翻译要紧包 括语料预处置、词对齐、短语抽 取、短语概率计算、最大熵调序等步骤基于神 经网络的端到端翻译方式不需要针对双语 句子专门设计特点模型,而是直接把源 语言句子的词串送入神经网络模型,通过神经网络 的运算,取得目口号言句子的 翻译结果在基于端到端的机械翻译系统中,通常采纳递归 神经网络或卷积神经 网络对句子进行表征建模,从海量训练数据中抽取语义信息,与基于 短语的统计 翻译相较,其翻译结果加倍流畅自然,在实际应用中取得了较好的成效。
2)语义明白得语义明白得技术是指利用运算机技术实现对文本篇章的明白得,而且回答与篇章 相关问题 的进程语义明白得更注重于对上下文的明白得和对答案精准程度的把控 随着 MCTest 数据集的发布,语义明白得受到更多关注,取得了快速进展,相关数 据集和对应的神经网 络模型层出不穷语义明白得技术将在智能客服、产品自动问 答等相关领域发挥重要作用, 进一步提高问答与对话系统的精度在数据搜集方面,语义明白得通过自动构造数据方式和自动构造填空型问题的 方式来有效 扩凑数据资源为了解决填充型问题,一些基于深度学习的方式接踵 提出,如基于注意力 的神经网络方式当前主流的模型是利用神经网络技术对篇 章、问题建模,对答案的开始 和终止位置进行预测,抽掏出篇章片段关于进一 步泛化的答案,处置难度进一步提升, 目前的语义明白得技术仍有较大的提升空间3)问答系统问答系统分为开放领域的对话系统和特定领域的问答系统问答系统技术是 指让运算机像 人类一样用自然语言与人交流的技术人们能够向问答系统提交用 自然语言表达的问题, 系统会返回关联性较高的答案尽管问答系统目前已经有 了很多应用产品显现,但大多是 在实际信息效劳系统和智能助手等领域中的 应用,在问答系统鲁棒性方面仍然存在着 问题和挑战。
自然语言处置面临四大挑战:一是在词法、句法、语义、语用和语音等不同 层面存在不确 信性;二是新的辞汇、术语、语义和语法致使未知语言现象的不可 预测性;三是数据资源的不充分使其难以覆盖复杂的语言现象;四是语义知识的 模糊性和 错综复杂的关联性难以用简单的数学模型描述,语义计算需要参数庞大 的非线性计算4 人机交互人机交互要紧研究人和运算机之间的信息互换,要紧包括人到运算机和计算 机到人的两部 份信息互换,是人工智能领域的重要的外围技术人机交互是与认知心理学、人机工程学、 多媒体技术、虚拟现实技术等紧密相关的综合学科传统的人与运算机之间的信息互换要紧 依托交互设备进行,要紧包括键盘、鼠标、 操纵杆、数据服装、眼动跟踪器、位置跟踪器、 数据手套、压力笔等输入设备,和打印机、画图仪、 显示器、 头盔式显示器、音箱等输出设 备人机交互技术 除传统的大体交互和图形交互外,还包括语音交互、情感交互、体感交 互及脑 机交互等技术,以下对后四种与人工智能关联紧密的典型交互手腕进行介绍1)语音交互语音交互是一种高效的交互方式,是人以自然语音或机械合成语音同运算机 进行交互的综 合性技术,结合了语言学、心理学、工程和运算机技术等领域的知 识。
语音交互不仅要对 语音识别和语音合成进行研究,还要对人在语音通道下的 交互机理、行为方式等进行研究 语音交互进程包括四部份:语音搜集、语音识 别、语义明白得和语音合成语音搜集完成 音频的录入、采样及编码;语音识别完 成语音信息到机械可识别的文本信息的转化;语义 明白得依照语音识别转换后的文 本字符或命令完成相应的操作;语音合成完成文本信息到 声音信息的转换作为 人类沟通和获取信息最自然便利的手腕,语音交互比其他交互方式 具有更多优势, 能为人机交互带来全然性变革,是大数据和认知计算时期以后进展的制高 点,具 有广漠的进展前景和应用前景2)情感交互情感是一种高层次的信息传递,而情感交互是一种交互状态,它在表达功能 和信息时传递 情感,勾起人们的经历或内心的情愫传统的人机交互无法明白得和 适应人的情绪或心境, 缺乏情感明白得和表达能力,运算机难以具有类似人一样的 智能,也难以通过人机交互做 到真正的和谐与自然情感交互确实是要给予运算机 类似于人一样的观看、明白得和生成 各类情感的能力,最终使运算机像人一样能进 行自然、亲切和生动的交互情感交互已经 成为人工智能领域中的热点方向,旨 在让人机交互变得加倍自然。
