基于大数据语料库的GABP神经网络的中文分词仿真的研究资料

资源ID：91082008 资源大小：1.18MB 全文页数：29页
资源格式： DOC 下载积分：15金贝

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要15金贝

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

1、金锄头文库是“C2C”交易模式，即卖家上传的文档直接由买家下载，本站只是中间服务平台，本站所有文档下载所得的收益全部归上传人（卖家）所有，作为网络服务商，若您的权利被侵害请及时联系右侧客服；
2、如你看到网页展示的文档有jinchutou.com水印，是因预览和防盗链等技术需要对部份页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有jinchutou.com水印标识，下载后原文更清晰；
3、所有的PPT和DOC文档都被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；下载前须认真查看，确认无误后再购买；
4、文档大部份都是可以预览的，金锄头文库作为内容存储提供商，无法对各卖家所售文档的真实性、完整性、准确性以及专业性等问题提供审核和保证，请慎重购买；
5、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据；
6、如果您还有什么不清楚的或需要我们协助，可以点击右侧栏的客服。

下载须知 | 常见问题汇总

1、会员注册 2、如何支付与充值 3、个人资料信息修改 4、我的收藏和“收藏文件夹” 5、我的读者群和加入读者群 6、我的书签 7、金锄头文库批量上传工具（绿色版）V1.0 8、下载文档（资源）相关问题整理 9、解决下载文档时，自动弹出迅雷的问题 10、下载时为什么支付不成功？

基于大数据语料库的GABP神经网络的中文分词仿真的研究资料

第六届全国计算机仿真大奖赛答题（由组委会填写）参赛人员：参赛证号：辅导老师：章银娥参赛单位：赣南师范学院一仿真题目命题C大数据时代建模仿真的特点之一，是无模型计算的仿真成为一种新方式，试举例说明。二仿真解答文字解答见下面的“基于大数据语料库的GA-BP神经网络的中文分词仿真的研究”内容。基于大数据语料库的GA-BP神经网络的中文分词仿真的研究摘要:中文自动分词是中文信息处理的一项十分关键也极其重要的工作，它被应用在机器翻译，自动问答系统，自动文摘系统，搜索引擎等众多领域。分词的准确与否，直接关系到后续工作如词性标注等能否顺利展开。在这个大数据的时代，传统的分词技术已经不能适应汉语语言的不断丰富发展和壮大。本文利用神经网络具有逼近任意非线性系统的映射能力以及良好的自组织、自学习和记忆联想的特点，提出了基于大数据语料库的GA-BP神经网络的中文分词技术。在BP神经网络的基础上结合了GA遗传算法，使得BP神经网络的收敛速度和中文文本切分词的准确率得到了很大的提高。利用BP神经网络工具进行中文文本分词准确率达到了约84%，经过GA-BP神经网络的组合算法进过优化使得中文文本的分词准确率达到了94%。关键词：中文分词；语料库； GA-BP；神经网络；java仿真251 问题分析1.1问题提出 “词是最小的能够独立活动的有意义的语言成分”。而汉字的书写是以字为基本单位的，它不像英语有天然的空格分隔符。人是可以通过自己学到的汉语知识来正确辨明哪些字可以组成一个词，这些词组在一起表达一个什么含义，那么如何让计算机理解这样一连串的字符串呢？中文分词技术便应运而生。中文分词技术，作为自然语言处理的一部分，就是将一句话切分成一个个有意义的词。然而汉语的复杂性，多样性，广泛性是给中文分词带来的莫大挑战！1.2模型建立基于神经网络原理分词，就要考虑用什么规则将汉语句子输入到神经网络，输进去后，神经网络怎么对这些数据进行处理从而构造出属于自己的知识库呢，最后怎么把处理结果很直观的表示出来呢？基于以上问题，本文采用一个三层前向网络，即输入层、学习层、输出层。1.2.1输入层的建立（1）样本的选取首先，就是要对训练样本进行采集，本文使用的样本是2012年搜狐新闻数据语料库（见附录中的语料库.tar.gz 文件）。这里面包含了大量的汉语语言信息。当然在这样一个大数据的背景下，它只是一个小小的微缩模型。大数据可以利用真实世界的镜像作为模型研究，这个镜像指的是可以反映现实社会某个侧面的东西，比如说网络“采用现实世界中的某个代表性镜像模型，例如微博空间，就可以充当比较完美的现实缩微模型，来研究巨量的社会人群行为”。（2）数据的预处理为了使神经网络能够接受外部输入的数据，就需要建立输入模型。但是原始的汉字是神经网络所不认识的。所以，首先要从输入的字符流中取出语句，进行规整处理,如限定字长，对汉字加上分隔符等，然后对汉字进行编码，最后，再进行切分格式的转换，把中文句子转换成神经网络可以识别，学习和存储的编码形式，送至神经网路的接口。神经网络输入节点数的选取：因为每个汉字用16位二进制表示，每次以10个汉字为中文文本数据单位进行分词处理，那么就有160个输入节点。1.2.2神经网络学习层的建立（1）神经网络隐含层节点的选取学习层即隐含层，输入层到隐含层的连接方式是全连接的方式，每一个连接都有一个权重。隐含层各神经元不相互连接。根据公式（1）选择隐含层节点数。 (1)其中n为输入的节点，m为输出的节点数，a为2到10之间的常数。（2）学习训练过程在学习训练开始的时候随机初始化神经网络的各节点的连接权和阈值。对于网络的每一个样本，首先进行前向传播并计算出各单元的实际输出，计算各单元实际输出与目标输出之间的误差。当各单元的参考误差都求出来之后，对连接权值、各单元阈值进行调整，将语料库中所有的样本都进行相同的操作，持续对权值和阈值进行调整，以使输出的误差满足达到要求。1.2.3输出层的建立（1）输出层节点数在模型中输出表示输入的1个中文文本数据单位即输入的10个汉字的切分结果。一个长度为L的句子包含的可能切分点数目为L-1。上文中约定以10个汉字为数据单元，则输出层神经元的节点数就是9。因此，本文把输入层的节点定为9个。（2）规范化处理神经网络的每一个输出节点都意味着一种切分方式，可以运用已有的知识进行中文分词。输出模块属于分词系统的后续处理，用来解读分词结果。神经网络经过大量的学习，神经网络已经形成了自己的知识库。实验发现，每个输出节点的输出值是介于0到1的数值。那我们怎样来评判这些数据呢。经过大量实验分析，本文将小于等于0.6的数值视为0，否则视为1。其中0就代表拒绝切分，1就代表切分。1.3分析总结从以上分析可以得出，基于GA-BP神经网络的分词方法，从本质上来讲，是一个非线性、并行、逻辑的处理方法，它试图去逼近但却独立于一个具体的数学模型来抽象模拟出人对语言知识的理解学习的过程。它最终是基于大量的输入输出数据，而不依赖具体的数学模型的计算，也没有具体的数学公式拿来套用。基于GA-BP神经网络的分词系统是一个输入到输出的高度映射的系统，它可适应不断变化的汉语言现象，并且新样本的出现不会影响神经网络的处理速度。2 符号说明符号说明来自神经元的输入第个神经元的阈值输入层节点数隐含层节点数输出层节点数隐含层的传递函数输出层的传递函数第个神经元的输出第个神经元的净输入值输入层与隐含层之间的权值隐含层与输出层之间的权值第个样本的误差期望输出全局误差学习率输入层误差隐含层误差适应度函数3 模型建立3.1 BP神经网络模型的建立BP神经网络是一种按误差逆传播算法训练的多层前馈网络，是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射关系，而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法，通过反向传播来不断调整网络的权值和阈值，使网络的误差平方和最小。BP神经网络模型拓扑结构包括输入层（input）、隐含层(hide layer)和输出层(output layer)。BP神经网络具体的结构如图1所示。图1 BP神经网络结构图3.1.1神经元图2给出了第j个基本BP神经元（节点），它只模仿了生物神经元所具有的三个最基本也是最重要的功能：加权、求和与转移。其中分别代表来自神经元1、2的输入；则分别表示神经元1、2与第个神经元的连接强度，即权值；为阈值；为传递函数；为第个神经元的输出。图2 BP神经元第个神经元的净输入值为: (2)其中：若视，即令及包括及，则于是节点的净输入可表示为： (3)净输入通过传递函数后，便得到了第个神经元的输出: (4)式中是单调上升函数，而且必须是有界函数，因为细胞传递的信号不可能无限增加，必有一最大值。3.1.2 BP神经网络3.1.2.1正向传播BP算法由数据流的前向计算（正向传播）和误差信号的反向传播两个过程构成。正向传播时，传播方向为输入层隐含层输出层，每层神经元的状态只影响下一层神经元。若在输出层得不到期望的输出，则转向误差信号的反向传播流程。通过这两个过程的交替进行，在权向量空间执行误差函数梯度下降策略，动态迭代搜索一组权向量，使网络误差函数达到最小值，从而完成信息提取和记忆过程。设BP神经网络的输入层有个节点，隐含层有个节点，输出层有个节点，输入层与隐含层之间的权值为，隐含层与输出层之间的权值为。隐含层的传递函数为，输出层的传递函数为，则隐含层节点的输出为： (5)其中：输出层节点的输出为： (6)其中：这样BP神经网络就完成了维空间向量到维空间向量的近似映射。3.1.2.2 逆向传播（1）定义误差函数输入个学习样本，用表示。第个样本输入到网络中得到的输出为(其中)，采用平方型误差函数，得到第个样本的单个样本的均方误差为： (7)对于个样本的全局均方误差为： (8)（2）输出层权值变化采用累计误差BP算法调整，是全局误差变小。即： (9)定义输出层误差信号： (10)其中： (11) (12)公式(11)为输出层传递函数的偏微分。由公式(9)(10)(11)可以推导得到： (13)于是就有： (14)最终得到输出层各个神经元的权值调整公式为： (15)（3）隐含层的权值变化采用累计误差BP算法调整，是全局误差变小。即： (16)定义隐含层误差信号： (17)其中： (18) (19) (20)公式(19)是隐含层传递函数的偏微分。由公式(16)(17)(18)(19)得到： (21)于是就得到： (22)最终得到隐含层各个神经元的权值调整公式为： (23)3.2 GA-BP神经网络模型的建立BP算法理论具有依据可靠、推导过程严谨、精度较高、通用性较好等优点，但标准BP算法也存在一些缺点，比如收敛速度缓慢；容易陷入局部极小值；难以确定隐含层数和隐含层节点个数。因此，本文采用遗传算法来优化BP神经网络。遗传算法是一种模拟生物界自然选择和自然遗传机制的高度并行、随机、自适应优化搜索算法。它具有隐含的并行性和对全局信息的有效搜索能力，采用概率化的寻优方法，能自动获取和指导优化的搜索空间，自适应地调整搜索方向，不需要确定的规则，遗传算法尤其适合于处理传统搜索方法解决不了的复杂的非线性问题。GA-BP算法就是在BP算法之前，先用GA在某一点集中遗传出优化值，以此作为BP算法的初始权值，再由BP算法进行训练，而后运用BP神经网络控制，这就是GA-BP算法的基本原理。形成这种混合的GA-BP算法，解决BP神经网络容易陷入局部极小值的问题，同时提高分词过程的收敛速度，也可以发挥神经网络的概括映射能力，从而达到优化神经网络的目的。GA-BP算法的步骤如图3所示。图3 GA-BP流程图其中，初始化包括对种群、交叉概率、高斯变异概率以及网络间权值的初始化操作，选择和遗传过程中以概率对两个个体和进行交叉操作后，产生新的个体和，而对没有进行交叉操作的个体进行直接复制。3.

注意事项

本文（基于大数据语料库的GABP神经网络的中文分词仿真的研究资料）为本站会员（206****923）主动上传，金锄头文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即阅读金锄头文库的“版权提示”【网址:https://www.jinchutou.com/h-59.html】，按提示上传提交保证函及证明材料，经审查核实后我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。