Statistical vs (2020年整理)..ppt

资源ID：133023018 资源大小：566.50KB 全文页数：38页
资源格式： PPT 下载积分：15金贝

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要15金贝

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

1、金锄头文库是“C2C”交易模式，即卖家上传的文档直接由买家下载，本站只是中间服务平台，本站所有文档下载所得的收益全部归上传人（卖家）所有，作为网络服务商，若您的权利被侵害请及时联系右侧客服；
2、如你看到网页展示的文档有jinchutou.com水印，是因预览和防盗链等技术需要对部份页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有jinchutou.com水印标识，下载后原文更清晰；
3、所有的PPT和DOC文档都被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；下载前须认真查看，确认无误后再购买；
4、文档大部份都是可以预览的，金锄头文库作为内容存储提供商，无法对各卖家所售文档的真实性、完整性、准确性以及专业性等问题提供审核和保证，请慎重购买；
5、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据；
6、如果您还有什么不清楚的或需要我们协助，可以点击右侧栏的客服。

下载须知 | 常见问题汇总

1、会员注册 2、如何支付与充值 3、个人资料信息修改 4、我的收藏和“收藏文件夹” 5、我的读者群和加入读者群 6、我的书签 7、金锄头文库批量上传工具（绿色版）V1.0 8、下载文档（资源）相关问题整理 9、解决下载文档时，自动弹出迅雷的问题 10、下载时为什么支付不成功？

Statistical vs (2020年整理)..ppt

作为人工智能分支的自然语言处理停滞的技术赵海上海交通大学计算机科学与工程系zhaohai 沈阳2010 09 18 2 起源以人工智能的知识工程的角度来看待分析当前的自然语言处理技术当前的自然语言处理被机器学习为代表的自动化数据挖掘技术所严重渗透可将其归结为一种知识获得和学习分离的智能系统处理方法忽略了基本的机器学习原则而导致低效的知识处理两个关联但是有区别的困境单一的数据挖掘方式的自然语言处理未能从根本上改变知识表示和知识获取的人工智能困难以监督学习为代表的统计机器学习方法并不能带来真正的实用化的推广性能增长我们的建议 3 内容自然语言处理中的机器学习技术的兴起被忽略的准则没有免费的午餐丑小鸭Zipf律困境的实例学习性能增长根本来源是语料增长指数增长的语料带来线形的性能提升结语 4 机器学习的兴起现代方法最大熵用于词性标注AdwaitRatnaparkhi JeffreyC Reynar SalimRoukos AMaximumEntropyModelforPrepositionalPhraseAttachment HLT1994机器翻译FranzJosefOch HermannNey DiscriminativeTrainingandMaximumEntropyModelsforStatisticalMachineTranslation InACL2002 Proc ofthe40thAnnualMeetingoftheAssociationforComputationalLinguistics bestpaperaward pp 295 302 Philadelphia PA July2002 CoNLLTheConferenceonComputationalLanguageLearning CoNLL 97 washeldonJuly11 1997inMadrid Spain Namedentityrecognition chunking semanticrolelabeling dependencyparsing jointlearningofsyntacticandsemanticdependencies etc 5 机器学习方法的兴起中文处理 Bakeoff 1 2003分词Bakeoff 2 2005分词统一的机器学习方法Bakeoff 3 2006分词命名实体识别Bakeoff 4 2007 2008分词命名实体识别词性标注 6 为什么要机器学习样本比规则好定义规则会忽略低频情形语言的解释涉及的因素过多FernandoPereiraMachineLearninginNaturalLanguageProcessingUniversityofPennsylvaniaNASSLLI June2002 7 为什么要机器学习机器学习降低了知识表示的难度 8 机器学习方法的特征标注数据语料知识表示学习方法知识获取 9 机器学习方法的特征机器学习针对于传统的人工智能知识表示和获取的分离语料构建专注于知识表示机器学习专注于知识获取对比专家系统规则的获取和表示是同步的规则的管理是低效率的困难的 10 机器学习和知识源从知识工程看待机器学习规则1学习模型本身特征体系规则2 n标注语料 11 学习模型学习模型的三要素目标函数知识源特征体系部分的知识源参数估计算法与知识源基本无关 12 机器学习数据假定已有数据合理近似现实世界拥有数据训练数据集 trainingsetdata 训练测试数据 testingdata 评估验证集 validationset 避免过拟合 overfitting 真实数据 realdata 最终的检验 13 学习模型并不重要定理没有免费的午餐结论描述byDavidWolpertandWilliamG Macready由于对所有可能函数的相互补偿最优化算法的性能是等价的没有其它任何算法能够比搜索空间的线性列举或者纯随机搜索算法更优该定理只是定义在有限的搜索空间对无限搜索空间结论是否成立尚不清楚参考文献Wolpert D H Macready W G 1995 NoFreeLunchTheoremsforSearch TechnicalReportSFI TR 95 02 010 SantaFeInstitute Wolpert David 1996 TheLackofAPrioriDistinctionsbetweenLearningAlgorithms NeuralComputation pp 1341 1390 Wolpert D H Macready W G 1997 NoFreeLunchTheoremsforOptimization IEEETransactionsonEvolutionaryComputation1 67 14 算法的人工倾向任何学习算法都需要一些倾向性用来区分可能的结果回到知识源的观点学习模型的三要素目标函数知识源特征体系部分的知识源参数估计算法与知识源基本无关 15 不拒绝个别优化机器学习的最优是依赖于案例特性的算法可能特别适应于某个特定任务存在一般的优越算法吗不存在 16 学习模型vs 特征工程我们给出的一个没有免费午餐定理的直观的强化描述给定任何一个学习模型如果进行充分的特征工程则在此意义下没有一个学习模型能够给出更优的性能举例我们在依存句法分析上的实践Nivre验证SVM提供了最强的性能我们用最大熵在同样的学习框架下给出了更强的结果而通常认为SVM这样的边界最大化分类器优于最大熵我们在语义依存分析上的实践我们同行用联合学习模型我们使用纯粹的特征工程 CoNLL 2009评测结果我们在SRL项目总分第一 17 丑小鸭原理 20世纪60年代美籍日裔模式识别专家渡边慧证明了丑小鸭定理该定理认为丑小鸭与白天鹅之间的区别和两只白天鹅之间的区别一样大世界上不存在分类的客观标准一切分类标准都是主观的渡边慧举了鲸鱼的例子说明该定理按照生物学分类方法鲸鱼属于哺乳类偶蹄目和牛是一类但在产业界捕鲸与捕鱼都要行船出海鲸和鱼同属水产业而不属于包括牛的畜牧业分类结果取决于选择什么特征作为分类标准而特征的选择又依存于人的目的或价值观丑小鸭是白天鹅的幼雏在画家眼里丑小鸭和白天鹅的区别大于两只白天鹅的区别但在遗传学家眼里丑小鸭与其父亲或母亲的差别小于父母之间的差别参考文献Watanabe Satosi 1969 KnowingandGuessing AQuantitativeStudyofInferenceandInformation NewYork Wiley pp 376 377 18 Zipf sLaw 数据稀疏的严重性 19 严重的问题统计方法如何克服严重的稀疏性不断增大标注数据 20 研究者的通常做法忙于把各种最新的机器学习方法移植到所有的自然语言处理任务上并企图证明某个最新机器学习模型的移植是最有效的忘了没有免费的午餐少有人考虑特征工程语料构建 21 不能脱离人的主观性的机器学习小结从语料中自动获得表达知识的规则依赖于人的主观定义下的启发式规则确定特征和目标函数知识的流动从语料到学习获得的模型大量的标注数据的获得并不容易但是必须 22 一个简单的机器学习任务中文分词 Bakeoff切分语料CRF学习模型字标注框架 23 分词信息的知识源切分语料辅助切分器作为特征词典最大匹配结果作为特征参考文献HaiZhao Chang NingHuang MuLi 2006 AnImprovedChineseWordSegmentationSystemwithConditionalRandomField SIGHAN 2006Low JinKiat Ng HweeTou Guo Wenyuan 2005 AMaximumEntropyApproachtoChineseWordSegmentation SIGHAN 2005 24 数据方法字标注学习方法CRFs前向最大匹配算法参考文献HaiZhao YanSongandChunyuKit HowLargeaCorpusdoWeNeed StatisticalMethodvs Rule basedMethod LREC 2010 25 实验1 统计方法给出的结果等效于有效知识源的扩大辅助分类器 26 实验1 结果 CTB2006MSRA2006 27 实验1 为什么附加语料提升性能作为机器学习的解释学习模型记住了引入的新的字搭配模式改进了Foov我们需要多少附加语料有效知识源扩大只要知识源规模不断扩大性能就能提升学习模型的贡献在哪里 28 实验1 谨慎的结论开放测试问题是否可以转换为一个单一的可供集成的语言资源的扩大我们部分做到了这一点机器学习模型的贡献有限 29 实验2 评估语料规模对性能的影响如果语料规模是唯一影响性能的因素那么对于一个特定的性能度量要多大规模的语料来学习 30 实验2 数据划分是用平均化策略克服过小数据集的数据稀疏性 31 实验2 学习曲线 CRFsvs FMM 32 实验2 CRFs性能vs语料规模指数增长的语料带来线形性能提升 33 实验2 FMM性能vs 语料规模 34 实验2 FMM词典大小vs 性能 35 实验2 小结坏消息统计方法下面线性的性能增长要指数规模扩大的语料以便克服Zipf率带来的稀疏性扩大语料并非易事好消息规则方法要求线性的资源扩大统计方法vs规则方法考虑词典比语料容易获得 36 目前的问题机器学习方法的使用部分地解决了知识表示问题但是没有根本解决这一问题机器学习方法依然依赖于人工知识特别是人工规则方法机器学习方法过度依赖于标注语料的规模机器学习方法的NFL特性被忽略不断尝试最新的学习模型不是技术进步 37 我们的建议从知识工程的角度考虑问题考虑更好的语料组织形式知识库考虑NFL因素关注特征工程谢谢

注意事项

本文（Statistical vs (2020年整理)..ppt）为本站会员（摩西的****12）主动上传，金锄头文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即阅读金锄头文库的“版权提示”【网址:https://www.jinchutou.com/h-59.html】，按提示上传提交保证函及证明材料，经审查核实后我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。