电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本
换一换
首页 金锄头文库 > 资源分类 > PPT文档下载
分享到微信 分享到微博 分享到QQ空间

Statistical vs (2020年整理)..ppt

  • 资源ID:133023018       资源大小:566.50KB        全文页数:38页
  • 资源格式: PPT        下载积分:15金贝
快捷下载 游客一键下载
账号登录下载
微信登录下载
三方登录下载: 微信开放平台登录   支付宝登录   QQ登录  
二维码
微信扫一扫登录
下载资源需要15金贝
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

 
账号:
密码:
验证码:   换一换
  忘记密码?
    
1、金锄头文库是“C2C”交易模式,即卖家上传的文档直接由买家下载,本站只是中间服务平台,本站所有文档下载所得的收益全部归上传人(卖家)所有,作为网络服务商,若您的权利被侵害请及时联系右侧客服;
2、如你看到网页展示的文档有jinchutou.com水印,是因预览和防盗链等技术需要对部份页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有jinchutou.com水印标识,下载后原文更清晰;
3、所有的PPT和DOC文档都被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;下载前须认真查看,确认无误后再购买;
4、文档大部份都是可以预览的,金锄头文库作为内容存储提供商,无法对各卖家所售文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;
5、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据;
6、如果您还有什么不清楚的或需要我们协助,可以点击右侧栏的客服。
下载须知 | 常见问题汇总

Statistical vs (2020年整理)..ppt

作为人工智能分支的自然语言处理 停滞的技术 赵海上海交通大学计算机科学与工程系zhaohai 沈阳2010 09 18 2 起源 以人工智能的知识工程的角度来看待分析当前的自然语言处理技术 当前的自然语言处理被机器学习为代表的自动化数据挖掘技术所严重渗透 可将其归结为一种知识获得和学习分离的智能系统处理方法 忽略了基本的机器学习原则而导致低效的知识处理两个关联但是有区别的困境单一的数据挖掘方式的自然语言处理未能从根本上改变知识表示和知识获取的人工智能困难 以监督学习为代表的统计机器学习方法并不能带来真正的实用化的推广性能增长 我们的建议 3 内容 自然语言处理中的机器学习技术的兴起被忽略的准则没有免费的午餐丑小鸭Zipf律困境的实例学习性能增长根本来源是语料增长指数增长的语料带来线形的性能提升结语 4 机器学习的兴起现代方法 最大熵用于词性标注AdwaitRatnaparkhi JeffreyC Reynar SalimRoukos AMaximumEntropyModelforPrepositionalPhraseAttachment HLT1994机器翻译FranzJosefOch HermannNey DiscriminativeTrainingandMaximumEntropyModelsforStatisticalMachineTranslation InACL2002 Proc ofthe40thAnnualMeetingoftheAssociationforComputationalLinguistics bestpaperaward pp 295 302 Philadelphia PA July2002 CoNLLTheConferenceonComputationalLanguageLearning CoNLL 97 washeldonJuly11 1997inMadrid Spain Namedentityrecognition chunking semanticrolelabeling dependencyparsing jointlearningofsyntacticandsemanticdependencies etc 5 机器学习方法的兴起中文处理 Bakeoff 1 2003分词Bakeoff 2 2005分词 统一的机器学习方法Bakeoff 3 2006分词 命名实体识别Bakeoff 4 2007 2008分词 命名实体识别 词性标注 6 为什么要机器学习 样本比规则好定义规则会忽略低频情形语言的解释涉及的因素过多FernandoPereiraMachineLearninginNaturalLanguageProcessingUniversityofPennsylvaniaNASSLLI June2002 7 为什么要机器学习 机器学习降低了知识表示的难度 8 机器学习方法的特征 标注数据 语料知识表示学习方法知识获取 9 机器学习方法的特征 机器学习针对于传统的人工智能 知识表示和获取的分离语料构建 专注于知识表示机器学习 专注于知识获取对比 专家系统规则的获取和表示是同步的 规则的管理是低效率的 困难的 10 机器学习和知识源 从知识工程看待机器学习规则1学习模型本身 特征体系规则2 n标注语料 11 学习模型 学习模型的三要素目标函数 知识源特征体系 部分的知识源参数估计算法 与知识源基本无关 12 机器学习 数据 假定已有数据合理近似现实世界 拥有数据训练数据集 trainingsetdata 训练测试数据 testingdata 评估验证集 validationset 避免过拟合 overfitting 真实数据 realdata 最终的检验 13 学习模型并不重要定理 没有免费的午餐 结论描述byDavidWolpertandWilliamG Macready由于对所有可能函数的相互补偿 最优化算法的性能是等价的 没有其它任何算法能够比搜索空间的线性列举或者纯随机搜索算法更优 该定理只是定义在有限的搜索空间 对无限搜索空间结论是否成立尚不清楚 参考文献Wolpert D H Macready W G 1995 NoFreeLunchTheoremsforSearch TechnicalReportSFI TR 95 02 010 SantaFeInstitute Wolpert David 1996 TheLackofAPrioriDistinctionsbetweenLearningAlgorithms NeuralComputation pp 1341 1390 Wolpert D H Macready W G 1997 NoFreeLunchTheoremsforOptimization IEEETransactionsonEvolutionaryComputation1 67 14 算法的人工倾向 任何学习算法都需要一些 倾向性 用来区分可能的结果 回到知识源的观点学习模型的三要素目标函数 知识源特征体系 部分的知识源参数估计算法 与知识源基本无关 15 不拒绝个别优化 机器学习的最优是依赖于案例特性的 算法可能特别适应于某个特定任务存在一般的优越算法吗 不存在 16 学习模型vs 特征工程 我们给出的一个没有免费午餐定理的直观的强化描述给定任何一个学习模型 如果进行充分的特征工程 则在此意义下 没有一个学习模型能够给出更优的性能 举例 我们在依存句法分析上的实践Nivre验证SVM提供了最强的性能我们用最大熵在同样的学习框架下给出了更强的结果 而通常认为SVM这样的边界最大化分类器优于最大熵 我们在语义依存分析上的实践我们同行用联合学习模型 我们使用纯粹的特征工程 CoNLL 2009评测结果 我们在SRL项目总分第一 17 丑小鸭原理 20世纪60年代美籍日裔模式识别专家渡边慧证明了 丑小鸭定理 该定理认为 丑小鸭与白天鹅之间的区别和两只白天鹅之间的区别一样大 世界上不存在分类的客观标准 一切分类标准都是主观的 渡边慧举了鲸鱼的例子说明该定理 按照生物学分类方法 鲸鱼属于哺乳类偶蹄目 和牛是一类 但在产业界 捕鲸与捕鱼都要行船出海 鲸和鱼同属水产业 而不属于包括牛的畜牧业 分类结果取决于选择什么特征作为分类标准 而特征的选择又依存于人的目的或价值观 丑小鸭是白天鹅的幼雏 在画家眼里 丑小鸭和白天鹅的区别大于两只白天鹅的区别 但在遗传学家眼里 丑小鸭与其父亲或母亲的差别小于父母之间的差别 参考文献Watanabe Satosi 1969 KnowingandGuessing AQuantitativeStudyofInferenceandInformation NewYork Wiley pp 376 377 18 Zipf sLaw 数据稀疏的严重性 19 严重的问题 统计方法如何克服严重的稀疏性 不断增大标注数据 20 研究者的通常做法 忙于把各种最新的机器学习方法移植到所有的自然语言处理任务上 并企图证明某个最新机器学习模型的移植是最有效的 忘了没有免费的午餐 少有人考虑特征工程 语料构建 21 不能脱离人的主观性的机器学习 小结 从语料中自动获得表达知识的规则依赖于人的主观定义下的启发式规则确定特征和目标函数知识的流动 从语料到学习获得的模型大量的标注数据的获得并不容易 但是必须 22 一个简单的机器学习任务 中文分词 Bakeoff切分语料CRF学习模型字标注框架 23 分词信息的知识源 切分语料辅助切分器作为特征词典最大匹配结果作为特征参考文献HaiZhao Chang NingHuang MuLi 2006 AnImprovedChineseWordSegmentationSystemwithConditionalRandomField SIGHAN 2006Low JinKiat Ng HweeTou Guo Wenyuan 2005 AMaximumEntropyApproachtoChineseWordSegmentation SIGHAN 2005 24 数据 方法字标注学习方法CRFs前向最大匹配算法参考文献HaiZhao YanSongandChunyuKit HowLargeaCorpusdoWeNeed StatisticalMethodvs Rule basedMethod LREC 2010 25 实验1 统计方法给出的结果等效于有效知识源的扩大 辅助分类器 26 实验1 结果 CTB2006MSRA2006 27 实验1 为什么附加语料提升性能 作为机器学习的解释学习模型记住了引入的新的字搭配模式 改进了Foov我们需要多少附加语料 有效知识源扩大 只要知识源规模不断扩大 性能就能提升 学习模型的贡献在哪里 28 实验1 谨慎的结论 开放测试问题是否可以转换为一个单一的可供集成的语言资源的扩大 我们部分做到了这一点 机器学习模型的贡献有限 29 实验2 评估语料规模对性能的影响 如果语料规模是唯一影响性能的因素 那么对于一个特定的性能度量要多大规模的语料来学习 30 实验2 数据划分 是用平均化策略克服过小数据集的数据稀疏性 31 实验2 学习曲线 CRFsvs FMM 32 实验2 CRFs性能vs语料规模指数增长的语料带来线形性能提升 33 实验2 FMM性能vs 语料规模 34 实验2 FMM词典大小vs 性能 35 实验2 小结 坏消息 统计方法下面 线性的性能增长要指数规模扩大的语料以便克服Zipf率带来的稀疏性 扩大语料并非易事 好消息 规则方法要求线性的资源扩大 统计方法vs规则方法考虑 词典比语料容易获得 36 目前的问题 机器学习方法的使用部分地解决了知识表示问题 但是没有根本解决这一问题 机器学习方法依然依赖于人工知识 特别是人工规则方法 机器学习方法过度依赖于标注语料的规模 机器学习方法的NFL特性被忽略 不断尝试最新的学习模型不是技术进步 37 我们的建议 从知识工程的角度考虑问题考虑更好的语料组织形式 知识库 考虑NFL因素 关注特征工程 谢谢

注意事项

本文(Statistical vs (2020年整理)..ppt)为本站会员(摩西的****12)主动上传,金锄头文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即阅读金锄头文库的“版权提示”【网址:https://www.jinchutou.com/h-59.html】,按提示上传提交保证函及证明材料,经审查核实后我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.