好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

文本情感分析若干问题研究.pdf

58页
  • 卖家[上传人]:206****923
  • 文档编号:46764467
  • 上传时间:2018-06-27
  • 文档格式:PDF
  • 文档大小:2.07MB
  • / 58 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 文本情感分析若干问题研究 Research on Sentiment Analysis 姓名:陈燕鹏 学号:11009049 学院:工学院 导师:于津 副教授 专业:计算机软件与理论 入学:2010/09/01 答辩: 学位论文原创性声明 本论文是我个人在导师指导下进行的工作研究及取得的研究成果论文中除了特别加以标注和致谢的地方外,不包含其他人或其它机构已经发表或撰写过的研究成果对本文的研究做出贡献的个人和集体,均已在论文中以明确方式标明本人完全意识到本声明的法律责任由本人承担 作者签名: 日期: 年 月 日 学位论文使用授权声明 本人授权汕头大学保存本学位论文的电子和纸质文档,允许论文被查阅和借阅;学校可将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其它复制手段保存和汇编论文;学校可以向国家有关部门或机构送交论文并授权其保存、借阅或上网公布本学位论文的全部或部分内容对于保密的论文,按照保密的有关规定和程序处理 本论文属于:保密( ) ,在 年解密后使用本授权声明 不保密( ) (请在以上括号内打“√” ) 作者签名: 导师签名: 日期: 年 月 日 日期: 年 月 日1 摘要摘要 随着旅游行业在全球范围内的快速发展,人们越来越倾向于通过有效的搜索引擎寻找发现有趣的地方以及收集相关的信息。

      随着 Web2.0 的迅猛发展,越来越多的人会在一些旅游社区网站上(如马蜂窝,驴评网,穷游网等网站)分享自己的旅游经历,通过点评、游记等方式记录对目的地,景点,酒店或者相关产品服务的体验感受这些网站已经成为旅游者收集相关信息的主要来源然而,人们常常淹没在数量巨大的评价内容中,很难从海量数据中找到关于旅游目的地的有用信息文本情感分析以带有主观性信息的文本为研究对象,目的是识别、分类、抽取、标注这些文本里表达的情感、观点、影响对这些评论进行分析归纳,挖掘有价值内容,帮助用户更好地做旅行决策,是迫切需要解决的问题 本文围绕提高情感分类性能以及不平衡数据集的情感分类两个话题进行实验研究,主要工作包括以下几个方面: 1) 提出了基于序列化规则(Serialization Rules)的特征提取算法—SR 识别情感所表达的实体和情感表达的方式是情感文本分类的重要环节,情感分析任务中都采用词作为特征项,称作特征词其中,情感表达的实体,被称为主题词;情感是怎样表达的,是指情感词本文针对特定的句法结构,提出了基于序列化规则的特征提取方法—SR, 有效地提取出能较好代表文本内容的特征项, 去除了一些无关的, 冗余的特征项,大大降低了特征向量的维度,降低了计算复杂度,提高了文本分类的精确性。

      2) 结合集成学习理论解决不平衡数据集的情感分类问题 文本情感分类的大部分研究中,进行分类的正负类样本数量基本一致的,即正负类样本是平衡的然而在实际的应用场景中,常常出现分类样本中一个类别的样本数量是另一类别样本数量的几倍, 多数类样本的数量远远大于少数类样本, 这就是情感分类问题中 “不平衡” 问题 本文通过结合欠抽样技术和集成学习理论对不平衡的情感分类数据进行分类,装袋欠抽样算法—BUS(Bagging and Under Sampling)与 Stacking 组合分类器器方法,提高其分类性能,将情感分类技术能真正运用到实践过程中 关键字关键字:情感分类,特征提取,不平衡数据集,集成学习,组合分类器 汕头大学硕士学位论文 文本情感分析若干问题研究 2 Abstract Due to the rapid growth of the tourism industry around the globe,tourists tend to find information of interesting attractions via available search engines. With the rapid growth of Web 2.0 in the past few years,tourists generally share their experiences through travel social network websites (Travel 2.0) such as www.mafengwo,cn,. These websites have become major sources of information for tourists; however,due to the amount of available opinionated text,tourists are often overwhelmed with information. As a consequence,tourists find it extremely difficult to obtain any useful comments to make a decision regarding their travel destinations. Sentiment Analysis is therefore proposed to classify comments gathered from available travel social network websites into predefined aspects and further analyze comments into positive and negative. It is a problem to analysis the evaluative text, find out the hidden and valuable infomation, help the tourists to make a travel plan more easily. In the article, we focuses on improving the sentiment classification performance and unbalanced datasets sentiment classification, the main work includes the following aspects: 1) A feature selection method based on Serialization Rules. It is an important part of the sentiment classificaion to identify the emotional expression way and the emotions expressed. Sentiment analysis uses the word as a fearture item which called feature words. The emotional expression of the entity, referred to as the subject term; How emotiona express , is refers to the emotional term. We focus on the particular syntactic structure and put forward a new feature selection method which is based on serialization rules. we can effectively extract the more valuable characteristics of the text content via the method, greatly reduce the feature vector dimensions, improve the accuracy of text classification. 2) Combined with the ensemble learning theory to solve the problem of unbalanced datasets sentiment classification. Most of the research in sentiment classification, the number of positive and negative class is basically the same. However, in the actual application, the number of majority class is several times the number of minority class. the majority of class samples is far greater than the number 汕头大学硕士学位论文 文本情感分析若干问题研究 3 of minority class samples. This is the “unbalanced“ problem in sentiment analysis. The combinaton of the under-sampling techniques and ensemble learning theory can improve the classification performance. Sentiment classification technology can really be applied to practice. Keywords: Setiment classification, Feature Selection, Unbalanced Dataset, Ensemble Learning, Under-Sampling 汕头大学硕士学位论文 文本情感分析若干问题研究 4 目录目录 摘要摘要 ................................................................................................................................................. 1 Abstract .......................................................................................................................................... 2 目录目录 ................................................................................................................................................. 4 第一章第一章 绪论绪论 ...............................................。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.