您所在位置：网站首页 > 生活休闲 > 科普知识 > 中文文本情感倾向性分析

中文文本情感倾向性分析.pdf

7页

卖家[上传人]：mg****85

文档编号：43144915

上传时间：2018-06-04

文档格式：PDF

文档大小：485.35KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10金贝

下载

/ 7 举报版权申诉马上下载

文本预览

下载提示

常见问题

中文文本情感倾向性分析黄萱菁赵军引言引言大约在两年半前，《新华网》、《环球时报》等大众媒体纷纷转载了英国《新科学家》杂志的一则报道，英国 Corpora 软件公司开发了一套名叫“感情色彩(Sentiment)”的软件1，它能判断报纸刊登的文章对一个政党的政策是持肯定态度还是否定态度、或者网上评论文章是称赞还是贬低一种产品，以帮助政府和一些大公司全面了解公众舆论对他们的看法这则报道之所以引起了舆论的广泛关注，是因为它介绍的是一个非常新颖而又很有价值的研究方向所谓文本情感倾向性分析，就是对说话人的态度（或称观点、情感）进行分析，也就是对文本中的主观性信息进行分析由于立场、出发点、个人状况和偏好的不同，民众对生活中各种对象和事件所表达出的信念、态度、意见和情绪的倾向性必然存在很大的差异这种差异尤其体现在论坛、博客等反映草根观点的网络媒体上长期以来，要了解关于某个问题的报道是正面的还是反面的，是消极的还是中立的，往往需要求助于调查公司这些公司的员工仔细阅读有关某个机构、个人、事件或问题的所有文字，然后就这些评论的态度做出反馈。

这不仅耗费大量人力和财力，而且1 spx 过程相当缓慢由此可见，这一过程的自动化，具有很好的商业应用前景文本情感倾向性分析属于计算语言学的范畴在计算语言学以及相关领域，研究人员以前普遍关注的是客观性信息的分析和提取，对主观性信息分析与提取的研究尚处于起步阶段，存在很多问题需要进行全面的探索这项研究涉及到计算语言学、人工智能、机器学习、信息检索、数据挖掘等多方面研究基础，因此文本情感倾向性分析也具有重要的学术研究价值总体来看，情感倾向分析的研究大致可以分成词语情感倾向性分析、句子情感倾向性分析、篇章情感倾向性研究、海量信息的整体倾向性预测四个研究层次接下来将介绍在各个层次所取得的研究进展，之后是情感倾向性分析标准语料库的建设和系统评测，最后是本文的结论词语词语情感情感倾向性分析倾向性分析对词语的情感倾向研究是文本情感倾向分析的前提具有情感倾向的词语以名词、动词、形容词和副词为主，也包括人名、机构名、产品名、事件名等命名实体其中，除部分词语的褒贬性（或称为极性，通常分为褒义、贬义和中性三种）可以通过查词典2的方式得到之外，其余词语的极性都无法直接获得。

而词语的情感倾向除了极性之外，还包括倾向性的强烈程度例如， “谴责” 的强度就远远超过了 “批评” 和 “指责” ，而这种强度是很难由词典编撰者用人工的方式量化的另外，词语的极性往往取决于特定的上下文环境，例如， “骄傲”在表示2 例如，General Inquirer [Stone,1966]，知网：heep:// 自豪概念时，是褒义词，而在表示自满概念时，则是贬义词词语情感倾向分析包括对词语极性、强度和上下文模式的分析其分析结果甚至可以写入到语义词典中，如北京大学计算语言学研究所基于人民日报基本标注语料库的真实文本实例进行统计归纳，从而得到词语的情感倾向，然后在现代汉语语法信息词典中形式化[王治敏 2004]词语情感倾向分析目前主要有三种方法： ①由已有的电子词典或词语知识库扩展生成情感倾向词典：英文词语情感倾向信息的获取主要是在 WordNet3和 General Inquirer的基础上进行的 [Hatzivassiloglou,1997] [Wilson2005]；而中文词语情感倾向信息的获取依据的主要有 HowNet[朱嫣岚 2006]。

这种方法的主要思想是：给定一组已知极性的词语集合作为种子，对于一个情感倾向未知的新词，在电子词典中找到与该词语义相近、并且在种子集合中出现的若干个词，根据这几个种子词的极性，对未知词的情感倾向进行推断这种方法对种子词数量的依赖比较明显 ②无监督机器学习的方法：这种方法与第①种方法类似，也是假设已经有一些已知极性的词语作为种子词，对于一个新词，根据它和种子词的紧密程度对其情感倾向性进行推断不同的是，第①种方法的词语紧密程度度量是以词典信息为依据判断，而这种方法是根据词语在语料库中的同现情况判断其联系紧密程度根据[Turney, 2002& 2003]的经典方法，假设以 “真” 、 “善” 、 “美” 作为褒义种子词， “假” 、 “恶” 、 “丑”作为贬义种子词则任意其它词语的语义倾向 SO定义为与各褒义种子词PMI(点态互信息量)之和，减去与各贬义种子词 PMI 之和 SO 的正负号就可以表示词语的极性，而绝对值就代表了强度词语 A 和 B 的 PMI 定义为它们在语料库中的共现概率与 A、B 概率之积的比值这个值越高，就意味着相关性越大。

有趣的是，PMI 计算可通过搜索引擎进行，计算 A 的概率，可以把 A 当作查询送给搜索引擎，那么返回的 Hits 值（含有3 WordNet A 的页面数）和总的索引页面数的比值，就可以认为是 A 的概率要计算 A 和 B 的共现概率，只要把 A 和 B 同时送给搜索引擎就可以了这种方法同样存在着对种子集的依赖性比较强的问题，而且噪声比较大 ③基于人工标注语料库的学习方法：首先对情感倾向分析语料库进行手工标注标注的级别包括文档集的标注（即只判断文档的情感倾向性）、短语级标注和分句级标注在这些语料的基础上，利用词语的共现关系、搭配关系或者语义关系，以判断词语的情感倾向性这种方法需要大量的人工标注语料库，典型的工作如 Wiebe 利用词语的搭配模式发现在主观性文本中的倾向性词语及其搭配关系[Wiebe,2001] 不可不提的是香港城市大学语言资讯科学中心在 LIVAC 共时语料库上进行的名人信誉分析研究他们选择泛华语地区有代表性的中文媒体，对相应的新闻报道进行深层次的人工标注，对并在该语料库上开展中文文章正负两极性自动分类的研究，通过人物褒贬指数的计算，发布京港台双周名人榜，并用－ 10 到 10 之间的数表示名人在三地报章的信誉度[T'sou et al. 2005]，例如某段时间内，陈水扁在中港台三地的信誉度分别是-10、 -6.2 和-4.6。

句子句子情感情感倾向性分析倾向性分析词语情感倾向分析的处理对象是单独的词语或者实体，而句子情感倾向性分析的处理对象则是在特定上下文中出现的语句其任务就是对句子中的各种主观性信息进行分析和提取，包括对句子情感倾向的判断，以及从中提取出与情感倾向性论述相关联的各个要素，包括情感倾向性论述的持有者、评价对象、倾向极性、强度，甚至是论述本身的重要性等例如，对于例句“XXX绝不是一款能放心开下公路的 SUV当然，在公路上它的表现令人满意” ，我们可以得到以下两条情感倾向性论述：论述持有者对象极性强度重要性 1 作者 XXX 贬强强 2 作者 XXX 褒弱弱如果说句子是点，那么由句子构成的篇章是线，而由多篇文章组成的语料库就是面在句子情感倾向分析的基础上，可以很方便地进行篇章的情感倾向分析，甚至可以得到海量信息的整体倾向性态势长期以来，客观性信息提取都是计算语言学的研究热点，但尚未研究透彻近年来 ACE(自动内容提取会议)的评测结果也表明，命名实体识别和指代消解的性能尚可，但实体间关系的提取则显得很困难4，主观性信息的提取更是如此。

这方面的研究即使在英文上也是少数，且集中在对句子情感倾向性的判断上 [Kim,2004] [Wiebe & Riloff,2005]在此基础上，[Kim,2005]尝试识别情感倾向性论述的持有者而关于系统地提取句子的情感倾向性信息的多个要素方面的研究，目前还少有报道对中文的研究也主要集中在句子情感倾向性论述的某个侧面例如，[王波 2007] 的主要工作是在情感倾向性论述定位评价对象考察两个例句： (a) 功能很全面，价格也很便宜 (b) 我买电脑时最关心的是功能和价格功能和价格在例句 a 中是评价对象，但在例句 b 中并不是他主要考察在只有规模很小的标注语料可用时，如何采用半监督自学习方法对评价对象进行迭代学习 [王根 2007]则关注于句子情感倾向性的判断他提出了一个分级模型，可以将句子的主客观性判别、褒贬分类和褒贬分级统一在一起：首先将句子分为主观句和客观句，对于主观句，分成赞扬和贬斥两类，每类再分成强烈和微弱两种强度；并提出了一种基于多重标记 CRF 的方法来加以解决 [章剑峰 2007]所针对的具体任务是抽取评价词和目标对象之间的关联关系。

这里4 http://www.nist.gov/speech/ tests/ace/index.htm 的关联除了句法上的直接关联，也包括语义上的间接关联目标对象被细分为直接评价对象和间接评价对象两种如在例句“品牌 A 的造型很美观” 中，评价词是 “美观” ， “造型”是“美观”直接评价的对象，而“品牌 A”是间接评价对象他们把在同一句子中共现的评价词与评价对象作为候选集合，应用最大熵模型进行关系抽取篇章篇章情感情感倾向性研究倾向性研究篇章级情感倾向性分析，就是要从整体上判断某个文本的情感倾向性，即褒贬态度有代表性的工作包括[Turney, 2002]和 [Pang, 2002]对电影评论的分类Turney 的方法是将文档中词和短语的倾向性进行平均，来判断文档的倾向性这种方法基于情感倾向性词典，不需要人工标注了文本情感倾向性的训练语料； Pang 的任务是对电影评论的数据按照倾向性分成两类，他利用人工标注了文本倾向性的训练语料，基于 unigram 和 bigram 等特征，学习分类器将篇章作为一个整体，笼统地进行主观性分析存在很大局限性，其本质缺陷在于假设整个文本是针对同一个对象进行评论。

而真实文本往往由包含多个对象，不同的对象所涉及到的观点、态度等主观性信息是有差异的从另一方面看，篇章内的对象总数仍是有限的，不足以支撑对于整体倾向性的挖掘因此，这两年根据情感倾向对篇章进行褒贬态度分类的研究有减少的趋势；更多的研究集中在篇章内进行情感倾向性论述的分析，以及在大规模数据集上进行整体倾向性分析海量数据海量数据的整体倾向性预测的整体倾向性预测所谓整体倾向性预测，是针对海量数据而言的，其主要任务是：对从不同信息源抽取出的、针对某个话题的情感倾向性信息进行集成和分析，进而挖掘出态度的特点和走势 Durant 提出利用 Web log 来帮助对 blog情感倾向的分类[Durant et al. 2006]UIC 的 Liu 和 Hu 等人讨论了从评论中挖掘产品特性的方法，从而得到用户对于产品或者产品某个特性的整体倾向性 [Hu & Liu, 2004][Liu et al. 2005]例如，他们根据用户评论来比较两个款式的数码相机，并用如下图所示的可视化文摘来显示分析结果，每列代表相机的一个属性，水平线表示中立态度，彩条则反映了用户的褒贬度的主要取值范围。

日本富士通公司则开发出了从中文博客和论坛中提取对企业及其产品的评价信息的技术，根据从 web 上抓取的大量用户评论得到产品的整体信誉度，以图表的形式展现不同时间里企业和品牌的正面。

点击阅读更多内容