好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

中文文本情感倾向性分析.pdf

7页
  • 卖家[上传人]:mg****85
  • 文档编号:43144915
  • 上传时间:2018-06-04
  • 文档格式:PDF
  • 文档大小:485.35KB
  • / 7 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 中文文本情感倾向性分析 黄萱菁 赵 军 引言引言 大约在两年半前, 《新华网》 、 《环球时 报》 等大众媒体纷纷转载了英国 《新科学家》 杂志的一则报道,英国 Corpora 软件公司开 发了一套名叫“感情色彩(Sentiment)”的软 件1,它能判断报纸刊登的文章对一个政党 的政策是持肯定态度还是否定态度、 或者网 上评论文章是称赞还是贬低一种产品, 以帮 助政府和一些大公司全面了解公众舆论对 他们的看法 这则报道之所以引起了舆论的广泛关 注, 是因为它介绍的是一个非常新颖而又很 有价值的研究方向 所谓文本情感倾向性分 析, 就是对说话人的态度 (或称观点、 情感) 进行分析, 也就是对文本中的主观性信息进 行分析由于立场、出发点、个人状况和偏 好的不同, 民众对生活中各种对象和事件所 表达出的信念、态度、意见和情绪的倾向性 必然存在很大的差异 这种差异尤其体现在 论坛、博客等反映草根观点的网络媒体上 长期以来, 要了解关于某个问题的报道 是正面的还是反面的,是消极的还是中立 的,往往需要求助于调查公司这些公司的 员工仔细阅读有关某个机构、个人、事件或 问题的所有文字, 然后就这些评论的态度做 出反馈。

      这不仅耗费大量人力和财力,而且1 spx 过程相当缓慢由此可见,这一过程的自动 化,具有很好的商业应用前景 文本情感倾向性分析属于计算语言学 的范畴在计算语言学以及相关领域,研究 人员以前普遍关注的是客观性信息的分析 和提取, 对主观性信息分析与提取的研究尚 处于起步阶段, 存在很多问题需要进行全面 的探索这项研究涉及到计算语言学、人工 智能、机器学习、信息检索、数据挖掘等多 方面研究基础, 因此文本情感倾向性分析也 具有重要的学术研究价值 总体来看, 情感倾向分析的研究大致可 以分成词语情感倾向性分析、 句子情感倾向 性分析、篇章情感倾向性研究、海量信息的 整体倾向性预测四个研究层次 接下来将介 绍在各个层次所取得的研究进展, 之后是情 感倾向性分析标准语料库的建设和系统评 测,最后是本文的结论 词语词语情感情感倾向性分析倾向性分析 对词语的情感倾向研究是文本情感倾 向分析的前提具有情感倾向的词语以名 词、 动词、 形容词和副词为主, 也包括人名、 机构名、 产品名、 事件名等命名实体 其中, 除部分词语的褒贬性(或称为极性,通常分 为褒义、贬义和中性三种)可以通过查词典2的方式得到之外,其余词语的极性都无法直接获得。

      而词语的情感倾向除了极性之 外,还包括倾向性的强烈程度例如, “谴 责” 的强度就远远超过了 “批评” 和 “指责” , 而这种强度是很难由词典编撰者用人工的 方式量化的另外,词语的极性往往取决于 特定的上下文环境,例如, “骄傲”在表示2 例如,General Inquirer [Stone,1966],知网:heep:// 自豪概念时,是褒义词,而在表示自满概念 时,则是贬义词 词语情感倾向分析包括对词语极性、 强 度和上下文模式的分析 其分析结果甚至可 以写入到语义词典中, 如北京大学计算语言 学研究所基于人民日报基本标注语料库的 真实文本实例进行统计归纳, 从而得到词语 的情感倾向, 然后在现代汉语语法信息词典 中形式化[王治敏 2004]词语情感倾向分析 目前主要有三种方法: ①由已有的电子词典或词语知识库扩 展生成情感倾向词典: 英文词语情感倾向信 息的获取主要是在 WordNet3和 General Inquirer的基础上进行的 [Hatzivassiloglou,1997] [Wilson2005];而中 文词语情感倾向信息的获取依据的主要有 HowNet[朱嫣岚 2006]。

      这种方法的主要思 想是: 给定一组已知极性的词语集合作为种 子,对于一个情感倾向未知的新词,在电子 词典中找到与该词语义相近、 并且在种子集 合中出现的若干个词, 根据这几个种子词的 极性,对未知词的情感倾向进行推断这种 方法对种子词数量的依赖比较明显 ②无监督机器学习的方法: 这种方法与 第①种方法类似, 也是假设已经有一些已知 极性的词语作为种子词,对于一个新词,根 据它和种子词的紧密程度对其情感倾向性 进行推断不同的是,第①种方法的词语紧 密程度度量是以词典信息为依据判断, 而这 种方法是根据词语在语料库中的同现情况 判断其联系紧密程度根据[Turney, 2002& 2003]的经典方法, 假设以 “真” 、 “善” 、 “美” 作为褒义种子词, “假” 、 “恶” 、 “丑”作为 贬义种子词则任意其它词语的语义倾向 SO定义为与各褒义种子词PMI(点态互信息 量)之和,减去与各贬义种子词 PMI 之和 SO 的正负号就可以表示词语的极性,而绝 对值就代表了强度词语 A 和 B 的 PMI 定 义为它们在语料库中的共现概率与 A、B 概 率之积的比值这个值越高,就意味着相关 性越大。

      有趣的是,PMI 计算可通过搜索引 擎进行,计算 A 的概率,可以把 A 当作查 询送给搜索引擎, 那么返回的 Hits 值 (含有3 WordNet A 的页面数)和总的索引页面数的比值,就 可以认为是 A 的概率要计算 A 和 B 的共 现概率,只要把 A 和 B 同时送给搜索引擎 就可以了 这种方法同样存在着对种子集的 依赖性比较强的问题,而且噪声比较大 ③基于人工标注语料库的学习方法: 首 先对情感倾向分析语料库进行手工标注 标 注的级别包括文档集的标注 (即只判断文档 的情感倾向性) 、 短语级标注和分句级标注 在这些语料的基础上,利用词语的共现关 系、搭配关系或者语义关系,以判断词语的 情感倾向性 这种方法需要大量的人工标注 语料库, 典型的工作如 Wiebe 利用词语的搭 配模式发现在主观性文本中的倾向性词语 及其搭配关系[Wiebe,2001] 不可不提的是香港城市大学语言资讯 科学中心在 LIVAC 共时语料库上进行的名 人信誉分析研究 他们选择泛华语地区有代 表性的中文 媒体, 对相应 的新闻报道 进行深层次 的人工标注, 对并在该语 料库上开展 中文文章正 负两极性自动分类的研究, 通过人物褒贬指 数的计算,发布京港台双周名人榜,并用- 10 到 10 之间的数表示名人在三地报章的信 誉度[T'sou et al. 2005],例如某段时间内, 陈水扁在中港台三地的信誉度分别是-10、 -6.2 和-4.6。

      句子句子情感情感倾向性分析倾向性分析 词语情感倾向分析的处理对象是单独 的词语或者实体, 而句子情感倾向性分析的 处理对象则是在特定上下文中出现的语句 其任务就是对句子中的各种主观性信息进 行分析和提取,包括对句子情感倾向的判 断, 以及从中提取出与情感倾向性论述相关 联的各个要素, 包括情感倾向性论述的持有 者、评价对象、倾向极性、强度,甚至是论 述本身的重要性等例如,对于例句“XXX绝不是一款能放心开下公路的 SUV当然, 在公路上它的表现令人满意” ,我们可以得 到以下两条情感倾向性论述: 论述 持有者 对象 极性 强度 重要性 1 作者 XXX 贬 强 强 2 作者 XXX 褒 弱 弱 如果说句子是点, 那么由句子构成的篇 章是线,而由多篇文章组成的语料库就是 面在句子情感倾向分析的基础上,可以很 方便地进行篇章的情感倾向分析, 甚至可以 得到海量信息的整体倾向性态势 长期以来, 客观性信息提取都是计算语 言学的研究热点,但尚未研究透彻近年来 ACE(自动内容提取会议)的评测结果也表 明,命名实体识别和指代消解的性能尚可, 但实体间关系的提取则显得很困难4,主观 性信息的提取更是如此。

      这方面的研究即使 在英文上也是少数, 且集中在对句子情感倾 向 性 的 判 断 上 [Kim,2004] [Wiebe & Riloff,2005]在此基础上,[Kim,2005]尝试 识别情感倾向性论述的持有者 而关于系统 地提取句子的情感倾向性信息的多个要素 方面的研究,目前还少有报道 对中文的研究也主要集中在句子情感 倾向性论述的某个侧面例如,[王波 2007] 的主要工作是在情感倾向性论述定位评价 对象考察两个例句: (a) 功能很全面,价格也很便宜 (b) 我买电脑时最关心的是功能和价格 功能和价格在例句 a 中是评价对象,但 在例句 b 中并不是 他主要考察在只有规模 很小的标注语料可用时, 如何采用半监督自 学习方法对评价对象进行迭代学习 [王根 2007]则关注于句子情感倾向性 的判断他提出了一个分级模型,可以将句 子的主客观性判别、 褒贬分类和褒贬分级统 一在一起:首先将句子分为主观句和客观 句,对于主观句,分成赞扬和贬斥两类,每 类再分成强烈和微弱两种强度; 并提出了一 种基于多重标记 CRF 的方法来加以解决 [章剑峰 2007]所针对的具体任务是抽 取评价词和目标对象之间的关联关系。

      这里4 http://www.nist.gov/speech/ tests/ace/index.htm 的关联除了句法上的直接关联, 也包括语义 上的间接关联 目标对象被细分为直接评价 对象和间接评价对象两种如在例句“品牌 A 的造型很美观” 中, 评价词是 “美观” , “造 型”是“美观”直接评价的对象,而“品牌 A”是间接评价对象他们把在同一句子中 共现的评价词与评价对象作为候选集合, 应 用最大熵模型进行关系抽取 篇章篇章情感情感倾向性研究倾向性研究 篇章级情感倾向性分析, 就是要从整体 上判断某个文本的情感倾向性,即褒贬态 度有代表性的工作包括[Turney, 2002]和 [Pang, 2002]对电影评论的分类Turney 的 方法是将文档中词和短语的倾向性进行平 均,来判断文档的倾向性这种方法基于情 感倾向性词典, 不需要人工标注了文本情感 倾向性的训练语料; Pang 的任务是对电影评 论的数据按照倾向性分成两类, 他利用人工 标注了文本倾向性的训练语料,基于 unigram 和 bigram 等特征,学习分类器 将篇章作为一个整体, 笼统地进行主观 性分析存在很大局限性, 其本质缺陷在于假 设整个文本是针对同一个对象进行评论。

      而 真实文本往往由包含多个对象, 不同的对象 所涉及到的观点、 态度等主观性信息是有差 异的从另一方面看,篇章内的对象总数仍 是有限的, 不足以支撑对于整体倾向性的挖 掘因此,这两年根据情感倾向对篇章进行 褒贬态度分类的研究有减少的趋势; 更多的 研究集中在篇章内进行情感倾向性论述的 分析, 以及在大规模数据集上进行整体倾向 性分析 海量数据海量数据的整体倾向性预测的整体倾向性预测 所谓整体倾向性预测, 是针对海量数据 而言的,其主要任务是:对从不同信息源抽 取出的、 针对某个话题的情感倾向性信息进 行集成和分析, 进而挖掘出态度的特点和走 势 Durant 提出利用 Web log 来帮助对 blog情感倾向的分类[Durant et al. 2006]UIC 的 Liu 和 Hu 等人讨论了从评论中挖掘产品特 性的方法, 从而得到用户对于产品或者产品 某 个 特 性 的 整 体 倾 向 性 [Hu & Liu, 2004][Liu et al. 2005]例如,他们根据用户 评论来比较两个款式的数码相机, 并用如下 图所示的可视化文摘来显示分析结果, 每列 代表相机的一个属性,水平线表示中立态 度, 彩条则反映了用户的褒贬度的主要取值 范围。

      日本富士通公司则开发出了从中文博 客和论坛中提取对企业及其产品的评价信 息的技术, 根据从 web 上抓取的大量用户评 论得到产品的整体信誉度, 以图表的形式展 现不同时间里企业和品牌的正面。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.