好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

基于文本分类中特征提取的领域词语聚类.doc

6页
  • 卖家[上传人]:飞***
  • 文档编号:10332260
  • 上传时间:2017-10-07
  • 文档格式:DOC
  • 文档大小:107.88KB
  • / 6 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 基于文本分类中特征提取的领域词语聚类刘华[摘要]本文以领域特征明显的词和短语作为聚类对象,在分类系统的大规模语料库中,利用文本分类的特征提取方法进行词语的领域聚类,从而获得大规模的领域知识,用于文本分类和主题分析[关键词] 特征提取 领域词语 聚类Clustering Field Words by Character Extraction in Text ClassificationAbstract: Towards building a large-scale domanial repository for text categorization and topic analysis, this paper presents an algorithm that clusters field Words in classed large-scale corpus by character extraction in text categorization. Keywords: Character Extraction, domanial words, Clustering一 引言领域知识获取是基于内容的文本处理中的基础关键技术。

      文本分类和主题分析需要庞大的领域词表支持,依靠具有强文本内容表示功能的特征词语进行类目或主题的区分、主题词或关键词的标引在信息抽取和信息检索中,抽取和检索的对象很大程度上也是领域相关的目前很多著名的知识库主要依靠专家手工构建,如WordNet 、HowNet 除此之外,也有许多自动方法来获取领域词语,主要分为两类:基于规则和基于统计的基于规则的方法利用人工构建好的领域词语特征字(词)库(如“*病”) 、经常与领域词语共现的指示词库(如“*防治”)和指示领域关系的关系词语库(如“学名为*”) ,在大规模语料中利用模板匹配的方式获取领域词语基于统计的方法简单快速,主要利用机器学习的方法进行领域词语获取,如基于Bootstrapping、互信息、TFIDF等的领域词语自动获取本文将利用文本分类中的特征提取方法在大规模分类语料中自动获取领域词语二 定义说明在本文中将用到以下概念:1 领域词语词语表可分为通用词语和领域词语两部分,简单地说,领域词语是具有强文本表示功能的特征词语所谓强文本表示功能,是指在文本表示时,能将文本的内容特征(例如领域类别、主题思想、中心意义等)鲜明地表示出来例如,常见的虚词性成分(“总而言之”)的文本表示功能弱,而一些领域性强的体词性成分(“封闭式基金”)则文本表示功能强。

      2 领域通用词和领域专类词领域词语中又可根据词语的领域流通度分为领域通用词和领域专类词领域通用词是表示领域的基本词语,代表了该类领域的质心特征,如体育类的“比赛、球队”;领域专类词专指性强、区别度高,能将领域的详细特征区分开来,如体育类中的“世界拳击理事会、拳王”则不仅可以将体育类和其他类区分开,还能将体育类内部的小类如拳击区分出来三 特征提取方法分析在文本自动分类中,关键的一个技术是特征提取特征提取的步骤包括:词语切分,词频统计,加权计算和特征选择(二者通常结合在一起进行) 经过权重计算和特征选择后,就能生成文本类别的核心向量,这些向量中的特征词可以认为是能代表该类文本特征的类别领域词权重计算和特征选择有很多计算公式,如信息增益、期望交叉熵、文本证据权、χ2 统计量等,其中最著名的是TFIDF公式那么,权重计算和特征选择的公式究竟哪个为优呢?其实在这些公式中,关键在于特征选择时的倾向:高频词或稀有词,也就是公式中的P(w)因子起很大作用,因为一个单词出现的频繁程度,并不能说明这个单词对于分类很重要,有许多重要单词只出现很少次数,而很多次要单词却频繁出现例如游戏类中很多的游戏名称(如“足球经理2003”、 “暗黑破坏神” ) 、体育娱乐类中人名等专名,往往频次不高,却能一词定类。

      在以往研究者的文章中,都倾向于高频单词,其中央和Djujia Mladenic的文章综合比较分析了很多种特征评估函数的优劣,并特别指出,信息增益的缺点在于考虑了单词未发生的情况,互信息的缺点在于没有考虑P(w)因子,以致倾向于稀有单词期望交叉熵克服了两者的缺点,所以效果比它们都好,同理,文本证据权也考虑了P(w) ,也是一种较好的评估函数[唐焕玲等,2003]的实验表明,如果修改一下信息增益及文本证据权的公式,把它们的P(w)因子去掉,它们的权值调整效果即会大幅度提高,接近于互信息的量级在第二节中,我们提到领域词语可分为领域通用词和领域专类词其实,二者的区别是在领域区别度基础上的频率差别,即二者都具有较高的领域区别度,但在领域内的频率不同因此,在特征选择时,我们应该充分考虑P(w)因子的作用,既要保证高频的领域通用词,又要照顾到较低频的领域专类词,这样既可满足我们对领域通用词和领域专类词的需求,又可克服特征选择时片面倾向于高频词或稀有词的缺点[陈克利,2003]对TF*IDF和TF*IWF*IWFF公式进行了分析并作了一些改进[ 陈克利,2003]认为关键词在某类的权重受三个因素的影响:该词在当前类中的出现频率;该词在总语料中的出现频率;该词在不同类别之间出现频率的差异。

      第一个因素由TF表示,但如我们上面的分析,类别中词的出现频率和其对该类的重要度并不完全成正比,频率在计算中起了过度的作用,应该采取频率的n次方根(n>=1)的形式消弱其影响,并且可根据n的取值随意调节,以满足对领域通用词和领域专类词的需求第二个因素由IWF*IWF表示,含义为:总训练语料中出现次数越少的关键词其权重越高但TF*IWF*IWFF(和TF*IDF)忽略了第三因素,关键词在总语料中的出现次数并不能完全说明该词在分类中的重要性,频率相同的关键词在分类中的重要性是不同的:在各类之间分布月均匀,其重要性越小;反之越大方差是体现数据分布是否均匀的很好的数学指标,但从方差公式中可以看出,方差大小又受到词频大小的影响,为了消除此影响(因为词频因素已经在TF中得到表示了,方差需要的只是词频之间的差异性表示) ,可以用方差除以该词在各类中词频之和,于是得到公式:jjiipip2表示关键词在不同类之间的分布差异性从上面的分析可以得到关键词在类中的权重计算公式: niijjiiji jpNwpipcw 22 )(log),(其中, jiiLTj , j是类 jc含有的所有词的次数之和, ijT是词i在类 jc出现的次数; mpji,其中m为类别数; )(i表示训练语料中出现词 iw的次数,N是训练语料中所有词出现次数之和;n>=1。

      四 词语表与训练语料介绍(一)扩充的词语表词语切分一般采用最大匹配法双向最大匹配法速度快,词表开放、格式简单易扩充,而且由于分词错误多集中于常见词,并不影响领域特征词的提取,分词结果正确率对于提取特征词可以充分接受但是切词底的词条对领域词语抽取影响重大,特别是当大家专注于进行特征提取和特征权值计算的算法改进时,却忽视了进行提取和权重计算的特征本身(即词条) 如果词表中缺乏具有一定完整性和区别度(专指度)的领域词条,那么最先进的算法也是缘木求鱼我们在原有通用词条的基础上,扩充了大量领域性强的词语,特别是短语,总词语表达32万余条词语新增加的词语主要抽取自门户网站网页上专家标引的关键词语(时间跨度为三年,约60万个网页,6亿字) “关键词”是对一个网页的主题的描述词语 ,例如一篇题为《安然高官仍受调查 前主席秘书承认犯内部交易罪》网页的关键词为“安然 内部交易罪”这些词语,特别是短语,往往结构固定、语义完整,是领域中的特征词语,如“保钓组织、内部交易罪”,更适合作为领域聚类的特征项以上途径只是一个静态的获得过程,随着时间的推移,肯定还会出现很多新词语,因此动态获得新词语是一个自适应系统应该注意的关键问题。

      北京语言大学DCC博士研究室是一个多学科的互用互助系统,隋岩博士的博士论文利用动态流通度理论进行词语碎片的捆绑,自动获得新词语,而且这项工作一直在动态更新因此,新词语以后可以通过该方法动态更新,不断扩充二)训练语料训练用的分类语料库约60万个XML 文件,6亿字,时间跨度为三年(02.03.04) ,XML文件标注了语料的标题、关键词、类别(详细标明到细致的主题,如“经济-证券- 债券”,共两百多个) 、时间、段落等属性具体领域和文件数分布如下:类别 文件数 类别 文件数时政新闻_国际 59130 旅游 18471时政新闻_国内 119695 文艺 14248时政新闻_军事 21743 游戏 22843时政新闻_社会 42559 汽车 21745经济 40115 教育 24405科技 53126 房产 19573体育 96120 生活男女 19382娱乐 23905 总计 597060采用如此大规模的语料主要是考虑到如下两个因素:1、一个词语是否属于领域词汇关键在于它区分领域的能力,只有将词语放在整个分类系统中,比较词语在该领域与其它各个领域的出现差异,才能较好地获得这种区别能力因此,在进行领域词语聚类时,必须将整个分类系统考虑进去,而不是只比较两三个领域。

      2、各个领域的语料量必须足够大,这样才能克服词语在语料中出现的偶然性因素,而且,随着语料规模的扩大,新的领域词语也随之增多五 算法实现算法具体步骤如下:Step1:双向最大切分同时识别出底表中没有的数字字母词Step2:统计词次统计时根据位置加权,加权时文本长度会对加权因子产生影响例如,对一篇200字的文章和一篇1000字的文章中的标题中的词,都乘以相同加权因子,那么,1000字的文章的标题中的词的词数就会湮没在整个文章中的词的词数中了,没有体现标题中词的独特标示作用因此,对关键字、标题加权时,应该动态加权,即按文章正文词数动态调整加权系数标题加权底数为2,关键字加权底数为3,正文词数按200字分级,每增加一级,在原来系数上相应加1最终词次统计公式如下: wbwgwz FF)2()3(其中, wzF表示词w在正文中的计数, b表示词w在标题中的计数, wgF表示词w在关键词中的计数, wzF\200(整除) Step3:权重计算按照第三节中的公式计算每个词在类中的权重, n(n>=1)参数主要原来调节词频的影响,当n取值小时,倾向于词频大的词;当n取值大时,则词频的影响减弱,倾向于词频小的词。

      Step4:特征选择通过观察提取结果,根据不同类别的具体情况设定不同的阈值,约为3.5到5.5之间六 实验和结果分析(一)实验与结果分析 1我们分别对n取1、2、3、4、5、6不同的值,然后与该类未作权重计算的频率进行对比,观察权重计算及n值对特征提取的影响(限于篇幅,只列举了n为1、3、6时的情况) 下表在财经领域对五种待对比的分表中各取前30个词,按降序排列频率这一列指只对财经领域分词后统计词频得到的分表(前30个) ,未做权重计算;差集指n=6时的词集减n=3时的词集后的余集频率 n=1 n=3 n=6 差集的 财经 财经 伦敦铜 家谊股份在 大盘 大盘 个股推荐 行业选股了 市场 个股 荐股秀 水运板块是 公司 股指 沪铜 王从军和 投资者 该股 逍遥手记 船市财经 个股 后市 金美林投资 暗箱操作公司 的 短线 三元顾问 孙晓路市场 基金 蓝筹股 沪胶 孙蒙蒙年 反弹 券商 本地股 葡萄酒板块对 走势 反弹 外汇通 德盛基金中国 行情 走势 铜价 统杰法宝而 上市公司 科技股 北京首放 混凝土泵将 企业 震荡 钢铁股 华鲁恒生也 资金 QFII 天胶 明星经理制有 股市 行情 深圳本地股 财经联线月 股 大豆 半年线 九牧王与 短线 股市 金汇通 会徽价值但 股指 投资者 重组股 板快轮动等 投资 超跌 券商重仓股 电解电容器为 美元 上市公司 双底 土地征用制从 股票 两市 超跌。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.