面向电子商务在线评价的细粒度情感分析研究.docx
9页面向电子商务评价的细粒度情感分析研究 摘要:评价是消费者进行购买决策的重要依据,为了挖掘利用评价大数据,本文提出细粒度情感分析模型,总结模型各任务的研究方法,指出其对电子商务平台的推荐系统和评价管理系统的优化,对电商企业产品或服务优化和消费者行为分析关键词:情感分析细粒度文本挖掘评价电子商务前言2015年年底中国网民规模达6.88亿,天猫交易平台仅双十一当天成交量达到912亿元,电子商务活动已成为新经济发展的引擎之一JupiterResearch公司调查显示有超过75%的消费者购买商品之前,会参考互联网用户所写的产品评价信息[1]由于评价已成为消费者费者决策的重要支撑,评价的挖掘对企业的和电子商务平台均有一定的指导作用,目前对评价内容特征的研究主要包括评价长度[2]、评价极性[3]、评价质量[4]、评价得分[5],但在评价语义方面研究不够深入情感分析作为文本挖掘的一个新兴领域,能够从评价的语义和情感角度出发,挖掘评价对象的属性特征和情感强度它涉及数据挖掘、自然语言处理、信息检索、机器学习等多个学科领域的问题,将它引入评价分析,提供决策支撑1情感分析情感分析(sentimentanalysis),又称观点挖掘或意见挖掘(opinionmining),指通过自动分析某种商品评价的文本内容,发现消费者对该商品的褒贬态度和意见。
[6-7]按照处理文本的粒度不同,情感分析可分为词语或短语级、句子级、篇章级[8]面向句子级、篇章级的粗粒度情感分析较为成熟,但它一般从整体来判断文本的情感极性,不能针对评价对象的具体属性进行分别计算情感强度,导致电子商务中企业不能了解消费者的个性化需求而词语级、短语级的细粒度情感分析能抽取评价对象及评价对象的情感倾向等要素,反映更具针对性的情感信息2基于细粒度情感分析的评价挖掘模型构建对于评价的情感分析已经成自然语言处理、文本挖掘等热点之一,针对微博、大众点评、淘宝等平台均有应用研究拟构建的基于细粒度情感分析的评价挖掘模型如图1,通过获取对电子商务平台上消费者评价,处理数据该模型分为五个任务:数据准备、评价对象的抽取和分类、情感倾向性分类、搭配抽取、情感强度计算图1细粒度情感分析评价挖掘模型2.1数据准备阶段此任务需要在目标电子商务平台利用文本挖掘技术获取源数据,并进行数据处理,此阶段的技术已经很成熟主要利用网络爬虫工具进行数据获取,在爬取网页后对目标内容进行解析国内目前一些文本采集软件如集搜客、火车头采集器等可以方便的获取数据由于爬取的评价中可能包含无意义字符、与主题不相关的广告等,需要对数据进行预处理为便于研究的结构化数据。
对评价预处理的方法包括:词性标注、词缀修剪、简化替换分词和停用词的过滤[9]常用软件如ICTCLAS、LJParser、ROST等完成部分预处理任务2.2评价对象的抽取与分类评价对象主要指产品或服务的属性,也叫特征或属性,如产品中的“尺寸”、“价格”,酒店服务的“床”、“交通”评价中特征分为显示特征和隐示特征如“这发热严重”和“这我都可以用来煎鸡蛋”,前者对使用性能特征直接进行描述,后者需要句子进行语义理解才能得到抽取目前自然语言处理技术还很难达到深刻理解句子语义的程度,因此绝大部分特征的抽取都只考虑了产品的显式特征[10]特征抽取的方法有两种,基于词典的特征抽取和基于语料的特征抽取在抽取之后,需要进行分类,而且不同类型的产品特征划分有所不同如“尺寸”和“大小”都属于同一特征,一般是通过词典匹配的方法来归类,另一种方式则是用机器学习的方法2.3评价观点的抽取评价观点也就是句中的情感词,如“漂亮”、“不喜欢”等评价观点的抽取是将表达消费者的态度的词语或短语抽取,进而分析情感倾向,细粒度情感分析重点在情感词的情感倾向上在进行评价观点抽取与分析之前需要进行主客观文本分类,细粒度情感分析是对主观文本进行分析。
如“我当初试买的这”只是在陈述一个客观事实在对大量的评价进行主客观文本识别后,能够有效地缩小分析范围,减少干扰[11]情感词的情感倾向性一般是褒贬二元分类,但是根据研究领域和研究对象有不同分法,如崔大志根据市场营销学和心理学将情感分成7类[12],Goldberg将评价的情感分为4类[13]一般文本情感强度倾向性分析方法有:基于统计的文本情感倾向性分析方法和基于语义的文本情感倾向性分析方法其中细粒度情感分析主要使用基于语义的文本情感倾向性分析方法,主要分为基于情感倾向词典的方法、基于无监督机器学习方法、基于人工标注语料库的学习方法[14]基于语料库的情感字的抽取和判别是通过观察和利用大语料库的统计性来挖掘和判别情感字的极性,需要专家团队投入大量精力,有其局限性语料库是面向领域的,如部分旅游景点描述[15]、中国汽车网评价[16]、酒店评价[17]等,基于无监督机器学习方法则是通过与已知情感倾向的参考词和分析词的联系紧密程度来判断情感倾向基于情感词典的方法则是查找词典中的词和分析词是否一样,不一样则查找近义词目前有HowNet词典,WordNet词典、中文同义词近义词词典、哈工大同义词词林等。
可以看出基于情感词典的方法在产品属性提取与分类和情感词抽取中都有广泛的应用2.4评价对象与评价观点的搭配关联评价搭配是用户观点中评价对象及其评价修辞的搭配对关系[18]如“这耗电块,“这运行速度快”用样的评价词语“快”,在与不同的评价对象形成搭配对的时候,表达的情感倾向并不一致,即上下文的语义影响很大相比先获取评价对象,把评价观点和评价对象当作一个任务抽取是目前准确率较高[19]一般采取的方法有基于规则/模板、基于机器学习的方法,主要是使用各种机器学习的方法,比如最大熵模型、条件随机场模型、基于语义的方法2.5评价对象的情感强度计算通过对评价对象的情感量化计算,能够有效的反映出消费者对于产品或服务某种特征的态度如“比较喜欢它的外观”和“我不是很喜欢这款外观”中可以看出对外观情感强度分析时,除了情感词外,程度副词、否定词也有很大影响目前情感强度量化研究缺少坚实的语言学与心理学的理论基础,所以当前国内外的研究往往是基于统计学原理或者人工标注的方法来实现情感强度量化[20]3电子商务中情感分析应用方向3.1对电子商务平台优化评价管理系统目前各大B2C购物网站如天猫展示产品部分特征的情感标签,京东和苏宁除此之外,分类为好评、中评、差评。
但情感标签并不详细,对情感强度低的特征并未全部展示,没有对消费者以更直观的可视化形式展现细粒度情感分析模型可对原有的情感标签进行更完全的补充,为消费者提供更详细的指导,增加用户粘性优化电商平台推荐系统目前的推荐系统大多通过用户购买行为,形成消费者画像,而面向评价的细粒度情感分析模型可以从语义和情感的角度补充原有推荐算法如根据用户关注的产品属性表现出强烈的褒贬倾向时,推荐的产品在原属性上有相似或补充时,效果可能会更好3.2对电子商务企业主要是对产品属性和服务环节的优化根据模型的情感强度结果,情感强度为负,反映出消费者不认可的态度,能有针对性的提升产品和服务质量,提升销量消费者行为和竞争对手分析通过改变评价中如消费者属性中年龄、性别、地区、时间等变量时,根据细粒度情感分析的不同结果,可以细分消费者市场,找准市场定位,便于营销推广也能在不同平台上,获取不同企业同类产品的评价,针对大数据进行关联分析,对比发现主要竞争产品以及竞争产品的优劣势4总结在大数据时代,电子商务企业面临如何筛选和利用有效的信息来辅助决策对其生产经营活动中产生的各种结构和非结构的大数据的挖掘和利用,能辅助企业在复杂多变的环境中进行决策。
细粒度情感分析在电子商务中的运用除了上述应用外,在许多方向仍有待发现它在诸如微博、论坛等社交网络平台也有不同运用方向,如舆情监测,营销推广目前面向评价的细粒度情感分析仍然存在诸如如何保证评价的真实性、提高算法结果的精确度、适合特定领域的情感词典构建等问题但随着各学科研究的深入,对电子商务评价的情感分析将让企业的产品和服务朝着更加个性化、智能化、精准化方向发展参考文献[1]殷国鹏,消费者认为怎样的评论更有用?[J].管理世界,2012,12.[2]MudambiSM,SchuffD.Whatmakesahelpfulonlinereview?[J].MisQuarterly,2010,34(1):185-200.[3]ConnorsL,MudambiSM,SchuffD.IsIttheReviewortheReviewer?aMulti-MethodApproachtoDeterminetheAntecedentsofOnlineReviewHelpfulness[C]//hicss.IEEEComputerSociety,2011:1-10.[4]FormanC,GhoseA,WiesenfeldB.ExaminingtheRelationshipBetweenReviewsandSales:TheRoleofReviewerIdentityDisclosureinElectronicMarkets[J].SocialScienceElectronicPublishing,2008,19(3):291-313.[5]DohSJ,HwangJS.HowconsumersevaluateeWOM(electronicword-of-mouth)messages.[J].Cyberpsychology&BehaviortheImpactoftheInternetMultimedia&VirtualRealityonBehavior&Society,2009,12(2):193-7.[6]KobayashiN,IidaR,InuiK,etal.Opinionminingonthewebbyextractingsubject-aspect-evaluationrelations.Proceedingsof2006AAAISpringSymposiumonComputationalApproachestoAnalyzingWeblogs(AAAI).2006.[7]WiebeJ,MihalceaR.Wordsenseandsubjectivity.Proceedingsofthe21stInternationalConferenceonComputationalLinguisticsandthe44thAnnualMeetingoftheAssociationforComputationalLinguistics(COLING/ACL).2006.[8]施寒潇.细粒度情感分析研究[D].苏州大学,2013.[9]杨卉.Web文本观点挖掘及隐含情感倾向的研究[D].吉林大学,2011.[10]郗亚辉,张明,袁方,王煜.产品评论挖掘研究综述[J].山东大学学报(理学版),2011,05:16-23+38.[11]YuH.,HatzivassiloglouV.TowardsAnsweringOpinionQuestions:SeparatingFactsfromOpinionsandIdentifyingthePolarityofOpinionSentences[C].In:ProceedingsofEMNLP’2003,2003:129-136.[12]崔大志,孙丽伟.评论情感词汇模糊本体库构建[J].辽宁工程技术大学学报(社会科学版),2010,(4):395-398[13]Goldbe。





