
数据挖掘技术在汽车保险中应用.docx
7页数据挖掘技术在汽车保险中应用【摘 要】介绍数据挖掘中的关联规则挖掘技术在汽车 保险中的实际应用,关联规则分析汽车保险中的风险因素与 赔付率之间的关系得出的关联规则对车险行业的决策和发 展有一定参考指导意义关键词】数据挖掘;关联规则;风险一 •数据挖掘及关联规则介绍数据挖掘(Data Mining, DM)又称数据库中的知识发 现(Knowledge Discover in Database, KDD),是目前 人工智能和数据库领域研究的热点问题,所谓数据挖掘是指 从数据库大量的、不完全的、有噪声的、模糊的、随机的实 际应用数据中,提取隐含在其中的、人们事先不知道的、但 又潜在的有用信息和知识的过程从商业企业的角度讲数据 挖掘可以描述为:按照企业既定业务目标,对大量的企业数 据进行分析和探索,揭示隐藏的、未知的或验证已知的规律 性,并进一步将其模型化的先进有效的方法数据挖掘是一 种决策支持过程,它主要基于人工智能、机器学习、模式识 别、统计学、数据库、可视化技术等,高度自动化地分析企 业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮 助决策者调整市场策略,减少风险,做出正确的决策关联规则挖掘是数据挖掘中的重要课题和研究方法。
最 早是由Agrawal等人提出的,关联规则挖掘可以发现存 在于数据库中的项目或属性间的隐含关系[1] o关联规则的 一般定义如下:1={11, 12,…,Im}是一项目集,D是一事 务数据库,D中的每个事务T都是I的子集即TEI.每个事 务都有一个标识符,称为TID.若A是一项目集,当且仅当 ACT时,我们就说事务T包含了 A一条关联规则就是形如 A=>B的蕴含关系其中A包含于I, B包含于I且APB为空 集•如果D中包含AUB的比例是s,就称关联规则A=>B在D 中的支持度为s,也可以表示为概率P (AUB);如果D中包 含A的同时也包含B的比例是c,则说关联规则AB的置信度 为c,表示为条件概率P (B|A),就是:s=sup (A=>B) =P (AUB)c=conf (A=>B) =P (A|B) =sup (AUB) /sup (A)给定事务集D,挖掘关联规则问题就是发现所有支持度 (sup)和置信度(conf)分别满足最小支持度阈值和最小 置信度阈值的规则关联规则挖掘的步骤[2](1) 找出所有的频繁项集这些项集出现的频率至少 和预定义的最小支持数一样,即所有满足最小支持度的项集 的集合。
2) 由频繁项集中产生相应的强关联规则根据定义, 这些规则必须满足最小支持度和最小置信度即确定规则A二〉B是否有效,可以令:r=sup (AUB) /sup (A),当且仅当 r>min_conf 时,规 则有意义(其中min_conf为最小置信度)3) 解释并输出规则步骤一是关联规则发现算法设计的核心问题,因为它的 效率高低是算法的关键.由于Apriori关联规则算法[3]需要产生大量候选项集, 资源消耗巨大,效率低而FP-Growth关联规则算法只需扫 描一次数据库,对系统资源的消耗较小,效率相对较高 因此,对于海量数据的保险信息系统,本文选用FP-Growth 算法进行关联规则挖掘.二.关联规则挖掘在车辆保险中的应用1•数据准备数据准备是数据挖掘过程的先决条件,数据质量将直接 影响数据挖掘的效率和准确度以及最终规则的合理有效性 本文选取某大型保险公司省级公司近8年车险数据库数据进 行挖掘影响车辆保险的风险主要有驾驶人员、车辆状况、 地理环境、气候条件、社会环境、经营管理等因素,为此研 究这些因素与风险的关系,并结合实际情况和对风险的影响 程度,从中选取的目标数据每条记录中包括年龄、性别、婚 姻状况、驾龄、职业、车重与载货重、车型、车龄、汽车颜 色、使用性质、投保险种、保费保额、汽车贷款标志、购买 价格、多车所有情况、是否连续投保、投保地点、销售渠道、 投保日期、出险日期、赔付率等21个属性进行关联规则的 挖掘整理归纳。
2.数据离散化和去冗余[4]利用计算机对数据库的海量数据进行分析挖掘,需要对 连续的数据作离散化工作年龄、保额、投保出险日期、赔 付率都是连续的数据为了离散量化,根据情况和计算机编 程计算的需要可将这些数据分为几类例如,年龄分为al (<20 岁),a2 (20-25 岁),a3 (25-34 岁),a4 (35-45 岁),a5 0=46岁),将日期按提取数据年份年分为8年,每 年具体日期按月分为12个值将赔付率划分为[00,]、(0, 10%]、 (10%, 30%]、 (30%, 50%]、 (50%, 70%]、 (70%, 100%]、 (100%, 200%]、(200%, 300%]、(300%, +^]九类去除由 于误操作输入产生的明显不合逻辑和业务要求的垃圾数据3•确定关联规则的支持度至少为35%,置信度至少为 80%进行关联规则挖掘过程如下:1) 利于FP-Growth算法找出频繁项集2) 找出满足支持度和置信度的强关联规则由于本文选取的样本属性值有21个,为了算法的简约 和计算的省时,我们在实际挖掘中采用了分区挖掘产生关联 规则的做法.具体做法如下:将样本属性值按驾驶员,车, 环境分为A, B, C大区,每区与赔付率相关。
如表1:ABC赔付率年龄al-a5车重与载货重wl-w5投保地点Pl性别si, s2车型销售渠道P2婚姻状况yl, y2车龄投保年分P3驾龄dl-d5汽车颜色cl-c6投保月份P4职业jl-j7使用性质ul-u5保费保额P5多车所有情况投保险种车贷标志P6, P7 是否连 续投保购买价格出险年月P8, P9表1先按A, B, C区分别进行关联规则与赔付率的挖掘,得 出满足条件的强关联规则15条,然后对A, B, C三大区进 行区级关联,找出区间可能有关联关系的属性,对重点属性 与赔付率进行关联规则的挖掘以上挖掘过程中,产生了许多满足条件的强关联规则: 如在每年9-11月投保的家庭自用新车,在当年冬天发生车 损险的概率比一般车低,这可能是由于车主对自身新车的爱 护而在风雪天少开车导致的原因;已婚驾龄5年以上的司机 开公务车出险的概率大大低于一般司机,显然这是由于车主 经验和责任心更强的缘故在进一步的挖掘中,我们还发现 了很多意想不到的关联规则,经过分析也可以得到合理解 释:贷款购买的车辆其盗抢险的发生率很低,出于车主对爱 车的存放更费心和稳妥;某些车型在4S店中卖出后的赔付 率比其他渠道要高,这估计是因为车主在4S店买车险后, 4S店的承诺和车主自身心里更倾向于在修理价格更高的4S 店维修导致赔付率升高等等。
4.规则的解释和价值衡量得到这些关联规则后,可以从系统客观和公司主观两个 层面来衡量这些规则的价值和有用性,使得到合理解释的规 则可以在公司决策中发挥作用1) 系统客观层面从系统客观层面评价一条规则是否合理有价值,主要是 依据支持度、置信度两个指标来衡量我们认为支持度大于50%且置信度大于85%的关联规 则是有特别价值,值得分析和关注的对于支持度和置信度 的选取我们按年份远近采取了加权计算的方法,即越接近现 在的年份给的加权值越高,越有价值,分析研究的意义越大2) 公司主观层面运用数学的方法可以对一规则进行分析评价缺乏实践 的证明和公司操作员工及决策层的认同,所以规则评价必须 考虑到公司的主观因素在得到一系列的风险规则后,需要 在公司尤其一线操作人员中征求广泛意见和建议,在得到实 践人员的合理评价后对相应的关联规则作出科学分析,这样 才能最终形成有价值的公司市场决策依据三.结论数据挖掘技术的充分应用,不仅可以帮助保险公司对业 务风险进行各种因素分析,寻求业务规律,为保险公司应对 市场提供决策支持;也可以使保险公司更好的实现差异化经 营,保持具有竞争力的保费和覆盖风险及提供服务之间的平 衡,规避风险,挖掘更多的市场商机。
参考文献[1:AGRAWAL R, IMIELINSKI T, SWAMI A. Mining Associa-tion rules between sets of items in large databases[C]//Proceedings of The ACM SIGMOD International Conference onManagement of Data. Washington DC : ACMpress, 1993: 207-216.[2] 陈文伟,黄金才•数据仓库与数据挖掘•北京:人民 邮电出版社,2004. 1: 143-150[3] BorgeIt C. Recursion Pruning for the apriori algorithm[C]//Proceedings of the second IEEE ICDM Workshop on Freque nt Item Set Mining Implementations・ Brighton UK: IEEE, 2004.[4] 崔虹燕,水静•数据挖掘技术在汽车保险风险分析中 的应用•科技信息,2009. 29; 145。
