基于数据挖掘的电信用户行为分析与应用.doc
11页基于数据挖掘的电信用户行为分析与应用摘要:本文从用户流失预测原则、离网用户模 型构建和预测模型价值分析等三方面总结了用户流失 的研究成果,针对电信用户消费记录,构建覆盖行为 变量抽取、脏数据清洗、分析变量融合、预测期和算 法选取的全过程离网用户预警模型运用该预测模型 对某运营商全省用户进行分析,取得较高应用价值, 并为营销管理、客户细分等后续工作奠定良好基础关键词:数据挖掘客户流失预测模型行为模式 引言自2013年12月以来,随着中国移动、中国电信 和中国联通获颁“LTE/第四代数字蜂窝移动通信业务 (TD-LTE)”经营许可,中国正式迈入4G时代;同 时工信部亦发文取消了对中国移动固网业务的限制, 行业态势或将迎来新的变局随着市场竞争的日益激烈以及企业间的产品和服 务的差异性减少,运营商已从“以产品为中心”转向 “以用户为中心”,采用用户关系管理(Customer Relationship Management , CRM)等信息化系统来 提高用户服务水平[1]1、研究背景自2008年电信业重组以后,中国移动、中国联通、 中国电信三家运营商之间传统竞争优势的差距一直在 陆续减小;目前,三家运营商均为全业务运营商,业 务差距日渐缩小,服务差距日益减弱,新客户带来的 增量市场趋于饱和,存量客户市场竞争更加激烈。
客户消费行为及离网分析一直是通信行业的核心 问题和CRM关注焦点文献P]等指出:运营商每流 失35%〜50%的用户,会造成大约数百亿美元的经济 损失,具体意义体现在以下方面[3]:(1) 用户忠诚度每下降5%将导致企业利润下降 25%;(2) 新用户推销业务成功概率最高为15%,而 老用户成功率能达到50%;(3) 新用户开拓成本为老用户维系成本的6倍;(4) 对不满意用户的服务进行重点关注和过失响 应,约70%的用户不会流失;(5) 不满意服务会影响周边8-10人,而满意用 户经历影响2-3人;6) 用户入网时间与用户价值呈现正比关系基于上述原因,在当前环境下各大运营商首先考虑存量市场竞争,在发展新用户的同时更注重对老用户的挽留和分类营销由于电信用户价值的判定基于 利润贡献度和净现金流量,因此通过对训练集内的客 户消费记录、行为数据进行清洗、抽取和分类,构建 出高端用户行为模式和离网用户行为模式,在实际数 据集内展开分析预测并开展针对性营销工作,从而挽 留住具有终身价值的长期有效用户、提升高端用户利 润贡献度2、分析原则本系统基于某运营商省级公司用户数据,预测体 系分为客户离网预警系统和客户离网挽留系统两部 分。
系统的主要分析重点集中在客户离网预警系统, 包括自动预警模块和人工预警模块;模型研宄的侧重 于自动预警模块分析首先由专家研宄客户离网心理及行为,包括对各 类业务中客户离网行为和心理进行深入分析和研究, 考察其离网的原因和行为规律,根据这些行为规律寻 求合适的离网表现变量而后通过实际数据实行测算, 从而确定离网表现变量的运算规则及离网判断规则, 并以此确定自动预警模块的相关参数及逻辑关系;最 后通过客户离网预警系统中的自动预警模块对离网表 现变量进行适当的运算和判断,确定客户是否具有离 网倾向并输出结果基于以上的离网预警处理过程及电信目前业务支 撑线状,客户离网预警系统自动模块的相关数据主要 来源于业务系统、计费系统和结算系统2.1抽取离网行为变量根据该省公司市场部2015年9月底所作市场调查 获得的数据,、固定、宽带客户离网的原因 主要确定为资费、终端、稳定性和其他等方面,(由于 单个客户离网原因可能有多个,所以各种原因总合大 于 100%)结合选择的离网原因,分析该离网原因能够形成 何种客户离网表现行为,主要考虑如下:离网表现变量的选取原则需要选择和确定出能够 预测、反映客户将产生离网行为的后台数据分析变量。
该变量应易于提取、便于计算、且具备一定独立性, 即与其它离网变量的关联度较小或没有根据客户离网表现变量,结合目前系统支撑现状, 受限于当前各系统的支撑能力,实际运行的客户离网 预警系统使用其中部分变量(如表2所示),其余变量 可在现有成果上不断完善添加2.2确定离网判断原则数据分析过程中,实际离网客户数是指某一原在 网客户群随着时间的推移,现实中发生的离网客户数;预警离网客户数是指对某一原在网客户群进行离网预 警分析后,判断出有离网倾向的客户数;实际预警客 户数是指在预警离网客户数中,现实中实际离网的客 户数漏报率=离网漏报客户数/实际离网客户数(1)误报率=离网误报客户数/预警离网客户数(2)理想状态下,漏报率和误报率两个指标均为零, 且两指标间存在负相关关系,一个指标准确度的提升 会引起另一指标的误差度的增加鉴于针对性营销的 目的和体系功能完善程度等因素,考虑采取降低误报 率的措施进行修正同时,对于规模大的固定及 移动客户群,采用分批次、分阶段或分地域预警的方 式,辅之以适当降低误报率(或提高漏报率)的方式 进行分析;对于规模较小的宽带客户群,主要采用降 低误报率(或提高漏报率)的方式,辅之以分批次、 分阶段或分地域的方式进行分析。
2.3构建数据挖掘流程本客户离网预警系统在客户离网心理及行为研究 和分析的基础上,考察其离网的原因和行为变量,并 根据这些行为规律寻求合适的离网表现变量新模型重新定位后的取值变量相对于原模型变量适当调整 在确定离网表现变量的基础上,通过输入训练集数据, 借助数据挖掘算法,自动判断出客户离网规则,以历 史数据测算出的客户离网规则作为预测集的判断规 则,确定客户是否具有离网倾向并输出结果在可能的情况下,对模型涉及的变量和参数进行分析 和解释,以确定客户是否离网并提供业务建议(离网 预警流程如图2所示)离网结果的选取在于离网预警 门限值的确定、离网预警参考变量的选定和彼此之间 的逻辑关系等方面,上述逻辑关系需根据实际情况进 行适当调整为保证模型的适应性和稳定性,以3个 月作为模型更新周期,不断跟进客户最新分析3、挖掘处理 3.1分析变量选取在综合考虑客户离网各种因素的基础上,、 固定和宽带计划提取的变量列表分别如表3所/J、O在对数据类型分类的基础上,将计划提取的变量 参数进一步细分为以下6大类别,以客户为例:?客户资料:包括基本的客户ID和号码;?流失标识:包括是否流失;?话音业务使用信息:包括总通话时长、被叫话单次数、市话跳表次数等;?新业务使用信息:包括是否使用ADSL、是否捆 绑相关业务等;?帐务信息:包括总费用、传统长途费用、市话费 等?服务质量信息:包括呼叫10000号次数、投诉次 数等。
3.2脏数据清洗在确定了原始宽表变量表以后,经过多次数据提 取和清洗,可得到最终数据集宽表数据清洗的主要工作包括两部分:首先,在用户 记录中剔除存在逻辑矛盾的数据和存在非正常缺失值 的数据(针对行),如某个号码用户状态记为正常 在用,但所有帐务数据都为空;某个号码在一个 月中存在两条不同的帐务数据等;其次,剔除无用的 数据字段(针对列),如源数据中“拨打异网客服号、 过网号及IP长途接入号次数”、“用户投诉次数”、“呼 叫转移次数”等字段部分的值全为零或为空(null), 不会对后续的数据挖掘结果产生任何影响,故将其全 部剔除最终确定的数据集的数据范围和数据清洗规 则参见图3所示基于对数据的理解,对原始变量进行了进一步的筛选同时对原始变量数据进行分析,在保留与流失 标识关联性最高的主要帐务信息和关键性的新业务使 用信息,在此基础上构造中间变量形成最终用于建模 的参数表根据建模及分析需要,最终形成的建模宽 表变量包括表4中的类别3.3预测有效期选取根据以上分析,将客户流失预测的对象确定为全部拆机客户,预测的流失时间为该客户的第一个非正 常使用状态月对于流失时间的确定是后面建模工作 中构造训练集和预测集时确定预报窗口的基础。
由于 欠费拆机的催缴期一般为1-3个月,所以拆机用户的 第一个非正常使用状态月一般在其拆机前3个月内 在构造模型训练集和测试集时,流失客户的筛选规则 是:该客户在预报窗口前一个月使用状态正常,在预 报窗口月使用状态非正常,在预报窗口月或其后3个 月内拆机建模数据提取时间范围为3个月在移动行业中, 数据窗口长度一般都选择3个月,由于用户的流 动性相对低于移动用户,基于这种考虑,尝试使用5 个月长度的时间窗口这种情况的时间间隔和预报 口为1个月,当时间窗口为5个月时,数据窗口长度 为3个月3.4预测算法选取本次数据挖掘所使用的SPSS公司的数据挖掘软 件Clementine支持4种流失预测分析模型算法:C5.0、 C&RT、神经网络、逻辑回归,其中前两种算法都属 于决策树算法经过对多次建模结果的综合比较发现, 模型预测效果最好的是C5.0算法,其次是神经网络算 法(如表5所示)由于通过C5.0算法能够得到可以 解释的业务规则,因此在随后的建模过程中将主要采 用C5.0作为预测模型算法4、结果分析经过上述建模过程,确定了最优预测模型的主要 环节设置在此基础上,对所提取到的最近期相关数 据进行建模和测试,参见下面表格6。
准确率是指在全部被预测为流失的客户中,真正 流失的客户占全部被预测为流失客户的比例准确率 73.1%意味着在全部被预测为流失的客户中,有73.1% 的人真的流失了模型从测试集1的全部20000名客 户中预测出有11962个客户将在三个月内流失,实际 情况是这11962人中有8746人流失覆盖率是指被准确预测出的流失客户占全部流失客户的比例覆盖率87.46%意味着在全部流失的客户 中,有87.46%的人被预测模型找到在测试集1的全 部20000名客户中,共有10000个客户流失,该预测 模型从这10000人中找出了 8746人提升率是指准确率与实际流失率的比值提升率 1.462倍意味着根据模型预测结果对潜在流失用户进 行挽留工作,效率可提高1.462倍表6是采用C5.0算法的模型预测结果,结果显示 当选用训练集1 (浓度为28.3%)所输出的规则集类 型,模型预测的准确率达到73.1%,覆盖率达到 87.46%,提升率达到1.462倍;对于测试集1,当选 用训练集2 (浓度为45%)所输出的规则类型,模型 预测的准确率达到了 78.3%,覆盖率达到80.09%,提 升率达到1.566倍据此可以认为,本次研宄建设的 客户预测模型的应用价值较高。
参考文献:[1] 赵宇,李兵,李秀,等.基于改进支持向量机的 用户流失分析研宄[J].计算机集成制造系统,2007, 13(1): 202-207.[2] 夏国恩.基于满意属性选择的用户流失预测[J]. 管理学报,2010,7 (6): 856-860.[3] 梅丹.基于数据挖掘的中国移动x公司高端客 户消费行为研究[A].重庆邮电大学,2013, 3[4] 许家?}.基于数据挖掘的电信经营收入分析与预测[A].电子科技大学,2014,3[5] 韩家讳,Kamber,Morgan Kaufmann.数据 挖掘概念与技术[M].北京:机械工业出版社2000.1-68[6] 刘宇.基于灰色系统模型的电信业务收入预测 [J].中南大学报(自然科学版),2004, 18 (3): 59-62[7] 李永平.基于BP神经网络的改进算法研宄[J].南京大学报(自然科学版)2010, 21 (5): 42-44。





