您所在位置：网站首页 > 学术论文 > 其它学术论文数据挖掘实践应用

数据挖掘实践应用

14页

卖家[上传人]：枫**

文档编号：474753933

上传时间：2023-01-23

文档格式：DOCX

文档大小：138.55KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 金贝

/ 14 举报版权申诉马上下载

文本预览

下载提示

常见问题

1、据挖掘实践应用（93 ,标用户特征分析的不同思路分享”及“2011个人年度总结本日志的缘起：本文是我年后在数据分析团队内部分享的一个专题项目的思路汇总，条条大路通罗马，任何一个数据分析课题也一定是可以有不同的思路不同的算法不同的技术殊途同归的，我的分享的目的在于通过真实的业务需求和业务数据，引导分析团队内部集体讨论，发动大家参与，相互切磋，从而提升数据分析团队整体的分析能力和水平。项目背景：P4P （在线广告竞价排名，payment for performance）产品是互联网行业平台型企业的一个重要收入来源，由于组织架构的因素，以前我们的P4P产品的相关数据挖掘模型（比如付费用户预测打分模型）是由数据仓库团队、算法团队开发、嵌入、固化业务流程，人工的销售服务还没有类似的分析模型可以支持。最近，随着新的组织架构调整，电话销售团队承担了 P4P产品售卖的部分KPI,业务方因此提出了新的需求，“找出P4P消费用户的典型特征，由此可以让电话销售团队因地制宜圈定不同的目标群体，并同时制定相应的不同运营卖点，即运营抓手，。（提请注意的是，这里的典型特征不是指单一维度的

2、分布特征，而是要找出多维度并存组合时的特征）很明显，这里的业务需求就不是前期的“P4P目标付费用户预测打分模型”可以满足的；两者有什么区别呢？从数据挖掘理论上看似乎可以没有区别，但是在业务实践场景下，差别太大了。“打分模型” 的产出物是一批潜在用户的member_id以及相应的付费概率数值，业务方不需要在乎模型里面的具体的预测变量有哪些，变量之间的线性或非线性关系，也不需要知道各个预测变量的阀值；打分模型的优点是精确，效率高，缺点是每个周期都要打分，而且比较死板，缺乏灵活性；而“付费用户典型特征模型，的产出物是不仅要找出付费用户典型特征的字段（这里的特征是不仅在统计上有意义，更要求在业务应用中有意义，有实用性。很多时候，统计上的显著性到了业务实践中其实并没有应用价值的，最典型的一个例子就是，付费用户中男女比例52:48,相对潜在目标群体来说，这个比例从统计学上看是显著的，但是在实践应用中，单纯看这个性别的显著性特征其实是没有什么运营价值的，没有谁会因此聚焦在男性群体里进行营销）更要找出这些典型特征字段组合在一起的数值区间阀僮比如近30天的登录天次大于25天，

3、并且近30天交易订单数量大于15,等等）；“付费用户典型特征模型”优点是灵活，可以由业务人员（电话销售）灵活组合不同的目标群体，但是其应用的（预测）准确度通常来说是没有打分模型”高的；“付费用户典型特征模型以及类似的此类典型特征”模型，有个核心的终极评价标准:优良的模型（准确的字段以及合理的相应阀值）能最大限度包含付费用户的数量，同时按照这些阀值圈定的运营受众的数量范围能满足运营资源的负荷（比方说，如果分析用的原始数据里有1000个付费用户，而这些付费用户是从10万个俱乐部会员中产生的话，那么一个比较满意的“付费用户典型特征模型（即典型字段以及相应的阀值）能覆盖80% （左右）以上的付费用户（也即800个左右的上述分析数据中的付费用户包含在这些典型阀值的区间里）并且在10万个全体的俱乐部会员中，满足这些条件的用户在2-3万左右（这里的数据、比例只是为了举例方便，实际应用中的原则是阀值覆盖的付费用户数量尽可能多，满足这些阀值条件的潜在目标受众尽可能精简，如果上述例子中，分析的结果阀值是有8-9万人满足这些条件，那从全体10万人的基数看，这个8-9万的筛选其实

4、并没有多大的效率的提升）；这样看来，“付费用户典型特征模型从思路和分析技术上看可以分成两步：第一步，确定有明显特征差异的字段，第二步，确定这些显著差异性字段的各自的阀值。如何有效锁定“有明显差异的字段？有三种不同的思路以及更多的具体的算法：我们可以按照预测模型的思路，通过逻辑回归、决策树、（R Square Chi_Square 等不同的算法）；我们还可以另起炉灶，按照假设检验的思路，从付费用户和非付费用户中抽取等量的样本进行T检验和（或）者非参数检验，尝试这个假设检验的思路时，要注意，样本的抽取数量不能太少，也不能太多（样本太少，比如20-30个，很多显著性的差异也变得似乎不显著；样本太多，比如几万，很细微可以忽略不计的差异也变得显著，这样在实践应用中没有意义，这是大数定理）第三种方法就是利用聚类技术，尝试不同字段组合进行聚类划分，这种方法的优点是快速，缺点是聚类技术很多时候的结果不可控不可预见，常常不能令业务方满意，而且参与聚类的字段如何挑选，还是有赖于前面两种思路的探索和实现的（关于聚类技术的判断，详见我之前的博客（数据挖掘交流讨论之23,与“汪生”分享我

5、对于聚类实践应用的个人体会）http:/ 4/如何确定显著差异性字段的各自的阀值？至少有三种方法：第一是聚类技术，不过这里稍微要延展一下，我自己的体会，在互联网的实践中，有不少项目的直接的聚类结果并不能令人满意，主要原因在于单纯聚类评价的指标（R Square, RMSSTD root_mean_square_standard_deviation 等等）关注的是总体上的宏观上的结果评价，而如果这些字段的各自的标准差比均值大很多的时候，这些总体的宏观的判断指标会明显无法胜任合格的效果评判，结果是这些总体指标看上去可能比较满意，但是具体到各个细分出来的群体里，这些关键字段的分布过于分散，由此可以想见其均值是没有实际参考价值的；但是，就算如此，聚类技术至少可以给我们一些思路和启示，告诉我们哪些字段可以组合进行阀值权衡，这后一种方法我最近多次采用，效果比单纯聚类结果要好些，已经在业务项目中得到了验证。第二种方法，就是分析师人工尝试，比如利用excel的透视表，按照前面的“典型特征模型的核心终极评价标准，来做判断和决定。第三种方法，决策树的结果，如果决策树模型效果不错的话

6、，从树根到树叶的几条显著的组合就是很好的答案了，不过在实践中，决策树模型是否能如我们所愿有好结果，要看具体项目数据是否有这种逻辑关系存在的！！“说的再多，也是说食不饱，哪有这多啰嗦，各位还是参，参，参” 我喜欢虚云老和尚的单刀直入，各位，业务分析需求在这里，数据在这里，对数据挖掘应用感兴趣的同事，按照上面的框架尝试把！7.独立承担（或牵头、负责、指导） PM,XPWP,FTP,SDRZ,HKT等七大产品线的全部的运营数据分析挖掘支持，包括新签、续签预测模型、客户分层模型、优质定义分析建议书、活跃度定义划分建议书、用户行为轨迹分析报告以及在各业务领域（PD,UED, 运营、客服）的应用建议书，交叉销售模型、运营效果评估模板、运营效果提升的应用模型、客户流失预警模型、服务细分模型；所有分析模型、分析报告、建议全部在实践落地应用中得到检验，模型应用准确率基本上都保持了相当的稳定度和准确度除了 SDRZ这个新产品刚刚上线正在进行中外）；一分耕耘一分收获，当你对一份工作，一分职业、一分爱好，充满了爱，充满了兴趣，在这个领域你想不做好都很难！！！据挖掘交流讨论（33，

7、再完美的数据挖掘模型也只是业务应用万里长征第一步）背景：2011年11月30日，汪生在本博客留言（“今年做了差不多一年的互联网方面的挖掘课题，现在我面临着你前面提及的瓶颈和困局。本来期望年底的注册响应模型能有起色，但不幸的是，互联网的确有特殊之处。能注册的自然注册了，不愿注册的即使给了 OFFER 还是不够大。不仅如此，营销配合的业务部门也不给力。对我而言，这是一个艰难时期。不知老兄可有良策。”回复：汪生你好，我们不约而同想到了同样的话题。我在最近2 个月做了一个挖掘应用课题（某核心产品高活跃免费用户防止流失的预警模型应用），建模阶段在业务部门的支持配合下进展顺利，实际数据验证模型也非常稳定可靠满意。一个优秀的完美的挖掘模型并不是必然带来运营落地应用效果的完美，落地应用相比建立模型来说更加复杂，更加挑战，涉及到更多的不可确定的因素。也正因为落地应用更复杂更挑战，所以数据分析师应该有勇气有热情突破自己的数据分析挖掘的领域，向业务应用延伸，这个要求短期看是对企业有功，长期看是对分析师个人的跨越式成长所必须的，只有不断突破自己，才可能真正成为实战型的数据分析专家。作为

8、数据分析师来说，个人的含金量或者说个人的专业价值一定是要在实战中体现或者发挥的，仅仅能熟练搭建一些准确的完美的模型离市场所需的实战型优秀分析师的能力之间的距离有天壤之别。项目建模阶段概述：免费客户运营部提出一个分析需求，鉴于免费客户中的高活跃用户群体（该群体是最有可能转化成付费用户的）流失率比较高（涉及东家商业隐私，本博客所有商业数据做了屏蔽或修改），业务方希望通过数据分析挖掘提前预警发现最有可能在近期流失的用户，并提交运营部门做精细化分层运营，力图有效挽回高流失风险的用户，降低该用户群体的流失率。通过与运营方前期沟通，首先明确定义了本分析课题中什么是流失用户的定义，根据运营方的运营节奏和经验，“H层流失用户是指在A时间点属于H层用户，在 A加7天的时间点已经跌落离开H层，并且在A加14天的时间点仍然没有回到H层的用户”。接下来，与运营方一起讨论潜在的分析变量字段，结果运营方为了省事，把宽表里所有70个字段全部作为潜在分析字段让我选，呵呵（“悟空，你又在调皮！ ”）。第一次提数据，30万行70个字段，通过基础原始数据摸底和数据清洗，排除了空缺严重的或者分布过

9、度集中的或者高度相关的字段共36个，同时，发现了两个字段数据矛盾（过去30天某某操作天数为零，但是过去30天某某操作次数不为零），这个相互矛盾的两个字段我们觉得不能忽视或者简单删除，要找原因，经过与数据仓库方面沟通，发现是数据仓库数据回滚错误造成的，这样必须重新提取数据。第二次重新提取数据后，按部就班边分析边分享，进展顺利，当模型搭建完成，验证比较满意，准备提交业务应用时，我突然想到一个关键问题，“这样大动十戈挖掘建模出来的结果，有没有更加简单直观的分析方法代替呢？ ”，换言之，如果我们直观猜想，在起初的A时间点，在H层定义的值域附近的人群是否可以直观判断在7天14天时间点最有可能跌落离开H层？ ”，无论这个直观猜想是否正确，我们最起码要验证一下吧。结果，我回头验证的时候，猛然发现，我们当初全部囊括的宽表里的70个字段，尽然没有包括H层定义的那几个字段（行业的登录标准天次，行业的关键A页面的pv,等），如果没有这些字段数据，那么上述的直观假设就无法验证，我们也就不能理直气壮证明挖掘模型的价值了。所以，尽管模型单方面看可以满足业务需要在这种情况下，我主持召开了课题阶段分享会，向业务方通报进展和无法对比直观假设的尴尬，面对当前的模型结论和发现的一些明显证明是与流失有密切关系的一些字段，业务方非常感兴趣，也支持我重新提取新数据，包括上面假设里的一些关键字段（在该分享会上，我首先承认遗漏上述关键字段是我的责任，但同时我也指出在前期的字段讨论中，业务方将近20人参加讨论也没有人想到跟H层定义有关的那几个关键字段），同时，在这次会上，业务方根据自己的经验提出的另外一个关键字段在后来的模型中证明是最重要的一个预测字段第三次重新提取经过增添的新的原始字段，按部就班，最后跟上面的直观猜想进行验证，发现这个直观猜想不成立（放心了）并且（由于增添了几个关键字段）新的预测模型比第二次数据建模的效果要提高 6个百分点，最后，经过最刺激的开门见山的跟当时最新的实际数据验证，模型实际精

《数据挖掘实践应用》由会员枫**分享，可在线阅读，更多相关《数据挖掘实践应用》请在金锄头文库上搜索。

点击阅读更多内容

TA的资源