电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

数据挖掘实践应用

14页
  • 卖家[上传人]:枫**
  • 文档编号:474753933
  • 上传时间:2023-01-23
  • 文档格式:DOCX
  • 文档大小:138.55KB
  • / 14 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、据挖掘实践应用(93 ,标用户特征分析的不同思路分享”及“2011个人年度总结本日志的缘起:本文是我年后在数据分析团队内部分享的一个专 题项目的思路汇总,条条大路通罗马,任何一个数据分析课题也一定 是可以有不同的思路不同的算法不同的技术殊途同归的,我的分享的 目的在于通过真实的业务需求和业务数据,引导分析团队内部集体讨 论,发动大家参与,相互切磋,从而提升数据分析团队整体的分析能 力和水平。项目背景:P4P (在线广告竞价排名,payment for performance) 产品是互联网行业平台型企业的一个重要收入来源,由于组织架构的 因素,以前我们的P4P产品的相关数据挖掘模型(比如付费用户预 测打分模型)是由数据仓库团队、算法团队开发、嵌入、固化业务流 程,人工的销售服务还没有类似的分析模型可以支持。最近,随着新 的组织架构调整,电话销售团队承担了 P4P产品售卖的部分KPI,业 务方因此提出了新的需求,“找出P4P消费用户的典型特征,由此可 以让电话销售团队因地制宜圈定不同的目标群体,并同时制定相应的 不同运营卖点,即运营抓手,。(提请注意的是,这里的典型特征不是 指单一维度的

      2、分布特征,而是要找出多维度并存组合时的特征)很明显,这里的业务需求就不是前期的“P4P目标付费用户预测打 分模型”可以满足的;两者有什么区别呢?从数据挖掘理论上看似乎 可以没有区别,但是在业务实践场景下,差别太大了。“打分模型” 的产出物是一批潜在用户的member_id以及相应的付费概率数值, 业务方不需要在乎模型里面的具体的预测变量有哪些,变量之间的线 性或非线性关系,也不需要知道各个预测变量的阀值;打分模型的优 点是精确,效率高,缺点是每个周期都要打分,而且比较死板,缺乏 灵活性;而“付费用户典型特征模型,的产出物是不仅要找出付费用户 典型特征的字段(这里的特征是不仅在统计上有意义,更要求在业务 应用中有意义,有实用性。很多时候,统计上的显著性到了业务实践 中其实并没有应用价值的,最典型的一个例子就是,付费用户中男女 比例52:48,相对潜在目标群体来说,这个比例从统计学上看是显著 的,但是在实践应用中,单纯看这个性别的显著性特征其实是没有什 么运营价值的,没有谁会因此聚焦在男性群体里进行营销)更要找 出这些典型特征字段组合在一起的数值区间阀僮比如近30天的登录 天次大于25天,

      3、并且近30天交易订单数量大于15,等等);“付费用 户典型特征模型”优点是灵活,可以由业务人员(电话销售)灵活组 合不同的目标群体,但是其应用的(预测)准确度通常来说是没有打 分模型”高的;“付费用户典型特征模型以及类似的此类典型特征”模型,有个 核心的终极评价标准:优良的模型(准确的字段以及合理的相应阀值) 能最大限度包含付费用户的数量,同时按照这些阀值圈定的运营受众 的数量范围能满足运营资源的负荷(比方说,如果分析用的原始数据 里有1000个付费用户,而这些付费用户是从10万个俱乐部会员中产 生的话,那么一个比较满意的“付费用户典型特征模型(即典型字段 以及相应的阀值)能覆盖80% (左右)以上的付费用户(也即800个 左右的上述分析数据中的付费用户包含在这些典型阀值的区间里) 并且在10万个全体的俱乐部会员中,满足这些条件的用户在2-3万左 右(这里的数据、比例只是为了举例方便,实际应用中的原则是阀值 覆盖的付费用户数量尽可能多,满足这些阀值条件的潜在目标受众尽 可能精简,如果上述例子中,分析的结果阀值是有8-9万人满足这些 条件,那从全体10万人的基数看,这个8-9万的筛选其实

      4、并没有多大 的效率的提升);这样看来,“付费用户典型特征模型从思路和分析技术上看可以 分成两步:第一步,确定有明显特征差异的字段,第二步,确定这些显著差异性字段的各自的阀值。如何有效锁定“有明显差异的字段?有三种不同的思路以及更 多的具体的算法:我们可以按照预测模型的思路,通过逻辑回归、决策树、(R Square Chi_Square 等不同的算法);我们还可以另起炉灶,按照假设检验的思路,从付费用户和非付 费用户中抽取等量的样本进行T检验和(或)者非参数检验,尝试这 个假设检验的思路时,要注意,样本的抽取数量不能太少,也不能太 多(样本太少,比如20-30个,很多显著性的差异也变得似乎不显著; 样本太多,比如几万,很细微可以忽略不计的差异也变得显著,这样 在实践应用中没有意义,这是大数定理)第三种方法就是利用聚类技术,尝试不同字段组合进行聚类划分, 这种方法的优点是快速,缺点是聚类技术很多时候的结果不可控不可 预见,常常不能令业务方满意,而且参与聚类的字段如何挑选,还是 有赖于前面两种思路的探索和实现的(关于聚类技术的判断,详见我 之前的博客(数据挖掘交流讨论之23,与“汪生”分享我

      5、对于聚类实践 应用的个人体会)http:/ 4/如何确定显著差异性字段的各自的阀值?至少有三种方法:第一是聚类技术,不过这里稍微要延展一下,我自己的体会,在 互联网的实践中,有不少项目的直接的聚类结果并不能令人满意,主 要原因在于单纯聚类评价的指标(R Square, RMSSTD root_mean_square_standard_deviation 等等)关注的是总体上的宏 观上的结果评价,而如果这些字段的各自的标准差比均值大很多的时 候,这些总体的宏观的判断指标会明显无法胜任合格的效果评判,结 果是这些总体指标看上去可能比较满意,但是具体到各个细分出来的 群体里,这些关键字段的分布过于分散,由此可以想见其均值是没有 实际参考价值的;但是,就算如此,聚类技术至少可以给我们一些思 路和启示,告诉我们哪些字段可以组合进行阀值权衡,这后一种方法 我最近多次采用,效果比单纯聚类结果要好些,已经在业务项目中得 到了验证。第二种方法,就是分析师人工尝试,比如利用excel的透视表, 按照前面的“典型特征模型的核心终极评价标准,来做判断和决定。第三种方法,决策树的结果,如果决策树模型效果不错的话

      6、,从 树根到树叶的几条显著的组合就是很好的答案了,不过在实践中,决 策树模型是否能如我们所愿有好结果,要看具体项目数据是否有这种 逻辑关系存在的! !“说的再多,也是说食不饱,哪有这多啰嗦,各位还是参,参,参” 我喜欢虚云老和尚的单刀直入,各位,业务分析需求在这里,数据在 这里,对数据挖掘应用感兴趣的同事,按照上面的框架尝试把!7.独立承担(或牵头、负责、指导) PM,XPWP,FTP,SDRZ,HKT等七大产品线的全部的运营数据分析挖掘支持,包括新 签、续签预测模型、客户分层模型、优质定义分析建议书、活跃度定 义划分建议书、用户行为轨迹分析报告以及在各业务领域(PD,UED, 运营、客服)的应用建议书,交叉销售模型、运营效果评估模板、运 营效果提升的应用模型、客户流失预警模型、服务细分模型;所有分 析模型、分析报告、建议全部在实践落地应用中得到检验,模型应用 准确率基本上都保持了相当的稳定度和准确度除了 SDRZ这个新产 品刚刚上线正在进行中外);一分耕耘一分收获,当你对一份工作, 一分职业、一分爱好,充满了爱,充满了兴趣,在这个领域你想不做 好都很难! ! !据挖掘交流讨论(33,

      7、再完美的数据挖掘模型也只是业务应用万里长征第一步)背景:2011年11月30日,汪生在本博客留言(“今年做了差不多 一年的互联网方面的挖掘课题,现在我面临着你前面提及的瓶颈和困 局。本来期望年底的注册响应模型能有起色,但不幸的是,互联网的 确有特殊之处。能注册的自然注册了,不愿注册的即使给了 OFFER 还是不够大。不仅如此,营销配合的业务部门也不给力。对我而言, 这是一个艰难时期。不知老兄可有良策。”回复:汪生你好,我们不约而同想到了同样的话题。我在最近2 个月做了一个挖掘应用课题(某核心产品高活跃免费用户防止流失的 预警模型应用),建模阶段在业务部门的支持配合下进展顺利,实际 数据验证模型也非常稳定可靠满意。一个优秀的完美的挖掘模型并不 是必然带来运营落地应用效果的完美,落地应用相比建立模型来说更 加复杂,更加挑战,涉及到更多的不可确定的因素。也正因为落地应 用更复杂更挑战,所以数据分析师应该有勇气有热情突破自己的数据 分析挖掘的领域,向业务应用延伸,这个要求短期看是对企业有功, 长期看是对分析师个人的跨越式成长所必须的,只有不断突破自己, 才可能真正成为实战型的数据分析专家。作为

      8、数据分析师来说,个人 的含金量或者说个人的专业价值一定是要在实战中体现或者发挥的, 仅仅能熟练搭建一些准确的完美的模型离市场所需的实战型优秀分 析师的能力之间的距离有天壤之别。项目建模阶段概述:免费客户运营部提出一个分析需求,鉴于免费客 户中的高活跃用户群体(该群体是最有可能转化成付费用户的)流失 率比较高(涉及东家商业隐私,本博客所有商业数据做了屏蔽或修 改),业务方希望通过数据分析挖掘提前预警发现最有可能在近期流 失的用户,并提交运营部门做精细化分层运营,力图有效挽回高流失 风险的用户,降低该用户群体的流失率。通过与运营方前期沟通,首 先明确定义了本分析课题中什么是流失用户的定义,根据运营方的 运营节奏和经验,“H层流失用户是指在A时间点属于H层用户,在 A加7天的时间点已经跌落离开H层,并且在A加14天的时间点仍 然没有回到H层的用户”。接下来,与运营方一起讨论潜在的分析变 量字段,结果运营方为了省事,把宽表里所有70个字段全部作为潜在 分析字段让我选,呵呵(“悟空,你又在调皮! ”)。第一次提数据,30万行70个字段,通过基础原始数据摸底和数据清洗,排除了空缺 严重的或者分布过

      9、度集中的或者高度相关的字段共36个,同时,发现 了两个字段数据矛盾(过去30天某某操作天数为零,但是过去30天 某某操作次数不为零),这个相互矛盾的两个字段我们觉得不能忽视 或者简单删除,要找原因,经过与数据仓库方面沟通,发现是数据仓 库数据回滚错误造成的,这样必须重新提取数据。第二次重新提取数 据后,按部就班边分析边分享,进展顺利,当模型搭建完成,验证比 较满意,准备提交业务应用时,我突然想到一个关键问题,“这样大 动十戈挖掘建模出来的结果,有没有更加简单直观的分析方法代替 呢? ”,换言之,如果我们直观猜想,在起初的A时间点,在H层定 义的值域附近的人群是否可以直观判断在7天14天时间点最有可能 跌落离开H层? ”,无论这个直观猜想是否正确,我们最起码要验证 一下吧。结果,我回头验证的时候,猛然发现,我们当初全部囊括的 宽表里的70个字段,尽然没有包括H层定义的那几个字段(行业的 登录标准天次,行业的关键A页面的pv,等),如果没有这些字段数 据,那么上述的直观假设就无法验证,我们也就不能理直气壮证明挖 掘模型的价值了。所以,尽管模型单方面看可以满足业务需要在这 种情况下,我主持召开了课题阶段分享会,向业务方通报进展和无法 对比直观假设的尴尬,面对当前的模型结论和发现的一些明显证明是 与流失有密切关系的一些字段,业务方非常感兴趣,也支持我重新提 取新数据,包括上面假设里的一些关键字段(在该分享会上,我首先 承认遗漏上述关键字段是我的责任,但同时我也指出在前期的字段讨 论中,业务方将近20人参加讨论也没有人想到跟H层定义有关的那 几个关键字段),同时,在这次会上,业务方根据自己的经验提出的 另外一个关键字段在后来的模型中证明是最重要的一个预测字段第 三次重新提取经过增添的新的原始字段,按部就班,最后跟上面的直 观猜想进行验证,发现这个直观猜想不成立(放心了)并且(由于 增添了几个关键字段)新的预测模型比第二次数据建模的效果要提高 6个百分点,最后,经过最刺激的开门见山的跟当时最新的实际数据 验证,模型实际精

      《数据挖掘实践应用》由会员枫**分享,可在线阅读,更多相关《数据挖掘实践应用》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.