数据挖掘实践应用
14页1、据挖掘实践应用(93 ,标用户特征分析的不同思路分享”及“2011个人年度总结本日志的缘起:本文是我年后在数据分析团队内部分享的一个专 题项目的思路汇总,条条大路通罗马,任何一个数据分析课题也一定 是可以有不同的思路不同的算法不同的技术殊途同归的,我的分享的 目的在于通过真实的业务需求和业务数据,引导分析团队内部集体讨 论,发动大家参与,相互切磋,从而提升数据分析团队整体的分析能 力和水平。项目背景:P4P (在线广告竞价排名,payment for performance) 产品是互联网行业平台型企业的一个重要收入来源,由于组织架构的 因素,以前我们的P4P产品的相关数据挖掘模型(比如付费用户预 测打分模型)是由数据仓库团队、算法团队开发、嵌入、固化业务流 程,人工的销售服务还没有类似的分析模型可以支持。最近,随着新 的组织架构调整,电话销售团队承担了 P4P产品售卖的部分KPI,业 务方因此提出了新的需求,“找出P4P消费用户的典型特征,由此可 以让电话销售团队因地制宜圈定不同的目标群体,并同时制定相应的 不同运营卖点,即运营抓手,。(提请注意的是,这里的典型特征不是 指单一维度的
2、分布特征,而是要找出多维度并存组合时的特征)很明显,这里的业务需求就不是前期的“P4P目标付费用户预测打 分模型”可以满足的;两者有什么区别呢?从数据挖掘理论上看似乎 可以没有区别,但是在业务实践场景下,差别太大了。“打分模型” 的产出物是一批潜在用户的member_id以及相应的付费概率数值, 业务方不需要在乎模型里面的具体的预测变量有哪些,变量之间的线 性或非线性关系,也不需要知道各个预测变量的阀值;打分模型的优 点是精确,效率高,缺点是每个周期都要打分,而且比较死板,缺乏 灵活性;而“付费用户典型特征模型,的产出物是不仅要找出付费用户 典型特征的字段(这里的特征是不仅在统计上有意义,更要求在业务 应用中有意义,有实用性。很多时候,统计上的显著性到了业务实践 中其实并没有应用价值的,最典型的一个例子就是,付费用户中男女 比例52:48,相对潜在目标群体来说,这个比例从统计学上看是显著 的,但是在实践应用中,单纯看这个性别的显著性特征其实是没有什 么运营价值的,没有谁会因此聚焦在男性群体里进行营销)更要找 出这些典型特征字段组合在一起的数值区间阀僮比如近30天的登录 天次大于25天,
3、并且近30天交易订单数量大于15,等等);“付费用 户典型特征模型”优点是灵活,可以由业务人员(电话销售)灵活组 合不同的目标群体,但是其应用的(预测)准确度通常来说是没有打 分模型”高的;“付费用户典型特征模型以及类似的此类典型特征”模型,有个 核心的终极评价标准:优良的模型(准确的字段以及合理的相应阀值) 能最大限度包含付费用户的数量,同时按照这些阀值圈定的运营受众 的数量范围能满足运营资源的负荷(比方说,如果分析用的原始数据 里有1000个付费用户,而这些付费用户是从10万个俱乐部会员中产 生的话,那么一个比较满意的“付费用户典型特征模型(即典型字段 以及相应的阀值)能覆盖80% (左右)以上的付费用户(也即800个 左右的上述分析数据中的付费用户包含在这些典型阀值的区间里) 并且在10万个全体的俱乐部会员中,满足这些条件的用户在2-3万左 右(这里的数据、比例只是为了举例方便,实际应用中的原则是阀值 覆盖的付费用户数量尽可能多,满足这些阀值条件的潜在目标受众尽 可能精简,如果上述例子中,分析的结果阀值是有8-9万人满足这些 条件,那从全体10万人的基数看,这个8-9万的筛选其实
4、并没有多大 的效率的提升);这样看来,“付费用户典型特征模型从思路和分析技术上看可以 分成两步:第一步,确定有明显特征差异的字段,第二步,确定这些显著差异性字段的各自的阀值。如何有效锁定“有明显差异的字段?有三种不同的思路以及更 多的具体的算法:我们可以按照预测模型的思路,通过逻辑回归、决策树、(R Square Chi_Square 等不同的算法);我们还可以另起炉灶,按照假设检验的思路,从付费用户和非付 费用户中抽取等量的样本进行T检验和(或)者非参数检验,尝试这 个假设检验的思路时,要注意,样本的抽取数量不能太少,也不能太 多(样本太少,比如20-30个,很多显著性的差异也变得似乎不显著; 样本太多,比如几万,很细微可以忽略不计的差异也变得显著,这样 在实践应用中没有意义,这是大数定理)第三种方法就是利用聚类技术,尝试不同字段组合进行聚类划分, 这种方法的优点是快速,缺点是聚类技术很多时候的结果不可控不可 预见,常常不能令业务方满意,而且参与聚类的字段如何挑选,还是 有赖于前面两种思路的探索和实现的(关于聚类技术的判断,详见我 之前的博客(数据挖掘交流讨论之23,与“汪生”分享我
《数据挖掘实践应用》由会员枫**分享,可在线阅读,更多相关《数据挖掘实践应用》请在金锄头文库上搜索。
地产推广软文
培训学习个人总结模板(3篇)
个案工作计划书
酒店公司章程范本
试验定积分的近似计算
【最新】高中英语人教版必修1课时跟踪检测五 Word版含解析
新农村建设年度工作总结标准范本(二篇).doc
初中物理常用公式
标准厂房租赁合同书律师版(九篇).doc
2022年六年级下册第一单元测试卷
万和工程脚手架施工方案
2023会计助理转正个人工作总结(2篇).doc
七年级美术教学计划共7篇
2023年小学部突发安全事故应急预案
梯形螺纹教案
吊车司机操作规程
苏教版四年级上册《练习六》数学教案
采购部岗位职责说明书范本(3篇).doc
有关期中考的反思作文汇总六篇
11探索勾股定理二
2024-02-03 19页
2023-07-20 19页
2024-02-15 12页
2023-12-05 6页
2023-07-10 6页
2023-06-07 1页
2024-01-24 11页
2023-10-07 1页
2022-12-12 6页
2023-06-18 27页