基于阿里巴巴大数据重复购买预测的实证研究.docx
5页基于阿里巴巴大数据重复购买预测的实基于阿里巴巴大数据重复购买预测的实 证研究证研究【摘要】淘宝网站能够收集到海量用户的购物行为日志,它使得掌握用户的购物偏好成为了可能尽管用户的购买模式具有高度的多样性和自由性,但是周期性的购买是非常频繁的现象因此寻找用户的周期行为对了解用户对商户的偏好非常重要本文基于 XX 年阿里巴巴竞赛所获得的数据,从海量的购物行为数据中挖掘了用户特征、商户特征和用户-商户特征,对寻常情境下新用户未来在同一家店铺再次购买行为的预测进行了研究此外,针对训练数据中类别及不平衡的问题,提出随机抽样并赋予各类别不同权重相结合的策略,并基于该策略将训练样本划分为6 组,分别用 SVM 与随机森林训练多个预测模型最后,通过集成将这多个预测模型共同进行预测通过实验验证,所提出的组合预测方法具有很高的有效性关键词】组合预测方法 SVM 模型 随机森林 集成学习 客户重复购买一、引言随着人类进入信息时代的步伐加快,电子商务网站也越来越流行截至 XX 年 6 月,中国网民规模达亿,其中网络购物用户规模达到亿商家为了发展忠诚的客户,有时在特定日期” )进行大型促销以吸引大量的新买家,但是许多吸引的买家是一次性的交易猎手,这些促销活动对销售可能没有长期的影响,因此为了大大降低促销成本提高投资回报率,商家必须确定谁可以转化为重复的买家。
本文基于 424170 个不同的用户、4995 个不同的商户从某年 5月 11 日到 11 月 12 日在天猫的约 5000 万条海量行为日志,建立用户的商户偏好,进行商户筛选并预测他们在未来 6个月内再次在同一个商户的购买行为传统的用户兴趣度估计方法有:王微微等结合用户的浏览内容,采用期望最大化算法实现用户聚类,将用户划分到对应的簇,创建用户的兴趣度模型但是聚类可能收敛到局部最小值,在大规模的数据集上收敛的较慢,而且运用期望不能准确的预测用户的重复购买行为本文根据用户对商户的行为数据进行研究,提取了用户对商户的重要行为特征根据这些特征,我们分别基于随机森林和 SVM 构造了分类模型对新用户未来六个月内是否会再购买该商户的商品进行预测,并实现了理想的预测结果经研究发现,对于用户海量购物行为数据,若提取重要的特征信息,对于准确预测该用户的行为取向具有重要的现实意义针对训练数据中类别及不平衡的问题,我们对负样本进行随机欠采样,对正样本进行随机过采样最后,通过集成将这多个预测模型共同进行预测如图 1 所示:二、模型算法SVM 原理介绍支持向量机的主要理念可以概括为两点:第一,通过学习寻找最优的分割超平面使得两类之间的分割距离最大;第二,基于结构风险最小化的理论去特征空间中找最优的超平面。
当支持向量机用于解决非线性问题时,这个方法是通过非线性映射将样本空间映射到高维空间中或是无限维度的特征空间以至线性支持向量机的方法可用于求解非线性样本空间中的分类问题从样本空间到特征空间的非线性映射如图 2随机森林原理训练过程是从树根节点开始,递归学习最优的分裂函数来划分该节点上的样本,使得新生成的孩子节点上样本纯度不断增加,直到满足下列条件之一:达到树生成的最大深度;节点样本纯度达到要求;节点上样本数目达到最小值因此可使用该模型进行分类预测集成原理集成学习通过将多个分类器进行结合,获得比单一分类器显著优越的泛化性能为了使集成的分类器获得尽可能好的性能,应该使单个分类器间尽可能呈现多样性为获取分类器的多样性,我们的工作主要从三个方面进行:第一,使用不完全相同的训练样本训练分类器;第二,使用不同的分类器模型进行训练,我们选择 SVM和随机森林这两类优秀的分类器;第三,设置分类器不同的参数进行训练具体而言,我们将训练 3 个 SVM 模型和 3 个随机森林模型,并且每一个模型所设置的参数都不一致在预测阶段,我们将每个分类器的输出值进行简单评价获得最终的预测结果三、实证分析阿里巴巴大数据竞赛是阿里巴巴集团主办,在阿里巴巴大数据科研平台―“天池”上开展的基于“天猫”海量真实用户访问数据的 Repeat Buyers Prediction-Challenge the Baseline 大赛。
阿里巴巴大数据竞赛官方提供了某年 5 月到 11 月天猫部分购物行为数据在竞赛官方网站上提供的数据有 9 类,分别为用户 ID、商品 ID、类别 ID、商户 ID、品牌 ID、用户年龄、用户性别、用户对商户的行为和操作时间其中,用户对商户行为类型包括点击、加入购物车、购买和收藏 4 种操作时间隐藏了年份但精确到了天的级别每个商品 ID 仅限一家商户所用每个用户 ID 对于相应商户都是新用户数据清洗及归一化处理在实验之前,需要对数据进行清洗,使之有效通�^分析,我们对异常值做了处理:在所给数据中,我们将空值和记录为 NULL 的值记为异常值这种情况分别出现在用户的年龄和性别中,为了提高预测的准确性我们分别用年龄的平均值与性别的平均值来代替年龄与性别中的异常值选取的特征在尺度上可能存在很大的差别假设特征向量由两个解释变量构成,第一个变量值范围[0,1],第二个变量值范围[0,1000000],这时就要把第二个变量的值调整为[0,1],这样才能保证数据是单位方差如果变量特征值的量级比其他特征值的方差还大,这个特征值就会主导学习算法的方向,导致其它变量的影响被忽略通过对所选特征的统计分析,我们计算了所有训练集中每一维特征的均值和标准差,因为数量级差别较大,为方便视图我们取了对数来作图。
由图 5 可知,这些维度特征的数量级差别较大为了使分类器的训练更加稳定有效,我们对每一维特征都进行了标准化处理,将其归一化至“0”均值和“1”方差的分布。





