
《R语言商务数据分析实战》教学课件—02商品零售购物篮分析.ppt
26页第第2章章 商品零售商品零售购购物物篮篮分析分析R语言商务数据分析实战语言商务数据分析实战1分析商品销售状况目目录录了解购物篮分析2使用Apriori关联规则构建购物篮分析模型3小结4现代商品种类繁多,顾客往往会由于需要购买的商品众多而变得疲于选择,且顾客并不会因为商品选择丰富而选择购买更多的商品分析商品零售企分析商品零售企业现业现状状例如,货架上有可口可乐和百事可乐,若顾客需要选购可乐若干,或许会同时购买两种可乐,但是购买可乐的数量大多数情况下不会因为品牌数量增加而增加繁杂的选购过程往往会给顾客疲惫的购物体验分析商品零售企分析商品零售企业现业现状状对于某些商品,顾客会选择同时购买,如面包与牛奶、薯片与可乐等,当面包与牛奶或者薯片与可乐分布在商场的两侧,且距离十分遥远时,顾客购买的欲望就会减少,在时间紧迫的情况下顾客甚至会放弃购买某些计划购买的商品相反,把牛奶与面包摆放在相邻的位置,既给顾客提供便利,提升购物体验,又提高顾客购买的概率,达到了促销的目的许多商场以打折方式作为主要促销手段,以更少的利润为代价获得更高的销量分析商品零售企分析商品零售企业现业现状状打折往往会使顾客增加原计划购买商品的数量,对于原计划不打算购买且不必要的商品,打折的吸引力远远不足。
而正确的商品摆放却能提醒顾客购买某些必需品,甚至吸引他们购买感兴趣的商品IDGoods1柑橘类水果1人造黄油1即食汤1半成品面包2咖啡2热带水果2酸奶3全脂牛奶4奶油乳酪4肉蔓了解某商品零售企了解某商品零售企业业基本数据情况基本数据情况某商品零售企业共收集了9835个购物篮的数据,其中包含169个不同的商品类别,售出商品总数为43367件其数据示例如表所示分析商品热销情况和商品结构分析商品之间的关联性根据分析结果给出销售建议案例目案例目标标综合商品零售行业现状,该商品零售企业提供的数据,本案例需要完成以下分析目标熟悉熟悉购购物物篮篮分析的步分析的步骤骤与流程与流程1分析商品销售状况目目录录了解购物篮分析2使用Apriori关联规则构建购物篮分析模型3小结4商品名称销量销量占比全脂牛奶25130.057947287其他蔬菜19030.043881292面包卷18090.041713745苏打17150.039546199酸奶13720.031636959瓶装水10870.025065142根茎类蔬菜10720.024719257热带水果10320.023796896购物袋9690.022344179香肠9240.021306523分析分析热销热销商品商品针对原始数据中不同商品销量进行统计,结果如表所示。
全脂牛奶销售量最高,销量为2513件,占比5.795%其余热销商品还有其他蔬菜销量1903件,占比4.388%面包卷销量1809件,占比4.171%苏打销量1715件,占比3.955%酸奶销量1372件,占比3.164%等前20种商品销量占据的比例约为50%,基本符合“二八定律”销量排行前10商品的销量及其占比对每一类商品的热销程度进行分析,有利于商家制定商品在货架的摆放策略和位置若是某类商品较为热销,它的摆放位置可以有如下选择可以把此类商品摆放到商场的中心位置,方便顾客选购或者把此类商品摆放到商场深处位置,使顾客在购买热销商品前经过非热销商品,增加在非热销商品处的停留时间,促进非热销产品的销量分析商品分析商品结结构构商品类别销量销量占比非酒精饮料75940.175442西点71920.166155果蔬71460.165092米粮调料51850.119787百货51410.118771肉类48700.11251酒精饮料22870.052836食品类18700.043202零食14590.033707熟食5410.012499分析商品分析商品结结构构原始数据中的商品本身已经过归类处理,但是部分商品还是存在一定的重叠,故再次对其进行归类处理。
归类后每一类的商品占据的比例如表所示,并根据表中数据作商品结构分析图商品结构分析图归类后每一类的商品占据的比例商品类别销量销量占比全脂牛奶25130.330919苏打17150.225836瓶装水10870.143139水果/蔬菜汁7110.093627咖啡5710.075191超高温杀菌的牛奶3290.043324其他饮料2790.03674一般饮料2560.033711速溶咖啡730.009613茶380.005004可可饮料220.002897分析商品分析商品结结构构进一步查看销量第一的非酒精饮料类商品的内部商品结构,统计商品销量占比如表所示1分析商品销售状况目目录录了解购物篮分析2使用Apriori关联规则构建购物篮分析模型3小结4关联规则算法主要用于寻找数据中项集之间的关联关系,基于样本的统计规律,进行关联规则分析根据所分析的关联关系,可从一个特征的信息来推断另一个特征的信息当信息置信度达到某一阈值时,就可以认为规则成立了解了解Apriori算法的基本原理与使用方法算法的基本原理与使用方法Apriori算法是常用的关联规则算法之一,也是最为经典的分析频繁项集的算法,第一次实现在大数据集上可行的关联规则提取的算法。
在介绍Apriori算法前引入几个相关概念置信度、支持度和提升度频繁项集优缺点与适用场景apriori函数及其参数介绍了解了解Apriori算法的基本原理与使用方法算法的基本原理与使用方法了解了解Apriori算法的基本原理与使用方法算法的基本原理与使用方法1. 置信度、支持度和提升度项集是项的集合,包含k项的项集称为k项集项集的出现频率是所有包含项集事务的级数,又称绝对支持度或支持度计数若存在项集的支持度满足预定义的最小置信度或最小支持度的阈值,则称此项集为频繁项集同时满足最小置信度和最小支持度的规则称为强规则了解了解Apriori算法的基本原理与使用方法算法的基本原理与使用方法2. 频繁项集Apriori算法的主要思想是找出存在于事务数据集中最大的频繁项集,利用最大频繁项目集与预先设定的最小置信度阈值生成强关联规则本案例使用Apriori算法构建商品购物篮关联规则模型的流程图如图所示了解了解Apriori算法的基本原理与使用方法算法的基本原理与使用方法2. 频繁项集优点:Apriori算法是关联规则最常用也是最经典的分析频繁项集的算法,算法已大大压缩了频繁项集的大小,并可以取得良好性能。
缺点:Apriori算法每次计算支持度与置信度都需要重新扫描所有数据其次,算法有的多次扫描事务数据的缺陷,在每一步产生候选集时循环产生的项集过多,没有排除不应该参与组合的元素适用场景:Apriori算法除了适用在商品零售购物篮分析外,近年来也广泛应用在金融行业中,可以成功预测银行客户的需求;还应用于网络安全领域,检测出用户行为的安全模式进而锁定攻击者此外,Apriori算法还可应用于高校管理、移动通讯、中医证型等领域了解了解Apriori算法的基本原理与使用方法算法的基本原理与使用方法3.优缺点与适用场景R语言中的arules包提供了Apriori算法的函数apriori,其基本使用语法如下apriori(data, parameter = NULL, appearance = NULL, control = NULL)常用参数及其说明,如表所示了解了解Apriori算法的基本原理与使用方法算法的基本原理与使用方法4. apriori函数及其参数介绍参数说明data接收transactions表示进行训练的数据parameter接收APparameter或list表示对最小支持度、最小置信度、最小项数和最大项数的设置。
默认最小支持度为0.1,最小置信度为0.8,最大项数为10appearance接收APparameter或list表示使用该参数来控制对应项默认所有项目无限制Apriori算法输出结果的形式一般包含lhs,rhs,support,confidence以及liftlhs和rhs分别指操作符“”左边的项和右边的项提升度小于1说明前项和后项是负相关的,提升度等于1说明前项和后项没有任何关系,提升度大于1说明前项和后项是正相关相关的在本案例中,提升度大于1对模型才有价值,所以需要剔除提升度小于或等于1的规则了解了解Apriori算法的基本原理与使用方法算法的基本原理与使用方法4. apriori函数及其参数介绍lhsrhssupportconfidencelift其他蔬菜,全脂牛奶=根茎类蔬菜0.0231830.3097832.842082仁果类水果=热带水果0.0204370.2701612.574648根茎类蔬菜,全脂牛奶=其他蔬菜0.0231830.4740122.44977根茎类蔬菜=其他蔬菜0.0473820.4347012.246605其他蔬菜,全脂牛奶=酸奶0.0222670.2975542.132979酸奶油=其他蔬菜0.0288760.4028372.081924酸奶油=酸奶0.0207420.2893622.074251全脂牛奶,酸奶=其他蔬菜0.0222670.3974592.054131其他蔬菜,酸奶=全脂牛奶0.0222670.5128812.007235热带水果=酸奶0.0292830.279072.000475分析分析结结果果经过多次试验,发现在最小支持度为0.02,最小置信度为0.35时用Apriori算法求取关联规则数目适中,能够得出优良结果。
以lift进行从高到低排列的前10条规则,如表所示分析分析结结果果将全脂牛奶放在顾客购买商品的必经之路,或者商场显眼位置,方便顾客拿取其他蔬菜、根茎类蔬菜、酸奶油、猪肉、黄油、本地蛋类和多种水果同时购买的概率较高,可以考虑捆绑销售,或者适当调整商场布置,将这些商品的距离尽量拉近,提升购物体验通过模型的规则得出在顾客购买商品的时候会同时购买全脂牛奶因此,商场可以根据实际情况进行布置1分析商品销售状况目目录录了解购物篮分析2使用Apriori关联规则构建购物篮分析模型3小结4本案例主要结合商品零售购物篮的案例,重点介绍了关联规则算法中的Apriori算法在商品零售购物篮分析案例中的应用过程中详细的分析了商品零售的现状与问题,同时给出某商场的商品零售数据,分析了商品的热销程度,最后通过Apriori算法构建相应模型,并根据模型结果制定销售策略小小结结。












