
SQL_Server_2005_BI数据挖掘案例.docx
27页背景知识向顾客提供大量产品的国内和国际零售商都面临着共同的挑战:确保其众多的商店具有适当 的产品库存级别确定适当的库存级别问题需要在以下两种竞争成本间进行权衡1. 高级别库存的存储成本这些成本指零售商为安全的实际空间、额外的供应商购买以及 在所有零售商店中与维持高级别产品库存相关的分配所支付的代价2, 丧失销售的成本如果顾客进入商店,想要购买某种特定的产品,但由于该产品已脱销 而无法供货,就形成了这些成本面对这种进退两难的情况,零售商通常有两种选择零售商可以保持高库存,而承担高库存 成本;或者保持低库存成本,而承担在顾客需要购买时由于没有产品而丧失销售机会的风险 权衡这些竞争成本的最佳方式是构建预测模型来确保每个连锁商店都具有适当的库存级别 过去零售商依靠供应链软件、内部分析软件甚至直觉来预测库存需求随着竞争压力的一天 天增大,很多零售商(从主要财务主管到库存管理员)都开始致力于找到一些更准确的方法 来预测其连锁商店应保有的库存预测分析是一种解决方案它能够准确预测哪些商店位置 应该保持哪些产品本文介绍如何使用 Microsoft(R) SQL Server(TM) 2005 中的 Analysis Services 以 及SQL Server数据仓库,采用数据挖掘技术为产品存储决策提供准确及时的信息。
此处 介绍的方法用于在商店/产品级别上提供脱销预测对于某种特定产品,SQL Server 2005 Analysis Services用于构建数据挖掘模型,该模型为每个连锁商店提供脱销预测此方 法使零售商能够有效地权衡与存储产品库存相关的竞争成本返回页首关于 Project REALProject REAL致力于找出创建基于SQL Server 2005的商业智能(BI)应用程序的最 佳方法在Project REAL中,我们通过创建基于真实客户方案的引用实现来进行这意 味着将客户数据引入内部,并使用这些数据来解决各个客户在部署过程中将会面临的相同问 题这些问题包括:•架构设计-关系架构和Analysis Services中使用的架构•数据提取、转换和加载(ETL)过程的实现•客户前端系统的设计与部署,以便进行报告和交互式分析•生产系统的规模大小调整•对运行中的系统的管理与维护,包括对数据的增量式更新通过分析真实的部署情况,我们可以全面了解如何使用SQL Server BI工具实现BI系 统我们的目标是致力于解决可能希望分析大型数据集的公司在其实际部署中遇到的所有问 题本文概述了至今已为Project REAL执行的数据挖掘工作。
很多其他文章介绍了已经完成 的工作和在其他领域学过的课程要查找最新的信息,请访问Project REAL网站 ( REAL中,构建的数据仓库用于为在全国拥有数百家商店的零售商的数百万种 产品汇总销售数据用于构建脱销预测模型的相关数据集有:•以商店级别、产品(项)级别、天级别合计的销售量事实数据具体地说,是为已经销 售的每种产品、零售商的每个连锁商店存储每日销售量•以商店级别、产品(项)级别、天级别合计的库存事实数据具体地说,这是每种产品、 每天、零售商的每个连锁商店的产品在库存中的天数•由产品名、说明、零售价和产品类别层次结构组成的产品(项)信息•由商店说明、商店分类(例如,指定是大型商店还是小型商店的指标)、商店分区、商 店区域、商店地区、城市、邮政编码、省/自治区、货架空间线性尺寸和其他商店信息组 成的商店信息•日期信息(日期维度),它将事实数据级日期标识符映射到相应的财务周、财务月、财 务季、财务年和其他日期信息具有一个清晰、最新的数据仓库可以为所有商业智能应用程序利用此有用的信息资产提供可 靠的基础在此特殊的构建脱销模型的任务中,数据仓库简化了构建数据集模型的过程t返回页首数据挖掘方法和构建数据集模型根据在Project REAL中将数据挖掘技术应用于不同零售销售量预测和构建脱销模型问题 所获得的经验,我们提出了通过两个阶段来构建模型,这一过程提高了准确预测的可能性。
构建模型过程的第I阶段是基于合计销售量模式对零售商的连锁商店进行分类构建了质 量商店分类模型后,在构造模型过程的第II阶段,这些分类用于使商店/产品级别上的脱 销预测更加准确通过使用SQL Server 2005 Analysis Services中的数据挖掘技术可 以高效并有效解决这两个阶段本部分提供了整个脱销预测过程的详细信息,该过程从用于构建数据集模型的过程说明开 始然后对评估使用SQL Server 2005 Analysis Services构建的数据挖掘模型的方法 进行了讨论构建脱销预测模型的过程构建脱销模型分为两个阶段 第I阶段是将具有相似合计销售量模式的连锁商店进行分类对具有相似合计销售量模式 的商店进行分类的过程称为''商店分类〃通过使用SQL Server 2005 Analysis Services 中附带的Microsoft分类算法完成商店分类,从而将具有相似合计销售量模式的商店进行 分类将Microsoft分类算法应用于由合计销售量模式组成的数据集时,该Microsoft分 类算法尝试通过以下方式对商店进行分类:属于同一分类的商店比属于不同分类的商店更加 相似。
构建数据集模型基于从数据仓库派生的合计销售量数据因此,用于对商店进行分类 的''相似性〃测度是按照此合计销售量数据计算而来的然后,我们使用第I阶段生成的分类模型在第II阶段构建更准确的脱销预测模型这允 许预测算法(例如Microsoft决策树或Microsoft神经网络)使用分类结果来提高预测 准确性实质上,要优化特定商店s的特定产品p的预测,在确定商店s的p是否脱 销时,SQL Server 2005中的预测算法可能使用相似商店s中同一产品p的销售量事 实数据,这样可以提高预测的准确性为产品p构建脱销预测模型的高级步骤使用SQL Server 2005 Analysis Services构建最佳预测模型的两阶段过程由以下高级 步骤组成将在以下的部分详细介绍这些步骤1. 使用数据仓库产品信息(维度)部分中的产品层次结构确定产品p的产品类别c(p) 我们假定连锁商店中同一类别的产品具有相似的合计销售量模式因此,产品结构层次 用于标识特定产品p的相似产品集c(p)另外,产品分类方法可用于基于连锁商店的 销售量通过对产品进行分类来确定与p产品相似的数据驱动分类2, 为商店分类准备构建数据集Dcluster模型来捕获类别为c(p)(在步骤1中已确定) 的商店级属性和销售量。
3, 将Microsoft分类算法应用于数据集血超「,以便获得k个分类(组)的商店,这 些商店在类别c(p)的商店级属性和销售量上相似4. 对于在步骤3中获得的每个分类,/ = 1,...,k:i使S(/)成为商店集,该商店集属于分类/注意,对于类别c(p),这些商店具 有相似的类别级合计销售量ii创建数据集DOOS(p,S(/)),它由S(/)中每个商店s的历史和当前每周销售量 合计以及每周销售量合计变化组成另外,还包括布尔标志,用于指明产品p在 未来一周和未来两周是否脱销iii 将 SQL Server 2005 Analysis Services 中的构建预测模型算法(例如 Microsoft决策树或Microsoft神经网络)应用于数据集DOOS(p,S(/))将历 史和当前每周销售量合计作为输入属性,将一周和两周脱销布尔标志作为输出或 仅预测属性这将使SQL Server 2005 Analysis Services生成这样的模型: 该模型将其输入用作历史和当前每周销售量以及每周销售量变化,然后进行布尔 标志的预测,该标记指明产品p将在未来一周和未来两周内是否脱销在接下来的两部分中将更加详细地介绍数据准备和构建模型步骤。
在Project REAL环境中,零售商为Barnes & NobleProject REAL (引用实现、端 到端、大规模和大量用户的缩写词)是Microsoft Corporation、Apollo Data Technologies和其他中坚技术合作伙伴(包括UNISYS、EMC2、ProClarity、 Panorama、Scalability Experts和Intellinet)协作的成果,目的在于创建BI系统的可引用的实现使用Barnes & Noble提供的可信企业数据,Project REAL合作者能够发现创建BI应 用程序的最佳方法,这些BI应用程序基于Microsoft SQL Server 2005此完整系统 通过以一种全面的方式分析大型数据集从而解决所有客户操作难题注意以下五个产品(书),这五个产品属于同一类别(Chapter Books)• Captain Underpants & The Invasion of the Incredibly Naughty Cafeteria Ladies from Outer Space (Captain Underpants Series)• Junie B Jones Is a Graduation Girl• Dinosaurs:A Nonfiction Companion to Dinosaurs Before Dark (Magic Tree House Research Guide Series #1)• City in the Clouds (Secrets of Droon Series #4)• Twisters and Other Terrible Storms (Magic Tree House Research GuideSeries)第I阶段:商店分类注意,商店分类的目标是获得具有相似销售量模式的商店组,着重于产品p所属的类别 c(p) 中产品的销售量。
第I阶段首先构建将用于商店分类的数据集为了将对活动零售销售量和库存数据仓库的 计算影响降低到最低程度,我们建议您创建独立的SQL数据库来存储数据集,这些数据集 用于使用 SQL Server 2005 Analysis Services 构建模型商店分类数据集构建用于商店分类的数据集由2004年1月到2004年12月这段时间内的商店级合计销 售量组成该数据集由具有关键字StorelD的单个表组成StorelD是整数,用于唯 一标识每个连锁商店由于商店分类任务的目标是根据合计销售量模式的相似性将商店进行分类,因此我们与零售 商合作以便标识对此练习有用的一组合计销售量属性用于构建模型的这组属性的类型和信 息内容通常会影响生成的输出模型标识用于构建模型的一组属性时,我们发现与对基本业 务过程有深刻理解的利益关系人合作会有好处另外,根据在直接零售过程中已经完成的工 作,我们能够建议可能有用的属性对于每个商店,基于数据仓库中的事实数据对属性进行 合计这些销售级合计如下有关所有用于商店分类问题的商店级属性的详细说明,请参见 附录A•产品(书)p所属的类别[在以前的部分中称为c(p)]的特定类别的派生属性。
它们是:• Category Average Weekly Modeled:特定商店中预期每周要出售的某类别的 书的估计数量• Category Average Weekly On Hand:特定商店中某类别的每周可售(库存) 平均值• Category Average Weekly O。