1、第 5 章 数据仓库的决策支持,51数据仓库的用户 5.2数据仓库的决策支持与决策支持系统 5. 3 数据仓库应用实例,51数据仓库的用户,5.1.1 数据仓库的信息使用者 5.1.2 数据仓库的探索者,数据仓库的用户有两类:信息使用者和探索者,信息使用者是使用数据仓库的大量用户。 信息使用者以一种可预测的、重发性的方式使用数据仓库平台。 信息使用者通常查看概括数据或聚集数,查看相同的商业维度(如产品、客户、时间)和指标(如收入和成本)随时间的发展趋势。,探索者完全不同于信息使用者,他们有一个完全不可预测的、非重复性的数据使用模式。 探索者的任务是寻找公司数据内隐含的价值并且根据过去事件努力预测未来决策的结果。 探索者是典型的数据挖掘者。,5.1.1 数据仓库的信息使用者,1.信息使用者使用数据仓库的性能优化 2.探索者使用数据仓库的性能优化,信息使用者的性能需求,非规格化 规范化的作用是产生一种完全没有数据冗余的设计方法。 但是,有时在数据仓库设计中引入一些有限的数据冗余来提高数据访问效果。 创建数据阵列 创建数据阵列,将相关类型的数据(如:1月、2月、3月等月份中的数据)存储在一起
2、,提高访问效果。,预连接表格 一个公用键和共同使用的数据将表格合并在一起。 共享一个公用键,可以将多个表格合并到一个物理表格中。这样做可以很大程度的提高数据访问效率。 预聚集数据 根据“滚动概括”结构来组织数据。 当数据被输入到数据仓库中时,以每小时为基础存储数据。在这一天结束时,以每天为基础存储累加每小时的数据。在一周结束时,以每周为基础存储累加每天的数据。月末时,则以每月为基础存储累加每周的数据。,聚类数据 将不同类型的数据记录放置在相同的物理位置。这为用户查看这些记录,可以在同一地点找到它们,提高查询效率。 压缩数据 压缩可以使可读取的数据量极大。,定期净化数据 定期删除数据仓库中不需要的数据,可以为每个用户提高性能。 合并查询 如果查询定期发生,那么可以通过把这些查询合并到同一个表格中,从而节省大量资源。,5.1.2 数据仓库的探索者,探索者要做的工作有:概括分析、抽取、建模和分类。 (1) 概括分析 探索者开始以分析数据的完整性和准确性(数据质量)。在概括分析活动中,要询问的典型问题包括: 家庭收入如何分配? 有多少帐户每月消费超过200元? 有多少客户有两个以上的小孩并居住
3、在市区?,(2)抽取 从数据仓库中抽取指定的数据,并组织起来,送入支持探索者分析的探索仓库中。 (3)建模 探索者通过概括分析来理解数据,通过抽取来准备数据,通过建模来分析数据。,建模是开发一种用来描述实体(如客户、商品、渠道等)的关系模型的过程。探索者使用的模型有: 客户分段 后续产品 欺诈检测 渠道响应(例如,电话销售和直接邮寄) 信用风险 客户生存期价值 推销响应,例如, 利用建模来确认有可能拖延支付电话帐单的客户: 首先,建立一个模型(利用统计学和行为科学)来确认经常拖延支付电话帐单的客户特征。 然后,根据客户与模型的密切程度,对所有的客户分类。 这样,可以提供谁将不支付电话帐单的某种可能性预测。,5.2 数据仓的决策支持与决策支持系统,5.2.1 查询与报表 5.2.2 多维分析与原因分析 5.2.3 预测未来 5.2.4 实时决策 5.2.5 自动决策 5.2.6 决策支持系统,数据仓库是一种能够提供重要战略信息,并获得竞争优势的新技术,从而得到迅速的发展。 具体的战略信息有: 给出销售量最好的产品名单 找出出现问题的地区(切片) 追踪查找出现问题原因(向下钻取) 对比其他
4、的数据(横向钻取) 显示最大的利润 当一个地区的销售低于目标值时,提出警告信息。,建立数据仓库的目的不只是为了存储更多的数据,而是要对这些数据进行处理并转换成商业信息和知识,利用这些信息和知识来支持企业进行正确的商业行动,并最终获得效益。 数据仓库的功能是在恰当的时间,把准确的信息传递给决策者,使他能作出正确的商业决策。,5.2.1 查询与报表,1.查询 (1)能向用户提供查询的初始化,公式表示和结果显示等功能。 (2)由元数据来引导查询过程 (3)用户能够轻松地浏览数据结构 (4)信息是用户自己主动索取的,而不是数据仓库强加给他们的 (5)查询环境必须要灵活地适应不同类型的用户,2.报表,(1)预格式化报表。 (2)参数驱动的预定义报表。 (3)简单的报表开发。 (4)公布和订阅。 (5)传递选项。 (6)多数据操作选项。 (7)多种展现方式选项。,5.2.2 多维分析与原因分析,1、多维分析 通过多维分析将获得在各种不同维度下的实际商业活动值(如销售量等),特别是他们的变化值和差值,达到辅助决策效果。 例如通过多维分析得到如下信息: 今年以来,公司的哪些产品量是最有利润的? 最有利
5、润的产品是不是和去年一样的?,2、原因分析 查找问题出现的原因是一项很重要的决策支持任务,一般通过多维数据分析的“向下钻取”操作来完成。 某公司从分析报表中得知最近几个月来整个企业的利润在急速下滑,通过人机交互找出该企业利润下滑的原因。,(1)查询整个公司最近3个月来各个月份的销售额和利润,显示销售额正常,但利润下降。 (2)查询全世界各个区域每个月的销售额和利润,显示欧洲地区销售额下降,利润急剧下降。 (3)查询欧洲各国销售额和利润。显示一些国家利润率上升,一些国家持平,欧盟国家利润率急剧下降。 (4)查询欧盟国家中的直接和间接成本。得到直接成本没有问题,但间接成本提高了。 (5)查询间接成本的详细情况。得出企业征收了额外附加税,使利润下降。 通过原因分析,得到企业利润下滑的真正原因是欧盟国家征收了额外附加税造成。,5.2.3 预测未来,预测未来使决策者了解“将要发生什么”。 数据仓库中存放了大量的历史数据,从历史数据中找出变化规律,将可以用来预测未来。在进行预测的时候需要用到一些预测模型。最常用的预测方法是采用回归模型,包括线性回归或非线性回归。 采用聚类模型或分类模型也能达到一定
6、的预测效果。,5.2.4 实时决策,企业需要准确了解“正在发生什么”,从而需要建立动态数据仓库(实时数据库),用于支持战术型决策,即实时决策。 战术性决策支持的重点则在企业外部,支持的是执行公司战略的员工。第四种侧重在战术性决策支持。,以货运为例,卡车上的货物常常需要把某些货物从一辆车转移到另一辆车上,以便最终送抵各自的目的地。 当某些卡车晚点时,就要做出艰难的决定:是让后继的运输车等待迟到的货物,还是让其按时出发。 如果后继车辆按时出发而未等待迟到的包裹,那么迟到包裹的服务等级就会大打折扣。 反过来说,等待迟到的包裹则将损害在后继的运输车上的其他待运包裹的服务等级。 运输车究竟等待多长时间,取决于需卸装到该车辆的所有延迟货物的服务等级和已经装载到该车辆的货物的服务等级。,5.2.5 自动决策,利用动态数据库自动决策,达到“希望发生什么”。为了寻求决策的有效性和连续性,企业就会趋向于采取自动决策。 动态数据仓库可以为整个企业提供战略决策支持,也可提供战术决策支持。确切地说,动态数据仓库同时支持这两种方式。 随着技术的进步,越来越多的决策由事件触发,自动发生。,5.2.6 决策支持系统,
7、数据仓库整合了企业的各种信息来源,能确保一致与正确详细的数据。它是一个庞大的数据资源。要将数据转换成商业智能,就需要利用数据仓库来建立决策支持系统。 基于数据仓库的决策支持系统是针对实际问题,利用分析工具或者编制程序,采用一种或多种组合的决策支持能力,对数据仓库中的数据进行多维分析,从而掌握企业的经营现状,找出现状的原因,并预测未来发展趋势,协助企业制定决策增强竞争优势。,5.3 数据仓库应用实例,5.3.1 航空公司数据仓库决策支持系统简例 5.3.2 统计业数据仓库解决方案 5.3.3 沃尔玛数据仓库系统,5.3.1航空公司数据仓库决策支持系统简例,1. 航空公司数据仓库系统的功能 2. 数据仓库系统的决策支持 3. 决策支持系统简例,1.航空公司数据仓库系统的功能,航空公司数据仓库功能模块有: 市场分析:分析国内、国际、地区航线上的各项生产指标; 航班分析:分析某个特定市场上所有航班的生产情况; 班期分析:分析某个特定市场上各班期的旅客、货运分布 情况;,2. 数据仓库系统的决策支持,利用数据仓库系统提供的决策支持有: l 一段时间内某特定市场占有率、同期比较、增长趋势; l 各
8、条航线的收益分析; l 计划完成情况; l 流量、流向分析; l 航线上各项生产指标变化趋势的分析;,通过查询“北京到各地区的航空市场情况”,发现西南地区总周转量出现了最大负增长量。该决策支持系统简例就是完成对此问题进行多维分析和原因分析,找出出现原因。 决策支持系统运行结构图如下:,3.决策支持系统简例,数据仓库服务器,客户端,查询:全国各地区航空总周转量并比较去年同期状况,显示:图1,查询:全国各地区航空客运周转量并比较去年同期状况,查询:全国各地区航空货运周转量并比较去年同期状况,显示:图3,查询:全国各地区客运、货运、总周转量并比较去年同期状况具体数据,显示:表1,查询:西南地区昆明、重庆两地航空总周转量并比较去年同期状况,显示:图4,查询:昆明航线按不同机型的总周转量,并比较去年同期状况,显示:图5,查询:昆明航线按不同机型的周转量,并比较去年同期周转量的具体数据,显示:表2,显示:图2,结束,检索:数据仓库中今年、去年两年总周转量综合数据,并比较。绘制直方图,下钻:从总周转量下钻到今年、去年两年客运周转量,并比较。绘制直方图,下钻:从总周转量下钻到今年、去年两年货运周转量,
9、并比较。绘制直方图,制表:从数据仓库中取数据并制表,下钻:从西南地区总周转量下钻,取昆明、重庆两地的今年、去年两年数据并比较。绘制直方图,下钻:从昆明航线总周转量下钻,取各机型今年、去年两年数据并比较。绘制直方图,制表:从数据仓库中取数据并制表,图1 全国各地区航空周转量与去年对比状况,返回,(其中,1:东北地区;2:华北地区;3:华东地区;4:西北地区; 5:西南地区;6:新疆地区;7:中南地区),从图1中看到从北京到国内各地区的总周转量以及与去年同期的比较情况,发现 “北京西南地区”出现的负增长最大。,图2 全国各地区航空客运周转量及与去年同期比较,返回,从图2中看到客运周转量及与去年同期比较,西南地区负增长在全国是最大的,其次是东北地区。,图3 北京到国内各地区货运周转量及与去年同期比较,返回,从图3中看到货运周转量及与去年同期比较,华东地区负增长在全国是最大的,西南地区也有负增长。,表1 客运、货运、总周转量及其去年同期比较,返回,从表1中,可以看出航空客运、货运、总周转量以及与去年同期比较的具体数据。西南地区总周转量的负增长主要是客运负增长为主体。,图4 西南地区昆明、重庆两地航空总周转量及与去年同期比较,返回,从图4中看出,西南地区航空总周转量下降最多的是昆明航线。,(其中,A:150座级;B:200座级;C:300座级以上;D:200300座级) 图5 昆明航线各机型总周转量以及与去年同期比较的柱形图,返回,从图5可以看出昆明航线中200300座级机型负增长最大,其次是150座级机型也有较大的负增长,而200座级以及300座级以上机型保持同去年相同航运水平。,表2 昆明航线各机型总周转量以及与去年同期比较的数据 从表2中可以看出,不同机型的周转量以及对比去年同期增长的具体数据。,返回,以上决策支持系统过程完成了对航空公司全国各地区总周转量对比去年同期出现负增长量最大的西南地区,经过多维分析和原因分析,找出其原因发生在昆明航线上。 主要是200300座级机型的总周转量负增长以及150座级机型负增长量造成的。 其中,200300座级负增长最严重。 这为决策者提供了解决西南地区负增长问题辅助决策的信息。,数据仓库决策支持系统应用说明,以上决策支持系统只是找
《5数据仓库的决策支持》由会员l****分享,可在线阅读,更多相关《5数据仓库的决策支持》请在金锄头文库上搜索。