
【数据仓库和数据挖掘】课程的设计报告报告模板.doc
23页理工大学应用科学学院?数据仓库与数据挖掘?课程设计报告题 目: 某超市数据集的OLAP分析及数据挖掘系 别:班 级:姓 名:二〇一二年六月目 录一、建立数据仓库数据库构造和设置数据源 11. 任务描述 22. 建立数据仓库数据库3. 设置数据源 二、销售数据OLAP分析 1. 任务描述 2. 设计星型架构多维数据集(Sales) 3. 设计存储和数据集处理 4. OLAP分析 三、人力资源数据OLAP分析 1. 任务描述 2. 设计父子维度的多维数据集(HR) 3. 修改多维数据集(HR)的构造 4. 设计存储和数据集处理 5. OLAP分析 四、数据仓库及多维数据集其它操作 1. 任务描述 2. 设置数据仓库及多维数据集角色及权限 3. 查看元数据 4. 创立对策 5. 钻取 6. 建立远程 Internet 连接 五、数据仓库高级操作 1. 任务描述 2. 创立分区 3. 创立虚拟多维数据集 4. DTS调度多维数据集处理 5. 备份/复原数据仓库 六、数据挖掘 1. 任务描述 2. 创立提醒客户模式的决策树挖掘模型 3. 决策树挖掘结果分析 4. 创立聚类挖掘模型 5. 聚类挖掘结果分析 6. 创立基于关系数据表的决策树挖掘模型 7. 浏览“相关性网络〞视图 / 一、建立数据仓库数据库构造和设置数据源1、任务描述数据仓库数据库是将要在其中存放多维数据集、角色、数据源、共享维度和挖掘模型的一种构造。
然后跟预先设置好的ODBC数据源建立连接2、建立数据仓库数据库(1) 展开树视图的Analysis Servers; (2) 单击效劳器名或右击选择连接,与Analysis Servers建立连接; (3) 右击效劳器名,然后单击“新建数据库〞命令; (4) 在“数据库〞对话框中输入数据库名“教程DW〞,单击<确定>;3、设置数据源(5) 展开刚创立的“教程DW〞数据库,可看到如下工程:数据源、多维数据集、共享维度、挖掘模型、数据库角色(6) 右击“教程DW〞数据库下的“数据源〞文件夹,然后单击“新数据源〞命令; (7) 在“数据属性〞对话框中,单击“提供程序〞选项卡,选择“Microsoft OLE DB Provider for ODBC Drivers〞;(8) 单击“连接〞选项卡,选择建好的ODBC数据源“FoodMart 2000〞;(9) 单击<确定>按钮关闭“数据属性〞对话框图表 1 连接数据源二、销售数据OLAP分析1. 任务描述以多维方式建立数据模型可简化联机业务分析,提高查询性能通过创立多维数据集,Analysis Manager 可将存储在关系数据库中的数据转换为具有实际含义并且易于查询的业务信息。
2. 设计星型架构多维数据集(Sales)星型架构的多维数据集由一个事实数据表和到该事实数据表的多个维度表组成下面针对FoodMart超市1998年的销售业务数据,建立一个多维数据集,以便按产品和顾客2个主题展开分析具体操作如下:(1)展开树窗格的“教程DW〞,右击“多维数据集〞,选择“新建多维数据集〞→“向导…〞菜单命令,翻开如下“多维数据集向导〞对话框2)向多维数据集添加度量值(事实) :(3)单击<下一步>,在“从数据源中选择事实数据表〞步骤中,展开“FoodMart〞数据源,然后单击“sales_fact_1998〞; (4)单击<下一步>,设置多维数据集的度量值列: store_sales、store_cost、unit_sales;(5)单击<下一步>,建立维度表单击<新建维度>,翻开“维度向导〞对话框;1) 向多维数据集添加时间维:(1)选择维度类型为“星型架构:单个维度表〞;(2)单击<下一步>,选择维度表“time_by_day〞;(3)单击<下一步>,选择维度类型为“时间维度〞;(4)单击<下一步>,选择时间级别为“年、季度、月〞;(5)单击<下一步>,单击<下一步>,输入时间维名称: Time,并设为“共享〞方式,单击<完成>,OK!2) 向多维数据集添加产品维:(1)再次单击<新建维度>,翻开“维度向导〞对话框;(2)选择创立维度的方式为“雪花架构:多个相关维度表〞; (3)单击<下一步>,选择维度表“Product〞和“product_class〞;(4)单击<下一步>,查看连接方式,在这里可删除不要的连接,添加需要的连接;(5)单击<下一步>,依次选择product_category、product_subcategory和brand_name三个维度级别;(6)单击<下一步>,指定成员键列步骤中,不需改变主键列;(7)单击<下一步>,在“高级选项〞步骤中,根据需要选择;(8)单击<下一步>,输入产品维名称: Product,并设为“共享〞方式,单击<完成>,OK!3) 向多维数据集添加客户维度:(1)再次单击<新建维度>,翻开“维度向导〞对话框;(2)选择创立维度的方式为“星型架构:单个维度表〞; (3)单击<下一步>,选择维度表“Customer〞;(4)单击<下一步>,选择维度类型为“标准维度〞;(5)单击<下一步>,依次选择Country、State_Province、City和lname四个维度级别;(6)单击<下一步>,指定成员键列步骤中,不需改变主键列;(7)单击<下一步>,在“高级选项〞步骤中,根据需要选择;(8)单击<下一步>,输入客户维名称: Customer,并设为“共享〞方式,单击<完成>,OK!4) 生成多维数据集:(1)回到多维数据集向导对话框,这里已 到了新建的4个维度;(2)单击<下一步>,在“是否计算事实数据表行数提问时,单击<是>,开场计算。
(3)计算完成后,命名多维数据集为:Sales,单击<完成>,OK!(4)关闭向导,随之启动多维数据集编辑器,其中可看到刚刚创立的多维数据集单击蓝色或黄色的标题栏,对表进展排列,使其符合下列图所示的样子图表 2“Sales多维数据集编辑器〞窗口3. 设计存储和数据集处理:设计好 Sales 多维数据集的构造之后,需要选择数据的存储模式(MOLAP、ROLAP或HOLAP),并指定要存储的预先计算好的值的数量,然后用数据填充多维数据集 本例选择MOLAP作为存储模式,创立Sales多维数据集的聚合设计,然后从ODBC源中装载数据并按照聚合设计中的定义计算汇总值1)展开树窗格,右击“Sales〞多维数据集,选择“设计存储…〞菜单命令,弹出“存储设计向导〞对话框;也可在多维数据集编辑窗口中选择“工具|设计存储…〞菜单命令,翻开“存储设计向导〞对话框; (2)单击<下一步>,然后选择“MOLAP〞作为数据存储类型 ;(3)单击<下一步>,设置聚合选项为“性能提升到达〞,并输入“40〞作为指定百分比,以此优化能力平衡查询性能和存储空间大小4)单击<开场>,完成后可看到“性能与大小〞图,从中可看出增加性能提升对使用额外磁盘空间的需求。
5)单击<下一步>,选择“立即处理〞,并单击<完成>,系统开场进展数据处理,处理聚合一般要花费较长一些时间6)处理完成后点击<关闭>,回到Analysis Manager窗口7)接下来就可浏览多维数据集的数据了 4. OLAP分析:联机分析处理(OLAP)是使用多维数据表达式(称为多维数据集)提供对数据仓库数据进展快速访问的常用方法多维数据集为维度表中的数据和数据仓库中的事实数据表建立模型,并为客户端应用程序提供完善的查询和分析功能图表 3 OLAP分析图三、人力资源数据OLAP分析1. 任务描述:建立一个人力资源(HR)多维数据集,以进展雇员工资分析先把Employee维度创立为父子维度,然后使用该维度以及常规维度来生成HR多维数据集2. 设计父子维度的多维数据集(HR):(1) 展开“教程DW〞,右击“共享维度〞,选择“新建维度|向导〞菜单命令,翻开“新建维度向导〞对话框2) 单击<下一步>,选择维度构造为“父子:单个维度表中相关的两列〞;(3) 单击<下一步>,选择维度表 employee;(4) 单击<下一步>,选择employee_id为成员键,选择supervisor_id为父键列,选择full_name为成员名。
5) 单击<下一步>,直到最后一步,输入维度名称: employee;(6) 单击<完成>,回到维度编辑器OK!3. 修改多维数据集(HR)的构造(1) 展开“教程DW〞,右击“多维数据集〞,选择“新建多维数据集|向导〞菜单命令,翻开多维数据集向导对话框2) 点击<下一步>,选择salary(工资)作事实数据表;(3) 点击<下一步>,选择salary_paid、vacation_used为度量值列;(4) 点击<下一步>,选择Employee(雇员)、Store(商店)、Time(时间)作维度;(5) 点击<下一步>,在提示是否计算事实数据表行数时选“是〞最后输入人力资源多维数据集的名称NR,点击<完成>,OK!(6) 回到编辑器窗口,手工建立time_by_day表到salary表的联接,再建立 store表到employee表中的联接,删除多余的联接最后如下列图所示4. 设计存储和数据集处理设计好 Sales 多维数据集的构造之后,需要选择数据的存储模式(MOLAP、ROLAP或HOLAP),并指定要存储的预先计算好的值的数量,然后用数据填充多维数据集本例选择MOLAP作为存储模式,创立Sales多维数据集的聚合设计,然后从ODBC源中装载数据并按照聚合设计中的定义计算汇总值。
1)展开树窗格,右击“Sales〞多维数据集,选择“设计存储…〞菜单命令,弹出“存储设计向导〞对话框;也可在多维数据集编辑窗口中选择“工具|设计存储…〞菜单命令,翻开“存储设计向导〞对话框; (2)单击<下一步>,然后选择“MOLAP〞作为数据存储类型 ;(3)单击<下一步>,设置聚合选项为“性能提升到达〞,并输入“40〞作为指定百分比,以此优化能力平衡查询性能和存储空间大小4)单击<开场>,完成后可看到“性能与大小〞图,从中可看出增加性能提升对使用额外磁盘空间的需求图表 4 性能与大小(5)单击<下一步>,选择“立即处理〞,并单击<完成>,系统开场进展数据处理,处理聚合一般要花费较长一些时间6)处理完成后点击<关闭>,回到Analysis Manager窗口7)接下来就可浏览多维数据集的数据了 5. OLAP分析联机分析处理(OLAP)是使用多维数据表达式(称为多维数据集)提供对数据仓库数据进展快速访问的常用方法多维数据集为维度表中的数据和数据仓库中的事实数据表建立模型,并为客户端应用程序提供完善的查询和分析功能四、数据仓库及多维数据集其它操作1 任务描述多维数据集角色用于定义可以访问和查询多维数据集的用户或组,指出其可以访问的对象,以及对这些对象的访问类型。
角色是保护多维数据集对象和数据平安的主要方法,可以在多维数据集的不同粒度级别上设置平安性要定义平安性必须先创立角色,然后向这些角色授予权限 我们要创立Sales和HR角色分别用于访问多维数据集Sales。
