
数据仓库与数据挖掘习题课6.3.ppt
18页习题一¢假定用于分析的数据包含属性age.数据元组age值(以递增序 )是:13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70.l(a) 使用min-max规范化将age值35变换到[0.0, 1.0]区间l(b) 使用z-score规范化变换age值35,其中age的 标准差为12.94岁l(c) 使用小数定标规范化变换age值35l(d) 对于给定的数据,你愿意使用哪种方法?陈 述你的理由解答一¢(a) 使用min-max规范化将age值35变换到[0.0,1.0]区间∵ minA=13,maxA=70,new_minA=0.0,new_maxA=1.0,而v=35,¢(b) 使用z-score规范化变换age值35,其中age的标准差为12.94岁解答一(续)¢(c) 使用小数定标规范化变换age值35由于最大的绝对值为70,所以j=2d) 对于给定的数据,你愿意使用哪种方法?陈述你的理由答:更倾向于选择小数定标规范化。
因为小数定标规范化会保持数据 的分布,这种变换更直观并容易解释习题二¢2.14 假设12个销售价格记录组已经排序如 下:5,10,11,13,15,35,50,55, 72,92,204,215使用如下每种方法将 其划分成三个箱l(a) 等频(等深)划分l(b) 等宽划分解答二¢(a) 等频(等深)划分¢(b) 等宽划分每个区间的宽度是:(215-5)/3=70bin15,10,11,13bin115,35,50,55bin172,91,204,215bin15,10,11,13,15,35,50,55,72bin191bin1204,215习题三¢3假定BigUniversity的数据仓库包含如下4个维: student(student_name, area_id, major, status, university), course(course_name, department),semester(semester, year)和 instructor(dept, rank);2个度量:count和avg_grade在最低 概念层,度量avg_grade存放学生的实际课程成绩在较高 概念层,avg_grade存放给定组合的平均成绩。
¢(a)为该数据仓库画出雪花形模式图¢(b)由基本方体[student, course, semester, instructor]开始,为 列出BigUniversity每个学生的CS课程的平均成绩,应当使用 哪些特殊的OLAP操作¢(c)如果每维有5层(包括all),如 “student ¢c)如果每维有5层(包括all),如 “student





![河南新冠肺炎文件-豫建科[2020]63号+豫建科〔2019〕282号](http://img.jinchutou.com/static_www/Images/s.gif)






