电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

数据挖掘考试题

10页
  • 卖家[上传人]:枫**
  • 文档编号:474231699
  • 上传时间:2023-11-29
  • 文档格式:DOCX
  • 文档大小:61.71KB
  • / 10 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、数据挖掘考试题一 选择题1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离 ( )A. 分类 B. 聚类 C. 关联分析 D. 主成分分析2. ( ) 将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。( 单链 )( 全链 ) C. 组平均方法3. 数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了 ( ) 数据挖掘方法。A 分类 B 预测 C 关联规则分析D 聚类4. 关于K均值和DBSCANJ比较,以下说法不正确的是()均值丢弃被它识别为噪声的对象,而DBSCAN-般聚类所有对象。均值使用簇的基于原型的概念,DBSCA牌用基于密度的概念。均值很难处理非球形的簇和不同大小的簇,DBSCANT以处理不同大小和不同形状的簇均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCA2合并有重叠的簇5. 下列关于 Ward s Method 说法错误的是: ( )A. 对噪声点和离群点敏感度比较小B. 擅长处理球状的簇C.对于Ward方法,两个簇的邻近度定义为两个簇合并时导致的平方误差D.当两个点之间的邻近度取它

      2、们之间距离的平方时,Ward方法与组平均非常相似6. 下列关于层次聚类存在的问题说法正确的是: ( )A. 具有全局优化目标函数B.Group Average 擅长处理球状的簇C. 可以处理不同大小簇的能力D.Max对噪声点和离群点很敏感7. 下列关于凝聚层次聚类的说法中,说法错误的事: ( )A. 一旦两个簇合并,该操作就不能撤销B. 算法的终止条件是仅剩下一个簇C.空间复杂度为O m2D.具有全局优化目标函数8.规则牛奶,尿布一啤酒的支持度和置信度分别为:()TID项集1面包,牛奶2回包,尿布,啤酒,鸡蛋 3牛奶,尿布,啤酒,可乐4回包,牛奶,尿布,啤酒5回包,牛奶,尿布,可乐下列()是属于分裂层次聚类的方法。Average11I2I3I4I51000,900,100.650.200.901.000.700.600.500.100.701.000400.300.650.600.401000.800200.500.300.801.0010.对下图数据进行凝聚聚类操作,簇间相似度使用 MAX十算,第二步是哪两个簇合并:()11I2I3I4I5A.在3和1,2合并 B.3 和4,5合并

      3、C.2,3 和4,5合并D. 2,3和4,5形成簇和3合并二.填空题:1 .属性包括的四种类型:、。2 . 是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。3 .基本凝聚层次聚类算法空间复杂度 ,时间复杂度,如果某个簇到其他所 有簇的距离存放在一个有序表或堆中,层次聚类所需要的时间复杂度将为 。4 .聚类中,定义簇间的相似度的方法有(写出四个):、。5 .层次聚类技术是第二类重要的聚类方法。两种层次聚类的基本方 法:、。6 .组平均是一种界于 和 之间的折中方法。7 .相似度矩阵可以用相识度表布还可以用 表不。8 .全链在处理大小不同的簇时,可能使 破裂,并且偏好 。9 .单链技术擅长于处理 ,但对 和 很敏感。10 .聚类分析可以看做是一种 的分类。(有监督、无监督)三.判断题1 .从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。()2 .数据挖掘的目标不在于数据采集策略,而在于对已经存在的数据进行模式的发掘。()3 .在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。()4 .当两个点之间的邻近度取它们之间距离的平方时,Ward方法

      4、与组平均非常相似。()5 . DBSCAN相对抗噪声的,并且能够处理任意形状和大小的簇。()6 .属性的性质不必与用来度量他的值的性质相同。()7 .全链对噪声点和离群点很敏感。()8 .对于非对称的属性,只有非零值才是重要的。()9 . K均值可以很好的处理不同密度的数据。()10 .单链技术擅长处理椭圆形状的簇。()四.综合题1 .何为层次聚类它用哪两种图表示2 .两种层次聚类的基本方法两种方法的定义3 .分别写出Min、Max和组平均的优缺点4 .写出基本凝聚层次聚类的算法5 .由下图已给出的距离矩阵,将Max用于6个点样本数据集,画出层次聚类的树 状图P1P2P3P4P5P6P1P2P3P4P5P6考试题+答案一选择题1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离 ( B)A. 分类 B. 聚类 C. 关联分析 D. 主成分分析2. ( C) 将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值, 它是一种凝聚层次聚类技术。( 单链 )( 全链 ) C. 组平均方法3. 数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了 ( C )

      5、数据挖掘方法。A 分类 B 预测 C 关联规则分析D 聚类4. 关于K均值和DBSCANJ比较,以下说法不正确的是(A均值丢弃被它识别为噪声的对象,而DBSCAN-般聚类所有对象。均值使用簇的基于原型的概念,DBSCA牌用基于密度的概念。均值很难处理非球形的簇和不同大小的簇,DBSCANT以处理不同大小和不同形状的簇均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCA2合并有重叠的簇5. 下列关于 Ward s Method 说法错误的是:(C)A. 对噪声点和离群点敏感度比较小B. 擅长处理球状的簇C.对于Ward方法,两个簇的邻近度定义为两个簇合并时导致的平方误差D.当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似7. 下列关于层次聚类存在的问题说法正确的是:(B)A具有全局优化目标函数Average 擅长处理球状的簇C. 可以处理不同大小簇的能力对噪声点和离群点很敏感7. 下列关于凝聚层次聚类的说法中,说法错误的事:(D)A. 一旦两个簇合并,该操作就不能撤销B. 算法的终止条件是仅剩下一个簇C. 空间复杂度为 O m2D.具有全局优化目标

      6、函数8.规则牛奶,尿布一啤酒的支持度和置信度分别为:(C)TID项集1面包,牛奶2回包,尿布,啤酒,鸡蛋 3牛奶,尿布,啤酒,可乐4回包,牛奶,尿布,啤酒5回包,牛奶,尿布,可乐下列(D)是属于分裂层次聚类的方法。Average11I2I3I4I51000,900 J00.650.200.901.000700.600.500.100701.000.400.300.650.600.40L000.800.200,500300.801.00和4,5合并 C.2,3 和4,5合并10.对下图数据进行凝聚聚类操作,簇间相似度使用 MAX十算,第二步是哪两个簇合并:(B)11I2I3I4I5A.在3和1,2合并 B.3D. 2,3和4,5形成簇和3合并二.填空题:1 .属性包括的四种类型:回、庄娄L、区间、比率。2 .组壬及是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。3 .基本凝聚层次聚类算法空间复杂度O m2 ,时间复杂度O m3 ,如果某个簇到其他所有簇的距离存放在一个有序表或堆中,层次聚类所需要的时间复杂度将为O m2 log m。4 .聚类中,定义簇间的相似度的方法有(写出四个)

      7、: MIN (单链)、MAX(全链)、组平均_、Ward方法。5 .层次聚类技术是第二类重要的聚类方法。两种层次聚类的基本方法:凝聚层次聚类、会裂层次聚类。6 .组平均是一种界于单链 和 全链 之间的折中方法。7 .相似度矩阵可以用相识度表示还可以用距离 表示。8 .全链在处理大小不同的簇时,可能使 大的簇 破裂,并且偏好 球形。9 .单链技术擅长于处理非椭圆形状的簇 ,但对 噪声点 和 离群点很敏感。10 .聚类分析可以看做是一种无监督的分类。(有监督、无监督)三.判断题:1 .从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。(X)2 .数据挖掘的目标不在于数据采集策略,而在于对已经存在的数据进行模式的发掘。(,)3 .在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。(X )4 .当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似。(,)5 . DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。( V)6 .属性的性质不必与用来度量他的值的性质相同。( V )7 .全链对噪声点和离群点很敏感。(x )8 .

      8、对于非对称的属性,只有非零值才是重要的。( V )9 . K均值可以很好的处理不同密度的数据。( X )10 .单链技术擅长处理椭圆形状的簇。( x )四.综合题1 .何为层次聚类它用哪两种图表示层次聚类为嵌套簇的聚集,组成一棵层次数。两种主要图的表示:树状图和嵌套簇图。2 .两种层次聚类的基本方法两种方法的定义凝聚层次聚类和分裂层次聚类凝聚的:从点作为个体簇开始,每一步合并两个最接近的簇。分裂的:从包含所有点的某个簇开始,每一步分裂一个簇,直到仅剩下单点簇。3.分别写出Min、Max和组平均的优缺点定义方式优点缺点Min能处理非椭圆形状对噪声和离群点很敏感Max对噪声点和离群点敏感度较小1 .当处理簇大小/、同时,较大的簇容易破裂2 .偏好处理球状的簇组平均对噪声点和离群点敏感度较小偏好处理球状的簇4.写出基本凝聚层次聚类的算法算法步骤:(1)计算邻近度矩阵(2)Repeat3 3)合并最邻近的两个簇4 4)更新邻近度矩阵,以反映新的簇与原来的簇之间的邻近度(5)Until 仅剩下一个簇5.由下图已给出的距离矩阵,将Max用于6个点样本数据集,画出层次聚类的树 状图P1P2P3P4P5P6P1P2P3P4P5P6这是告诉你的计算过程,现在不要写了。P3和P6最近所以36结合,P2和P5较近,所以25结合,现在是3,6、2,5、1和4,Dist(3,6,4) = max(dist(3,4),dist(6,4)= max尸Dist(3,6,2,5) = max(dist(3,2),dist(6,2),dist(3,5),dist(6,5)=max,=Dist(3,6,1)=m

      《数据挖掘考试题》由会员枫**分享,可在线阅读,更多相关《数据挖掘考试题》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.