数据挖掘考试题

资源ID：474231699 资源大小：61.71KB 全文页数：10页
资源格式： DOCX 下载积分：15金贝

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要15金贝

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

1、金锄头文库是“C2C”交易模式，即卖家上传的文档直接由买家下载，本站只是中间服务平台，本站所有文档下载所得的收益全部归上传人（卖家）所有，作为网络服务商，若您的权利被侵害请及时联系右侧客服；
2、如你看到网页展示的文档有jinchutou.com水印，是因预览和防盗链等技术需要对部份页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有jinchutou.com水印标识，下载后原文更清晰；
3、所有的PPT和DOC文档都被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；下载前须认真查看，确认无误后再购买；
4、文档大部份都是可以预览的，金锄头文库作为内容存储提供商，无法对各卖家所售文档的真实性、完整性、准确性以及专业性等问题提供审核和保证，请慎重购买；
5、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据；
6、如果您还有什么不清楚的或需要我们协助，可以点击右侧栏的客服。

下载须知 | 常见问题汇总

1、会员注册 2、如何支付与充值 3、个人资料信息修改 4、我的收藏和“收藏文件夹” 5、我的读者群和加入读者群 6、我的书签 7、金锄头文库批量上传工具（绿色版）V1.0 8、下载文档（资源）相关问题整理 9、解决下载文档时，自动弹出迅雷的问题 10、下载时为什么支付不成功？

数据挖掘考试题

数据挖掘考试题一选择题1. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离 ( )A. 分类 B. 聚类 C. 关联分析 D. 主成分分析2. ( ) 将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值，它是一种凝聚层次聚类技术。( 单链 )( 全链 ) C. 组平均方法3. 数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了 ( ) 数据挖掘方法。A 分类 B 预测 C 关联规则分析D 聚类4. 关于K均值和DBSCANJ比较，以下说法不正确的是()均值丢弃被它识别为噪声的对象，而DBSCAN-般聚类所有对象。均值使用簇的基于原型的概念，DBSCA牌用基于密度的概念。均值很难处理非球形的簇和不同大小的簇，DBSCANT以处理不同大小和不同形状的簇均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCA2合并有重叠的簇5. 下列关于 Ward s Method 说法错误的是： ( )A. 对噪声点和离群点敏感度比较小B. 擅长处理球状的簇C.对于Ward方法，两个簇的邻近度定义为两个簇合并时导致的平方误差D.当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似6. 下列关于层次聚类存在的问题说法正确的是： ( )A. 具有全局优化目标函数B.Group Average 擅长处理球状的簇C. 可以处理不同大小簇的能力D.Max对噪声点和离群点很敏感7. 下列关于凝聚层次聚类的说法中，说法错误的事： ( )A. 一旦两个簇合并，该操作就不能撤销B. 算法的终止条件是仅剩下一个簇C.空间复杂度为O m2D.具有全局优化目标函数8.规则牛奶，尿布一啤酒的支持度和置信度分别为：（）TID项集1面包，牛奶2回包，尿布，啤酒，鸡蛋 3牛奶，尿布，啤酒，可乐4回包，牛奶，尿布，啤酒5回包，牛奶，尿布，可乐下列（）是属于分裂层次聚类的方法。Average11I2I3I4I51000,900,100.650.200.901.000.700.600.500.100.701.000400.300.650.600.401000.800200.500.300.801.0010.对下图数据进行凝聚聚类操作，簇间相似度使用 MAX十算，第二步是哪两个簇合并：（）11I2I3I4I5A.在3和1,2合并 B.3 和4,5合并 C.2,3 和4,5合并D. 2,3和4,5形成簇和3合并二.填空题：1 .属性包括的四种类型：、。2 . 是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。3 .基本凝聚层次聚类算法空间复杂度 ,时间复杂度,如果某个簇到其他所有簇的距离存放在一个有序表或堆中，层次聚类所需要的时间复杂度将为。4 .聚类中，定义簇间的相似度的方法有（写出四个）：、。5 .层次聚类技术是第二类重要的聚类方法。两种层次聚类的基本方法：、。6 .组平均是一种界于和之间的折中方法。7 .相似度矩阵可以用相识度表布还可以用表不。8 .全链在处理大小不同的簇时，可能使破裂，并且偏好。9 .单链技术擅长于处理，但对和很敏感。10 .聚类分析可以看做是一种的分类。（有监督、无监督）三.判断题1 .从点作为个体簇开始，每一步合并两个最接近的簇，这是一种分裂的层次聚类方法。（）2 .数据挖掘的目标不在于数据采集策略，而在于对已经存在的数据进行模式的发掘。（）3 .在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。（）4 .当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似。（）5 . DBSCAN相对抗噪声的，并且能够处理任意形状和大小的簇。（）6 .属性的性质不必与用来度量他的值的性质相同。（）7 .全链对噪声点和离群点很敏感。（）8 .对于非对称的属性，只有非零值才是重要的。（）9 . K均值可以很好的处理不同密度的数据。（）10 .单链技术擅长处理椭圆形状的簇。（）四.综合题1 .何为层次聚类它用哪两种图表示2 .两种层次聚类的基本方法两种方法的定义3 .分别写出Min、Max和组平均的优缺点4 .写出基本凝聚层次聚类的算法5 .由下图已给出的距离矩阵，将Max用于6个点样本数据集，画出层次聚类的树状图P1P2P3P4P5P6P1P2P3P4P5P6考试题+答案一选择题1. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离（ B）A. 分类 B. 聚类 C. 关联分析 D. 主成分分析2. （ C）将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值，它是一种凝聚层次聚类技术。（单链）（全链） C. 组平均方法3. 数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了（ C ）数据挖掘方法。A 分类 B 预测 C 关联规则分析D 聚类4. 关于K均值和DBSCANJ比较，以下说法不正确的是（A均值丢弃被它识别为噪声的对象，而DBSCAN-般聚类所有对象。均值使用簇的基于原型的概念，DBSCA牌用基于密度的概念。均值很难处理非球形的簇和不同大小的簇，DBSCANT以处理不同大小和不同形状的簇均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCA2合并有重叠的簇5. 下列关于 Ward s Method 说法错误的是：（C）A. 对噪声点和离群点敏感度比较小B. 擅长处理球状的簇C.对于Ward方法，两个簇的邻近度定义为两个簇合并时导致的平方误差D.当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似7. 下列关于层次聚类存在的问题说法正确的是：（B）A具有全局优化目标函数Average 擅长处理球状的簇C. 可以处理不同大小簇的能力对噪声点和离群点很敏感7. 下列关于凝聚层次聚类的说法中，说法错误的事：（D）A. 一旦两个簇合并，该操作就不能撤销B. 算法的终止条件是仅剩下一个簇C. 空间复杂度为 O m2D.具有全局优化目标函数8.规则牛奶，尿布一啤酒的支持度和置信度分别为：（C）TID项集1面包，牛奶2回包，尿布，啤酒，鸡蛋 3牛奶，尿布，啤酒，可乐4回包，牛奶，尿布，啤酒5回包，牛奶，尿布，可乐下列（D）是属于分裂层次聚类的方法。Average11I2I3I4I51000,900 J00.650.200.901.000700.600.500.100701.000.400.300.650.600.40L000.800.200,500300.801.00和4,5合并 C.2,3 和4,5合并10.对下图数据进行凝聚聚类操作，簇间相似度使用 MAX十算，第二步是哪两个簇合并：（B）11I2I3I4I5A.在3和1,2合并 B.3D. 2,3和4,5形成簇和3合并二.填空题：1 .属性包括的四种类型：回、庄娄L、区间、比率。2 .组壬及是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。3 .基本凝聚层次聚类算法空间复杂度O m2 ,时间复杂度O m3 ,如果某个簇到其他所有簇的距离存放在一个有序表或堆中，层次聚类所需要的时间复杂度将为O m2 log m。4 .聚类中，定义簇间的相似度的方法有（写出四个）： MIN （单链）、MAX（全链）、组平均_、Ward方法。5 .层次聚类技术是第二类重要的聚类方法。两种层次聚类的基本方法：凝聚层次聚类、会裂层次聚类。6 .组平均是一种界于单链和全链之间的折中方法。7 .相似度矩阵可以用相识度表示还可以用距离表示。8 .全链在处理大小不同的簇时，可能使大的簇破裂,并且偏好球形。9 .单链技术擅长于处理非椭圆形状的簇，但对噪声点和离群点很敏感。10 .聚类分析可以看做是一种无监督的分类。（有监督、无监督）三.判断题：1 .从点作为个体簇开始，每一步合并两个最接近的簇，这是一种分裂的层次聚类方法。（X）2 .数据挖掘的目标不在于数据采集策略，而在于对已经存在的数据进行模式的发掘。（，）3 .在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。（X ）4 .当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似。（，）5 . DBSCAN是相对抗噪声的，并且能够处理任意形状和大小的簇。（ V）6 .属性的性质不必与用来度量他的值的性质相同。（ V ）7 .全链对噪声点和离群点很敏感。（x ）8 .对于非对称的属性，只有非零值才是重要的。（ V ）9 . K均值可以很好的处理不同密度的数据。（ X ）10 .单链技术擅长处理椭圆形状的簇。（ x ）四.综合题1 .何为层次聚类它用哪两种图表示层次聚类为嵌套簇的聚集，组成一棵层次数。两种主要图的表示：树状图和嵌套簇图。2 .两种层次聚类的基本方法两种方法的定义凝聚层次聚类和分裂层次聚类凝聚的：从点作为个体簇开始，每一步合并两个最接近的簇。分裂的：从包含所有点的某个簇开始，每一步分裂一个簇，直到仅剩下单点簇。3.分别写出Min、Max和组平均的优缺点定义方式优点缺点Min能处理非椭圆形状对噪声和离群点很敏感Max对噪声点和离群点敏感度较小1 .当处理簇大小/、同时，较大的簇容易破裂2 .偏好处理球状的簇组平均对噪声点和离群点敏感度较小偏好处理球状的簇4.写出基本凝聚层次聚类的算法算法步骤：(1)计算邻近度矩阵(2)Repeat3 3)合并最邻近的两个簇4 4)更新邻近度矩阵，以反映新的簇与原来的簇之间的邻近度(5)Until 仅剩下一个簇5.由下图已给出的距离矩阵，将Max用于6个点样本数据集，画出层次聚类的树状图P1P2P3P4P5P6P1P2P3P4P5P6这是告诉你的计算过程，现在不要写了。P3和P6最近所以36结合，P2和P5较近，所以25结合，现在是3,6、2,5、1和4,Dist(3,6,4) = max(dist(3,4),dist(6,4)= max尸Dist(3,6,2,5) = max(dist(3,2),dist(6,2),dist(3,5),dist(6,5)=max,=Dist(3,6,1)=m

注意事项

本文（数据挖掘考试题）为本站会员（枫**）主动上传，金锄头文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即阅读金锄头文库的“版权提示”【网址:https://www.jinchutou.com/h-59.html】，按提示上传提交保证函及证明材料，经审查核实后我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。