电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

《数据挖掘与数据分析(财会)》试卷A及答案

7页
  • 卖家[上传人]:第***
  • 文档编号:600658874
  • 上传时间:2025-04-11
  • 文档格式:DOCX
  • 文档大小:39.21KB
  • / 7 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、 大 学 试 卷 学年第 1 学期 ; 课号 课程名称 数据挖掘与数据分析 (A卷; ,闭卷); 适用班级(或年级、专业) (每位考生需要答题纸(8k) 2 张、草稿纸(16k) 1 张)考试时间 120 分钟 班级 学号 姓名 题 号一二三四五六七八九十成绩满 分20202040得 分评卷人一、 选择题 (20分, 2分*10题)1. 数据挖掘基本任务不包括( )A.分类与预测 B.聚类分析 C.关联规则 D.战略分析2. 聚类分析通常要求( )A.类别内数据“差异性”尽可能小,类别间“差异性”尽可能小 B.类别内数据“差异性”尽可能大,类别间“差异性”尽可能大C.类别内数据“差异性”尽可能小,类别间“差异性”尽可能大 D.类别内数据“差异性”尽可能大,类别间“差异性”尽可能小3. 数据挖掘建模过程不包括( )A.数据取样、探索、预处理 B.模式发现C.数据建模及模型评估 D.数据存储空间4. 数据标准化主要目的是( )A.消除指标之间的量纲和大小不一的影响 B.完全消除数据之间的差异 C.有利于节省数据计算时间 D.有利于减少数据计算存储空间5. 数据规约包括( )A.属性规约和数

      2、值规约 B.属性规约和变量规约 C.数值规约和变量规约 D.属性规约与数值压缩6. 关联分析主要任务包括 ( )A.支持度分析 B.关联规则的产生 C.模式分析 D.结构挖掘7. ( )表示分类模型中正确分类的样本数与样本总数的比值 A.准确度(Accuracy) B.精确度(Precision)C.支持度 D.置信度8. 聚类算法不包括哪类( )A.基于划分的方法 B.基于层次的方法 C.基于密度的方法 D.基于智能的方法9. 项集A、B同时发生的概率称为关联规则的( )A. 支持度 B.置信度C. 可信度 D.提升度10. 离群点检测方法不包括( )A.基于统计 B.基于控制模型C.基于聚类 D.基于邻近度二、 判断题(20分,2分*10题,正确标记,错误标记)1. 数据挖掘基本任务包括利用分类与预测、聚类、关联规则等方法。( )2. Numpy包正确的安装命令如下:pip python install numpy。( )3.相关性分析是数据特征分析方法。( )4.数据规范化是将数据按比例缩放,使之落入一个特定的区域,如0.0-1.0。( )5.数据清洗主要是删除原始数据集中的无关

      3、、重复数据,平滑噪声数据,处理缺失值、异常值等。 ( )6.因变量和自变量之间呈现某种曲线关系时,需要建立线性回归模型。( )7.分类精度(Precision)表示模型正确分类的正例样本数与总的正例样本总数的比值。( )8.分类是构造一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别。( )9.决策树是一种根据信息熵进行聚类和回归的算法。( )10.项集A发生,则项集B也同时发生的概率为关联规则的置信度。( )三、 名词解释(20分, 4分*5题)1.均方误差(MSE)2.支持度3.聚类4.关联规则5.数据标准化 四、 简答题(40分, 8分*5题)1.数据挖掘基本任务2. Pearson相关系数及强度判断3.数据预处理主要任务及内容4.分类原理及特点5. k-means聚类算法原理、步骤和主要特点 年 第 学期 数据挖掘与数据分析(A)卷参考答案及评分标准五、 选择题 (20分, 2分*10题)1-5 DCDAA 6-10 BADAB六、 判断题(20分,2分*10题,正确标记,错误标记)1-5 6-10 七、 名词解释(20分,4分*5题)1. 均方误

      4、差(MSE)其中: Y为实际值,预测值,n为样本总量MSE 表示误差平方和的平均值,计算模型的预测 与真实标签 Y 的接近程度2. 支持度支持度表示项集X,Y在总项集里出现的概率,表示X和Y同时在总数N 中发生的概率,公式为:Support=numberXYnumAllSamples3. 聚类聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法。与分类模型需要使用有类标记样本构成的训练数据不同,聚类模型可以建立在无类标记的数据上,是一种非监督的学习算法。聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度将他们划分为若干组,划分的原则是组内样本最小化而组间(外部)距离最大化。4. 关联规则关联规则描述在一个事务中物品之间同时出现的规律的知识模式,通过量化的形式描述物品A的对物品B的影响。关联规则的度量指标包括支持度和置信度,支持度是某一特定关联或项集在数据集中出现的概率,置信度是在数据集中已经出现A时,B发生的概率。5.数据标准化数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,数值间的差别可能很大,为了消除指标

      5、之间的量纲和大小不一的影响,需要进行数据标准化处理,将数据按照比例进行缩放,使之落入一个特定的区域,从而进行综合分析。例如将工资收入属性值映射到-1,1或者0,1之间。通常包括三种方法:最小-最大规范化、零-均值规范化、小数定标规范化。八、 简答题(40分, 8分*5题)1. 数据挖掘基本任务数据挖掘的基本任务包括利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力。分类是构造一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别。分类模型建立在已有类标记的数据集上,模型在已有样本上的准确率可以方便地计算,所以分类属于有监督的学习。聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法,聚类属于无监督的学习。关联规则描述在一个事务中物品之间同时出现的规律的知识模式,通过量化的形式描述物品A的对物品B的影响。2. Pearson相关系数及强度判断一般用于对定距变量的数据进行计算,即分析两个连续性变量之间的关系,其计算公式如下:(线性相关程度)|r|0.3 极弱线性相关或不存

      6、在线性相关0.3|r|0.5 低度线性相关0.5|r|0.8 显著线性相关0.8|r| 高度线性相关2. 数据预处理主要任务及内容数据预处理的主要任务包括数据清洗,数据集成,数据变换和数据规约。数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,处理缺失值、异常值等。数据清理还包括:去除空白数据域和知识背景上的白噪声,考虑时间的先后顺序和数据的相关变化等;进行重复数据处理和默认数据处理,进行数据类型转换等。在数据预处理时,异常值是否剔除,需视具体情况而定,因为有些异常值可能蕴含着有用的信息。数据挖掘需要的数据往往分布在不同的数据源中,数据集成就是将多个数据源合并存放在一个一致的数据存储(如数据仓库)中的过程,在数据集成时,来自多个数据源的现实世界实体的表达形式是不一样的,不一定是匹配的,要考虑实体识别问题和属性冗余问题,从而把源数据在最低层上加以转换、提炼和集成。数据变换主要是对数据进行规范化的操作,将数据转换成“适当的”格式,以适用于挖掘任务及算法的需要。(1) 聚集即对数据进行汇总。(2) 数据概化。在数据挖掘中,有时并不需要细化到低层概念,可以用它的高层概念来替换。

      7、(3) 规范化。将数据按比例缩放,使之落入一个特定的区域,如0.0-1.0。数据规约是将海量数据进行规约,规约之后的数据仍接近于保持原数据的完整性,但数据量小得多。通过数据规约,可以达到:降低无效、错误数据对建模的影响,提高建模的准确性少量且具代表性的数据将大幅缩减数据挖掘所需的时间降低储存数据的成本。3. 分类原理及特点分类主要是预测分类标号(离散、无序的),而预测主要是建立连续值函数模型,预测给定自变量的条件下因变量的值。分类是构造一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别。分类模型建立在已有类标记的数据集上,模型在已有样本上的准确率可以方便地计算,所以分类属于有监督的学习。分类算法有两步过程:第一步是学习步,通过归纳分析训练样本集来建立分类模型得到分类规则;第二步是分类步,先用已知的检验样本集评估分类规则的准确率,如果准确率是可以接受的,则使用该模型对未知类标号的待测样本集进行预测。分类是一种有监督学习,不同分类模型会受样本分布、数量以及模型特点而影响性能。5. k-means聚类算法原理、步骤和主要特点K-Means算法是典型的基于距离的非层次聚类算法,在最小化误差函数的基础上将数据划分为预定的类数K,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。K-Means聚类算法中,一般需要度量样本之间的距离、样本与簇之间的距离以及簇与簇之间的距离。K-Means算法过程:1)从N个样本数据中随机选取K个对象作为初始的聚类中心;2)分别计算每个样本到各个聚类中心的距离,将对象分配到距离最近的聚类中;3)所有对象分配完成后,重新计算K个聚类的中心;4)与前一次计算得到的K个聚类中心比较,如果聚类中心发生变化,转2),否则转5);5)当质心不发生变化时停止并输出聚类结果。 K-means算法特点包括:首先,聚成几类的k值需要提前设定,但在对数据不清楚情况下不知道k应该定多少;其次,初始质心也要自己选,而这个初始质心直接决定最终的聚类效果;另外,每一次迭代都要重新计算各个点与质心的距离再排序,时间成本较高。 7

      《《数据挖掘与数据分析(财会)》试卷A及答案》由会员第***分享,可在线阅读,更多相关《《数据挖掘与数据分析(财会)》试卷A及答案》请在金锄头文库上搜索。

      点击阅读更多内容
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.