您所在位置：网站首页 > 高等教育 > 习题/试题 > 《数据挖掘与数据分析（财会）》试卷B及答案

《数据挖掘与数据分析（财会）》试卷B及答案

9页

卖家[上传人]：第***

文档编号：600659082

上传时间：2025-04-11

文档格式：DOCX

文档大小：45.61KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 金贝

/ 9 举报版权申诉马上下载

文本预览

下载提示

常见问题

1、大学试卷学年第 1 学期；课号课程名称数据挖掘与数据分析（B卷; ，闭卷）；适用班级（或年级、专业）（每位考生需要答题纸（8k） 2 张、草稿纸（16k） 1 张）考试时间 120 分钟班级学号姓名题号一二三四五六七八九十成绩满分20202040得分评卷人一、选择题（20分, 2分*10题）1. 关联模式挖掘旨在从大量的数据当中发现特征之间或数据之间的相互（）关系A.聚集 B.依赖 C.结合 D.独立2. 时间序列基于事物发展的（）和随机性预测事物未来的情况A.独立性 B.延续性C.相关性 D.逻辑性3. 数据挖掘工作中脏数据通常不包括（）A.缺失值 B.异常值C.不一致和重复数据值 D.时变数据4. 数据特征分析不包括（）A.分布分析 B.对比分析 C.相关性分析 D.标准化分析5. 数据预处理的主要任务不包括（）A.数据清洗 B.数据集成 C.数据变换和规约 D.数据可视化6. Python本身的数据分析常见库不包括（）A. Numpy B. Scipy C. Pandas D.Tensorflow7. K-means算法属于

2、聚类分析的（）A.划分方法 B.层次分析方法C.基于网格的方法 D.基于密度的方法8. 数据变换不包括（）A.聚集 B.数据概化 C.规范化 D.数据压缩9. 常见的连续属性离散化方法不包括（）A.等宽法 B.基于聚类分析的方法C.等频法 D.基于统计分析的方法10. 关联分析中将集合中同时出现频率高的元素组成子集，满足一定阈值条件，称为( )A.项集 B.频繁项集C.关联规则 D.频繁度二、判断题（20分，2分*10题，正确标记，错误标记）1. 数据预处理阶段的主要工作包括数据筛选、数据转换、数据标准化、属性选择、数据规约等方面。（）2.关联模式挖掘旨在从大量的数据当中发现特征之间或数据之间的相互依赖关系。（）3随机性分析是数据特征分析方法。（）4.聚类分析使得类别内数据的“差异性”尽可能小，类别间“差异性”尽可能大。（）5.异常值是指样本中的个别值，其数值明显偏离其余的观测值。（）6.数据集成就是将多个数据源合并存放在一个一致的数据存储中的过程。（）7.零-均值规范化不是数据规范化方法。（）8.为了消除指标之间的量纲和大小不一的影响，需要进行数据标准化处理。

3、（）9.精确度（Precision）表示分类模型正确分类的样本数（包括正例与反例）与样本总数的比值。（）10.项集A、B同时发生的概率称为关联规则的支持度。（）三、名词解释（20分, 4分*5题）1.数据规约2.置信度3.分类4.关联规则5.相对误差四、简答题（40分, 8分*5题）1.数据异常值分析2.分类与预测算法评价指标3.数据规范化及主要方法4.关联规则原理和主要特点5.回归分析及特点年第学期数据挖掘与数据分析（B）卷参考答案及评分标准适用：商学院财务管理专业2020 级学生命题教师：黄宏军五、选择题（20分, 2分*10题）1-5 BBDDD 6-10 DADBB六、判断题（20分，2分*10题，正确标记，错误标记）1-5 6-10 七、名词解释（20分，4分*5题）1.数据规约数据规约是将海量数据进行规约，规约之后的数据仍接近于保持原数据的完整性，但数据量小得多。通过数据规约，可以达到降低无效、错误数据对建模的影响，提高建模的准确性少量且降低储存数据成本。数据规约包括属性规约和数值规约。属性规约通过属性合并创建新属性维数，或者通过直接删除不相关

4、的属性来减少数据维数，数值规约通过选择替代的、较小的数据来减少数据量。2.置信度表示包含A的交易中也包含B的条件概率3.分类分类主要是预测分类标号（离散、无序的），而预测主要是建立连续值函数模型，预测给定自变量的条件下因变量的值。分类是构造一个分类模型，输入样本的属性值，输出对应的类别，将每个样本映射到预先定义好的类别。分类模型建立在已有类标记的数据集上，模型在已有样本上的准确率可以方便地计算，所以分类属于有监督的学习。4.关联规则关联规则描述在一个事务中物品之间同时出现的规律的知识模式，通过量化的形式描述物品A的对物品B的影响。关联规则的度量指标包括支持度和置信度，支持度是某一特定关联或项集在数据集中出现的概率，置信度是在数据集中已经出现A时，B发生的概率。5.相对误差相对误差指的是测量所造成的绝对误差与被测量真值之比乘以100%所得的数值，以百分数表示，相对误差更能反映测量的可信程度。相对误差（Relative Error）=（原值-估计值）/原值。八、简答题（40分, 8分*5题）1.数据异常值分析离群点（Outlier），也称为异常对象。通常，在数据的散布图中，离群点远离其他

5、数据点。离群点检测的目的是发现有异于大部分对象的其他对象。离群点的主要成因有：数据来源于不同的类、自然变异、数据测量和收集误差。从整体来看，某些对象没有离群特征，但是从局部来看，却显示了一定的离群性。从属性的个数看包括一维离群点和多维离群点，从数据类型看包括数值型离群点和分类型离群点。异常值分析包括如下方法：（1）基于统计。大部分的基于统计的离群点检测方法是构建一个概率分布模型，并计算对象符合该模型的概率，把具有低概率的对象视为离群点。（2）基于邻近度。通常可以在数据对象之间定义邻近性度量，把远离大部分点的对象视为离群点。（3）基于密度。考虑数据集可能存在不同密度区域这一事实，从基于密度的观点分析，离群点是在低密度区域中的对象。一个对象的离群点得分是该对象周围密度的逆。（4）基于聚类。一种是利用聚类检测离群点的方法是丢弃远离其他簇的小簇；另一种更系统的方法，首先聚类所有对象，然后评估对象属于簇的程度（离群点得分）。2.分类与预测算法评价指标分类与预测模型对训练集进行预测而得出的准确率并不能很好地反映预测模型未来的性能，为了有效判断一个预测模型的性能表现，需要一组没有参与预测模型建立的数

6、据集，并在该数据集上评价预测模型的准确率，这组独立的数据集叫测试集。模型预测效果评价，通常用绝对误差与相对绝对误差、平均绝对误差、根均方差、相对平方根误差等指标来衡量绝对误差（AbsoluteError）=原值-估计值相对误差（RelativeError）=（原值-估计值）/原值平均绝对误差（MeanAbsoluteError , MAE）均方误差的平方根，代表了预测值的离散程度，也叫标准误差，跟方差一样，均方误差是预测误差平方之和的平均数分类器评价指标包括如下，（1）正确率（accuracy）正确率是我们最常见的评价指标，accuracy = （TP+TN）/(P+N)，被分对的样本数除以所有的样本数，通常来说，正确率越高，分类器越好；（2）错误率（error rate)错误率则与正确率相反，描述被分类器错分的比例，error rate = (FP+FN)/(P+N)，对某一个实例来说，分对与分错是互斥事件，所以accuracy =1 error rate；（3）灵敏度（sensitive）sensitive = TP/P，表示的是所有正例中被分对的比例，衡量了分类器对正例的识别能力

7、；（4）特效度（specificity)specificity = TN/N，表示的是所有负例中被分对的比例，衡量了分类器对负例的识别能力；（5）精度（precision）精度是精确性的度量，表示被分为正例的示例中实际为正例的比例，precision=TP/（TP+FP）；（6）召回率（recall）召回率是覆盖面的度量，度量有多个正例被分为正例，recall=TP/(TP+FN)=TP/P=sensitive，可以看到召回率与灵敏度是一样的。3.数据规范化及主要方法（1）最小-最大规范化：也称为离差标准化，是对原始数据的线性变换，使结果值映射到0,1之间。转换函数如：（2）零-均值规范化:也叫标准差标准化，经过处理的数据的平均数为0，标准差为1。转化函数为：（3）小数定标规范化:通过移动属性值的小数位数，将属性值映射到-1，1之间，移动的小数位数取决于属性值绝对值的最大值。转化函数为：4.关联规则原理和主要特点关联分析（association analysis）是一种在大规模数据集中寻找有趣关系的任务，这些关系可以有两种形式：频繁项集（frequent item set）或者关联规则(association rule)。频繁项集：假设有一系列集合，这些集合有些相同的元素，将集合中同时出现频率高的元素组成一个子集，满足一定阈值条件，就是频繁项集。关联规则（association rules）：描述在一个事务中物品之间同时出现的规律的知识模式，通过量化的形式描述物品A的对物品B的影响。关联规则度量方法包括：支持度（support）支持度是对关联规则重要性的衡量，反映关联是否是普遍存在的规律，体现这条规则在所有交易中有多大的代表性。记为：support(XY)置信度（confidence）置信度（或可信度、信任度）是对关联规则准确度的衡量，度量关联规则的强度。即在所有出现了X的活动中出现Y的频率，说明规则XY的必然性有多大。记为confidence(XY)。关联规则形成的基本过程找频繁项集：通过用户给定最小支持度阈值min_sup，寻找所有频繁项集，即仅保留大于或等于最小支持度阈值的项集。生成强关联规则：通过用户给定最小置信度阈值min_conf，在每个

《《数据挖掘与数据分析（财会）》试卷B及答案》由会员第***分享，可在线阅读，更多相关《《数据挖掘与数据分析（财会）》试卷B及答案》请在金锄头文库上搜索。

点击阅读更多内容

新上传的文档

钢结构吊装对环境的影响标准厂房建设厂区规划与布局低空经济产业园的产业发展趋势分析智算产业园的技术发展趋势标准厂房区域基础设施现状及发展潜力国内外标准化厂房发展现状智算产业园区功能布局规划妇幼保健院项目背景与意义妇幼保健院经济效益分析吊装设备的选择与配置妇幼保健院项目投资分析集成电路产业园污水处理厂项目的市场前景与发展趋势新课标背景下小学英语作业的重要性妇幼保健院医疗质量管理体系销售部外部市场变化对薪酬体系的影响产教融合基地产业发展趋势分析妇幼保健院人员需求与组织结构二手车行业现状标准厂房钢结构材料的选择与性能城中村改造项目区域选择与现状分析

进入店铺

收藏店铺