1、 大 学 试 卷 学年第 1 学期; 课号 课程名称 Python经济大数据分析 (A、闭卷); 适用班级(或年级、专业) (每位考生需要答题纸(8k) 1 张、草稿纸(16k) 1 张)考试时间 120 分钟 班级 学号 姓名 题 号一二三四五六七八九十成绩满 分30202030得 分评卷人一、单项选择题(每道题2分,共30分)1. 衡量取样数据的质量的标准不包括:( )A. 资料完整无缺 B. 各类指标项齐全 C. 数据准确无误 D. 数据一致2. Python中如果用户要自己定义函数,需要使用的关键字是?( )A. from B. def或lambda C. import D. return3. 以下代码的输出结果为( )def Foo(x):if(x= =1): return 1else: return x+Foo(x-1)print(Foo(4)10 B. 24 C. 7 D. 14. 以下关于分类问题的说法错误的是?( )A. 分类问题输入属性必须是离散的B. 分类属于监督学习C. 回归问题在一定条件下可被转化为多分类问题D. 多分类问题可以被拆分为多个二分类问题5. 关于
2、第三方库,以下说法不正确的是( )。A. 下载源代码自行安装B. 用pip命令安装C. 现在编译好的文件包进行安装D. 单独导入库名不可以使用库中的所有子模块6. 提供了数组支持以及相应的高效的处理函数的是( )A. SciPy B. Keras C. Numpy D. StatsModels7. 有关数据质量正确的说法是( )A. 错误的数据也可能产生有用的结果B. 数据预处理的重要目的是提高数据挖掘结果的质量C. 因为分析的数据量很大,有些噪声即使不去除也对数据挖掘没多大影响D. 数据质量不需要对业务理解8. 假设有三类数据,用OVR(One V Rest)方法需要分类几次才能完成?A. 3B. 4C. 1D. 29. 以下哪些不是二分类问题?A. 根据一个人的身高和体重判断他(她)的性别。B. 根据肿瘤的体积、患者的年龄来判断良性或恶性?C. 身高1.85m,体重100kg的男人穿什么尺码的T恤?D. 或者根据用户的年龄、职业、存款数量来判断信用卡是否会违约?10. 以下不属于集中趋势统计量的是( )A. 均值 B. 中位数 C. 四分位数 D. 众数11. 置信度是度量( )的
3、指标。A. 简洁性 B. 可靠性 C. 实用性 D. 新颖性12. 以下不属于聚类算法类型的是( )A. 划分方法 B. 层次方法 C. 基于密度的方法 D. 决策树归纳算法13. 下面哪个回归分析的说法是正确的( )A. 非线性回归问题一般要转化为线性回归B. 回归分析不需要样本训练C. 可以预测非数据型属性的类别D. 回归分析是分析一个变量与其他一个(或几个)变量之间的线性关系的统计方法14. 以下不属于属性规约常用的处理技术是( )A. 合并属性 B. 决策树归纳 C. 主成分分析 D. 特征加权15. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?A. 根据内容检索 B. 建模描述 C. 预测建模 D.寻找模式和规则二、填空题(每空2分,共20分)1. 处理缺失值常用的三种方法是:删除记录、_和_。2. 二分类问题的混淆矩阵如图所示,通过图中的数据可以得知精确率是_ ,召回率是_ ,F1值是_,真正例率是_,假正例率是_,准确率是_,错误率是_。(保留两位小数)3. 对聚类分析算法进行评价常用的方法有purity评价法、RI评价法和_。
4、三、名词解释题(每道题5分,共20分)1. 脏数据2. 数据清洗3. 关联规则4. BP神经网络四、简答题(每道题6分,共30分)1. 在数据质量分析的过程中,如何进行异常值分析?2. 数据探索的定义,简述数据质量分析中脏数据的类型。3. 简述为什么要做数据预处理,数据预处理的主要内容。4. 什么是决策树?决策树的剪枝有哪些方法?5. 什么是聚类?简要描述K-Means聚类算法的实现过程。试卷一答案单选1-5: DBAAD6-10: CBDCC11-15: BDADC填空1. 数据插补、不处理。2.0.90; 0.78; 0.84; 0.78; 0.02; 0.93; 0.073. 5F值评价法名词解释题1. 脏数据:脏数据一般是指不符合要求以及不能直接进行相应分析的数据。2. 数据清洗:数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉和挖掘主题无关的数据,处理缺失值、异常值等。3. 关联规则:假设I=I_1,I_2,I_n是项的集合。给定一个交易数据库D,其中每个事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的标识符TID(Tran
5、saction ID)对应。关联规则是反映一个事物与其他事物之间的相互依存性和关联性,用于从大量数据中挖掘出有价值的数据项之间的相关关系,可从数据中分析出形如“由于某些事件的发生而引起另外一些事件的发生”之类的规则。4. BP神经网络:一种按误差拟传播算法训练的多层前馈网络,学习算法是学习规则。问答题1.异常值分析是检验数据是否有录入错误以及含有不合常理的数据。忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,对结果会带来不良影响;重视异常值的出现,分析其产生的原因,常常成为发现问题进而改进决策的契机。异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称为离群点,异常值的分析也称为离群点的分析。异常值分析方法主要有:简单统计量分析、3原则、箱型图分析。2.通过检验数据集的数据质量、绘制图表、计算某些特征量等手段,对样本数据集的结构和规律进行分析的过程就是数据探索。脏数据的类型:缺失值、异常值、不一致的值、重复数据以及含有特殊符号的数据。3.在数据挖掘中,海量的原始数据中存在着大量不完整、不一致、有异常的数据,将严重影响到数据挖掘建模的执行效率,甚至可能导致挖掘结果的偏差,所以需要进行数据的预处理。数据预处理的主要包括数据清洗、数据集成、数据变换和数据规约。4.决策树是一种机器学习的方法,是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,生成算法有ID3, C4.5和C5.0等。决策树的剪枝通常有两类方法,一类是预剪枝,另一类是后剪枝。5.聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法。K-Means算法的实现过程:(1) 从n个样本数据中随机的选取k个对象作为初始的聚类中心。(2) 分别计算每个样本到各个聚类中心的距离,将对象分配到距离最近的聚类中。(3) 所有对象分配完成后,重新计算k个聚类的中心。(4) 与前一步计算得到的k个聚类中心比较,如果聚类中心发生变化,转至步骤2,否则转至步骤5.(5) 当质心不发生变化时,停止并输出聚类结果。7
《Python经济大数据分析模拟试卷试卷一含参考答案》由会员第***分享,可在线阅读,更多相关《Python经济大数据分析模拟试卷试卷一含参考答案》请在金锄头文库上搜索。