1、 大 学 试 卷 学年第 学期; 课号 课程名称 Python经济大数据分析 (B、闭卷); 适用班级(或年级、专业) (每位考生需要答题纸(8k) 1 张、草稿纸(16k) 1 张)考试时间 120 分钟 班级 学号 姓名 题 号一二三四五六七八九十成绩满 分30202030得 分评卷人一、单项选择题(每道题2分,共30分)1.在进行数据抽样时候的标准不包括:( )A. 可靠性 B. 有效性 C. 一致性 D. 相关性2.以下代码的运行结果是?( )def InputInt(a):a=15b=2InputInt(b)print(b) A. 15 B. 2 C. 15.2 D. b3.对于数据挖掘中的原始数据,不需要考虑的问题包括( )。A. 错误值 B. 重复 C. 不完整 D. 数据产生的人4.对于不服从正态分布的变量、分类或等级变量之间的关联性常采用:( )A. Spearman相关系数 B. 判定系数 C. Pearson相关系数 D. Gamma系数5.在进行数据探索时能够一次查看数据的基本情况的方法是( )A. subplot( ) B. describe( ) C. cu
2、msum( ) D. add_subplot( )6.由于研究目的和对比基础不同,在进行相对数比较时采用的方法不包括( )A. 结构相对数 B. 比例相对数 C. 过程相对数 D. 强度相对数7.以下不属于数据处理中经常使用的缺失值填充的方法( )。A. 忽略元组 B. 属性均值填充缺失值 C. 最近邻填充缺失值 D. 回归填充缺失值8.哪些算法不需要数据归一化?A. kNNB. SVMC. k-meansD. 决策树9.以下哪些方法不能用于处理欠拟合?A. 增加模型复杂度B. 增大正则化系数C. 增加新的特征D. 对特征进行变换,使用组合特征或高维特征10.以下那种说法是错误的( )。A. 一个系统越是有序,信息熵就越低B. 中国足球队战胜巴西足球队的信息熵要小于中国乒乓球队战胜巴西乒乓球队的信息熵C. 信息增益 = 信息熵 - 条件熵D. 一个系统越是混乱,随机变量的不确定性就越大,信息熵就越高11.关于CART算法,错误的是( )。A. CART算法既可以处理分类问题,也可以处理回归问题B. 可以处理样本不平衡问题C. CART算法采用信息增益率的大小来度量特征的各个划分点D.
3、CART 分类树采用基尼系数的大小来度量特征的各个划分点12.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘中的( )。A. 关联规则 B. 聚类 C. 分类 D. 自然语言处理13.有关数据挖掘预处理不正确的说法是( )。A. 预处理是数据挖掘一个不可少的环节B. 数值规约可以使用聚类进行C. 预处理涉及缺失值分析、异常值分析等很多工作D. 预处理的过程可能本身就是一个数据挖掘过程14. 假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:( )A. 0.821 B. 1.224 C. 1.458 D. 0.71615.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?A. 分类 B. 聚类 C. 关联分析 D. 协同过滤二、填空题(每空2分,共20分)1.数据抽样的标准包括:可靠性、有效性、_。2. Python中包含4种内建的数据结构为:_、字典、元组、_。3.常用的异常值探测方法是简单统计量分析、箱
4、型图分析和_。4.数据的不一致性主要是数据的_和_。5.处理缺失值常用的三种方法是:删除记录、_和_。6.实现分类与预测的常用算法有回归分析、_、人工神经网络、_和支持向量机。三、名词解释题(每道题5分,共20分)1.分类2.决策树3.预测4.纯随机序列四、简答题(每道题6分,共30分)1.简述什么是异常值分析,以及进行异常值探测的方法。2.简述为什么要做数据预处理,数据预处理的主要内容。3.常见的分类算法有哪些?4.简述分类的概念,以及分类算法的实现过程。5. LR(逻辑回归)和SVM的联系与区别?试卷二答案单选1-5: CBDBA6-10: CADBB11-15: CACDD填空1. 相关性2. 列表list、集合set3. 3原则4. 矛盾性、不相容性5. 数据插补、不处理。6. 决策树、贝叶斯网络名词解释题1. 分类是构建一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别。2. 决策树(Decision Tree)通过对训练样本的学习,并建立分类规则,然后依据分类规则,对新样本数据进行分类预测,属于有监督学习。3. 预测是建立两种或两种以上变量间相
5、互以来的函数模型,然后进行预测和控制。4. 纯随机序列又称白噪声序列,序列的各项之间没有任何相关性,序列在进行完全无序的随机波动。问答题1.异常值分析是检验数据是否有录入错误,是否含有不合常理的数据。常用的方法有简单统计量分析、3原则和箱型图。2.在数据挖掘中,海量的原始数据中存在着大量不完整、不一致、有异常的数据,将严重影响到数据挖掘建模的执行效率,甚至可能导致挖掘结果的偏差,所以需要进行数据的预处理。3.答:SVM、神经网络、随机森林、逻辑回归、KNN、贝叶斯4.分类是构建一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别。分类算法的过程有两步:第一步是学习步,通过归纳分析训练样本集来建立分类模型,得到分类规则;第二步是分类步,先用已知的测试样本集评估分类规则的准确率,如果准确率是可以接受的,则使用模型对未知类标号的待测样本集进行预测。5.联系:(1) LR和SVM都可以处理分类问题,且一般都用于处理线性二分类问题(在改进的情况下可以处理多分类问题) (2) 两个方法都可以增加不同的正则化项,如L1、L2等等。所以在很多实验中,两种算法的结果是很接近的。区别:(1) LR是参数模型,SVM是非参数模型。(2) 从目标函数来看,区别在于逻辑回归采用的是Logistical Loss,SVM采用的是hinge loss.这两个损失函数的目的都是增加对分类影响较大的数据点的权重,减少与分类关系较小的数据点的权重。(3) SVM的处理方法是只考虑Support Vectors,也就是和分类最相关的少数点,去学习分类器。而逻辑回归通过非线性映射,大大减小了离分类平面较远的点的权重,相对提升了与分类最相关的数据点的权重。(4) 逻辑回归相对来说模型更简单,好理解,特别是大规模线性分类时比较方便。而SVM的理解和优化相对来说复杂一些,SVM转化为对偶问题后,分类只需要计算与少数几个支持向量的距离,这个在进行复杂核函数计算时优势很明显,能够大大简化模型和计算。(5) Logic 能做的 SVM能做,但可能在准确率上有问题,SVM能做的Logic有的做不了。
《Python经济大数据分析模拟试卷试卷二含参考答案》由会员第***分享,可在线阅读,更多相关《Python经济大数据分析模拟试卷试卷二含参考答案》请在金锄头文库上搜索。