电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

数据分析面试题1

36页
  • 卖家[上传人]:suns****4568
  • 文档编号:88920555
  • 上传时间:2019-05-13
  • 文档格式:PDF
  • 文档大小:776.15KB
  • / 36 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、 DC 共享平台数据分析岗笔试面试题 本材料是由 DataCastle 从谷歌、微软、facebook、百度等企业的网络公开招 聘题中进行精选,并附上详细解析,适合应聘数据分析岗位的求职者,未经同意不 得转载,请联系 提前沟通,未经授权的转载 会联系法务进行处理。 1.一般,K-NN 最近邻方法在( )的情况下效果较好 A.样本较多但典型性不好 B.样本较少但典型性好 C.样本呈团状分布 D.样本呈链状分布 答案:B 解析: 样本呈团状颇有迷惑性,这里应该指的是整个样本都是呈团状分布,这样 kNN 就发挥不出其求近邻的优势了, 整体样本应该具有典型性好, 样本较少, 比较适宜。 2.一个包里有 5 个黑球,10 个红球和 17 个白球。每次可以从中取两个球出来,放 置在外面。那么至少取_次以后,一定出现过取出一对颜色一样的球。 A.16 B.9 C.4 D.1 答案:A 解析: 考虑最坏的情况,前 10 次取出的都是红球+白球的组合,后 5 次取出的都是黑 球+白球的组合,最后只剩下两个白球,则再取 1 次必取出相同颜色的球,因此总计 16 次。 3.用直接插入排序方法对下面 4 个

      2、序列进行排序(由小到大),元素比较次数最少的是 ( ) A.94,32,40,90,80,46,21,69 B.32,40,21,46,69,94,90,80 C.21,32,46,40,80,69,90,94 D.90,69,80,46,21,32,94,40 答案:C 解析: 插入排序的原理是将第i个数插入到已经排列好的数据中, 因此原序列越有序, 比较次数越少 4.下面有关分类算法的准确率,召回率,F1 值的描述,错误的是? A.准确率是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查 准率 B.召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是 检索系统的查全率 C.正确率、召回率和 F 值取值都在 0 和 1 之间,数值越接近 0,查准率或查全率就 越高 D.为了解决准确率和召回率冲突问题,引入了 F1 分数 答案:C 解析: 对于二类分类问题常用的评价指标是精准度(precision)与召回率(recall) 。 通常以关注的类为正类,其他类为负类,分类器在测试数据集上的预测或正确或不 正确,4 种情况出现的总数分别记作: TP将正类预测为

      3、正类数 FN将正类预测为负类数 FP将负类预测为正类数 TN将负类预测为负类数 由此: 精准率定义为:P = TP / (TP + FP) 召回率定义为:R = TP / (TP + FN) F1 值定义为: F1 = 2 P R / (P + R) 精准率和召回率和 F1 取值都在 0 和 1 之间,精准率和召回率高,F1 值也会高,不 存在数值越接近 0 越高的说法,应该是数值越接近 1 越高。 5.Naive Bayes 是一种特殊的 Bayes 分类器,特征变量是 X,类别标签是 C,它的一个 假定是:() A.各类别的先验概率 P(C)是相等的 B.以 0 为均值, 2 2 为标准差的正态分布 C.特征变量之间是相互独立的 D.P(X|C)是高斯分布 答案:C 解析: 朴素贝叶斯的条件就在于假设每个变量相互独立 6.下列不是 SVM 核函数的是: A.多项式核函数 B.logistic 核函数 C.径向基核函数 D.Sigmoid 核函数 答案:B 解析: SVM 核函数包括线性核函数、多项式核函数、径向基核函数、高斯核函数、幂 指数核函数、拉普拉斯核函数、ANOVA 核函数

      4、、二次有理核函数、多元二次核函 数、逆多元二次核函数以及 Sigmoid 核函数 7.(多选)数据清理中,处理缺失值的方法是? A.估算 B.整例删除 C.变量删除 D.成对删除 答案:A,B,C,D 解析: 数据清理中,处理缺失值的方法有两种: 删除法: 1)删除观察样本 2)删除变量:当某个变量缺失值较多且对研究目标影响不大时,可以将整 个变量整体删除 3)使用完整原始数据分析:当数据存在较多缺失而其原始数据完整时,可 以使用原始数据替代现有数据进行分析 4)改变权重:当删除缺失数据会改变数据结构时,通过对完整数据按照不 同的权重进行加权,可以降低删除缺失数据带来的偏差 查补法:均值插补、回归插补、抽样填补等 成对删除与改变权重为一类 估算与查补法为一类 8.在 Logistic Regression 中,如果同时加入 L1 和 L2 范数,会产生什么效果() A.可以做特征选择,并在一定程度上防止过拟合 B.能解决维度灾难问题 C.能加快计算速度 D.可以获得更准确的结果 答案:A 解析: L范数具有系数解的特性,但是要注意的是,L没有选到的特征不代表不重 要,原因是两个高相关性

      5、的特征可能只保留一个。需要通过交叉验证,确定哪个特 征重要。 为什么 L1,L2 范数可以防止过拟合呢? 在代价函数后面加上正则项,L即是 Lasso 回归,L是岭回归 但是它为什么能防止过拟合呢? 奥卡姆剃刀原理:能很好的拟合数据且模型简单 模型参数在更新时,正则项可使参数的绝对值趋于,使得部分参数为,降 低了模型的复杂度(模型的复杂度由参数决定) ,从而防止了过拟合。提高模型的泛 化能力。 9.有两个样本点,第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的 特征向量是(2,3),从这两个样本点组成的训练集构建一个线性 SVM 分类器的分类面 方程是( ) A.2x+y=4 B.x+2y=5 C.x+2y=3 D.2x-y=0 答案:B 解析: SVM 要找到间隔最大的分类平面,这里即求两点(0,-1),(2,3)的垂直平分线。 斜率为:-1/(3+1)/(2-0)=-1/2 中点为:(1,2) 所以,分类超平面为:x+2y=5 10.执行完下列语句段后,i 值为() int f(int x) return (x0)?x*f(x-1):2) int i; i=f(

      6、f(2); A.4 B.48 C.8 D.无限递归 答案:B 解析: f(x) 当 x 大于 0 时,返回 x*f(x-1),否则返回 2 f(0) = 2 f(1) = 1 * f(0) = 2 f(2) = 2 * f(1) = 4 f(3) = 3 * f(2) = 12 f(4) = 4 * f(3) = 48 f(4) = f(f(2) = 48 11.连续存储设计时,存储单元的地址() A.一定连续 B.一定不连续 C.不一定连续 D.部分连续,部分不连续 答案:C 解析: 1.存储单元的地址,考察的是存储结构: 2.存储结构的含义是:数据元素在计算中的存储形式。 3.线性表的存储结构分为顺序存储和链式存储: (1)顺序存储为逻辑上相邻且 物理地址也连续,以数组形式出现,可以取任意下标访问,是一种随机存取的存储 结构; (2)链式存储是逻辑上相邻但是物理地址不一定连续,以链表的形式出现, 必须从头开始访问,是一种顺序存取的存储结构。 所以:答案选 C,存储单元的地址(物理地址)不一定连续 12.麦秋时节,庄园主雇了个力大无穷的农民来帮他收割田里的麦子。收获的劳动量 很大,农

      7、民必须在七天之内收割完。庄园主答应每天给他一块金块作工钱。但是这 七块相等的金子是连在一起的,然而工钱是必须每天结清的。农民不愿意庄园主欠 帐,而庄园主也不肯预付一天工钱。请问最少掰金子几次可以完成上述任务? A.2 B.3 C.4 D.7 答案:A 解析: 1、第一天,庄园主掰 1 块金给农民,付第一天的。农民:1;庄园主:6 2、第二天,庄园主从剩下的 6 块里面掰下 2 块给农民,并收回第一天的一块。农 民:2;庄园主:1+4 3、第三天,庄园主将手里的一块散金给农民。农民:2+1;庄园主:4 4、第四天,庄园主收回农民手里的三块金,并把手里的金给农民。农民:4;庄园 主:2+1 5、第五天,庄园主把手里的 1 块散金给农民。农民:4+1;庄园主:2 6、第六天,庄园主收回农民手里的 1 块散金,将 2 块金给农民。农民:4+2,庄 园主:1 7、第七天,庄园主将手里的金块给农民。农民:7,庄园主:0 综上,最少掰了两次可以搞定 13.(多选)算法一般都可以用哪几种控制结构组合而成? A.顺序 B.选择 C.递归 D.循环 答案:A,B,D 解析: 算法一般不用递归,因为太消耗时

      8、间。 14.用下面的 T-SQL 语句建立一个基本表: CREATE TABLE Student ( Sno CHAR ( 4 ) PRIMARY KEY, Sname CHAR ( 8 ) NOT NULL, Sex CHAR ( 2 ) , Age INT ) 可以插入到表中的元组是() A.5021,刘祥,男,21 B.NULL,刘祥,NULL,21 C.5021 ,NULL,男,21 D.5021,刘祥,NULL,NULL 答案:D 解析: “男”为字符串类型,要添加引号,所以 A,C 排除,主键不能为 NULL,排除 B 15.一个查询语句执行后显示的结果为: 1 班 80 2 班 75 3 班 NULL ,则最有可能的查询语句是() A.SELECT AVG(成绩) FROM 成绩表 WHERE classnext=p-nerx;delete p; C.p-next=q-next;delete p; D.p-next=q-next;delete q; E.delete p; F.q-next=p-next;delete q 答案:D 解析: 让 p 指向 q 的下一个节点再

      9、删除 q 17.(多选)有一个单向链表,头指针和尾指针分别为 p,q,以下哪项操作的复杂 度不受队列长度的影响? A.删除头部元素 B.删除尾部元素 C.头部元素之前插入一个元素 D.尾部元素之后插入一个元素 答案:A,C,D 解析: 单链表删除元素需要找到尾部元素的前一个元素,与队列长度有关,因此删除 尾部元素时,虽然给出了尾指针,但是单链表删除还要知道前一节点,所以还是要遍 历一遍才能知道尾指针前一节点 既与队列长度有关 18.设有表示学生选课的三张表,学生 S(学号,姓名,性别,年龄,身份证号) , 课程 C(课号,课名) ,选课 SC(学号,课号,成绩) ,则表 SC 的关键字(键或码) 为( ) 。 A.课号,成绩 B.学号,成绩 C.学号,课号 D.学号,姓名,成绩 答案:C 解析: 学号是学生表 S 的主键,课号是课程表 C 的主键,所以选课表 SC 的关键字就 应该是与前两个表能够直接联系且能唯一定义的学号和课号,所以选择 C。 19.S 市 A,B 共有两个区,人口比例为 3:5,据历史统计 A 的犯罪率为 0.01%,B 区为 0.015%, 现有一起新案件发生在 S 市, 那么案件发生在 A 区的可能性有多大? A.37.5% B.32.5% C.28.6% D.26.1% 答案:C 解析: 在 A 区犯案概率:P(C|A)=0.01% 在 B 区犯案概率:P(C|B)=0.015% 在 A 区概率:P(A)=3/8 在 B 区概率:P(B)=5/8 犯案概率:P(C)=(3/8*0.01%+5/8*0.015%) 则 犯 案 且 在A区 的 概 率 : P(A|C)=P(C|A)*P(A)/P(C)=0.01%*(3/8)/ (3/8*0.01%+5/8*0.015%)28.6% 20.已知中国人的血型分布约为 A 型: 30%, B 型: 20%, O 型: 40%, AB 型: 10%, 则任选一批中国人作为用户调研对象,希望他们中至少有一个是 B 型血的可能性不 低于 90%,那么最少需要选多少人? A.7 B.9 C.11 D.13 答案:C 解析: 一个人不是 B 型的概率是 1-

      《数据分析面试题1》由会员suns****4568分享,可在线阅读,更多相关《数据分析面试题1》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2 2022年小学体育教师学期工作总结
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.