您所在位置：网站首页 > 高等教育 > 其它相关文档数据分析面试题1

数据分析面试题1

36页

卖家[上传人]：suns****4568

文档编号：88920555

上传时间：2019-05-13

文档格式：PDF

文档大小：776.15KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20 金贝

/ 36 举报版权申诉马上下载

文本预览

下载提示

常见问题

1、 DC 共享平台数据分析岗笔试面试题本材料是由 DataCastle 从谷歌、微软、facebook、百度等企业的网络公开招聘题中进行精选，并附上详细解析，适合应聘数据分析岗位的求职者，未经同意不得转载，请联系提前沟通，未经授权的转载会联系法务进行处理。 1.一般，K-NN 最近邻方法在( )的情况下效果较好 A.样本较多但典型性不好 B.样本较少但典型性好 C.样本呈团状分布 D.样本呈链状分布答案：B 解析：样本呈团状颇有迷惑性，这里应该指的是整个样本都是呈团状分布，这样 kNN 就发挥不出其求近邻的优势了，整体样本应该具有典型性好，样本较少，比较适宜。 2.一个包里有 5 个黑球，10 个红球和 17 个白球。每次可以从中取两个球出来，放置在外面。那么至少取_次以后，一定出现过取出一对颜色一样的球。 A.16 B.9 C.4 D.1 答案：A 解析：考虑最坏的情况，前 10 次取出的都是红球+白球的组合，后 5 次取出的都是黑球+白球的组合，最后只剩下两个白球，则再取 1 次必取出相同颜色的球,因此总计 16 次。 3.用直接插入排序方法对下面 4 个

2、序列进行排序(由小到大),元素比较次数最少的是 ( ) A.94,32,40,90,80,46,21,69 B.32,40,21,46,69,94,90,80 C.21,32,46,40,80,69,90,94 D.90,69,80,46,21,32,94,40 答案：C 解析：插入排序的原理是将第i个数插入到已经排列好的数据中，因此原序列越有序，比较次数越少 4.下面有关分类算法的准确率，召回率，F1 值的描述，错误的是？ A.准确率是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率 B.召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率 C.正确率、召回率和 F 值取值都在 0 和 1 之间，数值越接近 0，查准率或查全率就越高 D.为了解决准确率和召回率冲突问题，引入了 F1 分数答案：C 解析：对于二类分类问题常用的评价指标是精准度（precision）与召回率（recall）。通常以关注的类为正类，其他类为负类，分类器在测试数据集上的预测或正确或不正确，4 种情况出现的总数分别记作： TP将正类预测为

3、正类数 FN将正类预测为负类数 FP将负类预测为正类数 TN将负类预测为负类数由此：精准率定义为：P = TP / (TP + FP) 召回率定义为：R = TP / (TP + FN) F1 值定义为： F1 = 2 P R / (P + R) 精准率和召回率和 F1 取值都在 0 和 1 之间，精准率和召回率高，F1 值也会高，不存在数值越接近 0 越高的说法，应该是数值越接近 1 越高。 5.Naive Bayes 是一种特殊的 Bayes 分类器,特征变量是 X,类别标签是 C,它的一个假定是:() A.各类别的先验概率 P(C)是相等的 B.以 0 为均值， 2 2 为标准差的正态分布 C.特征变量之间是相互独立的 D.P(X|C)是高斯分布答案：C 解析：朴素贝叶斯的条件就在于假设每个变量相互独立 6.下列不是 SVM 核函数的是： A.多项式核函数 B.logistic 核函数 C.径向基核函数 D.Sigmoid 核函数答案：B 解析： SVM 核函数包括线性核函数、多项式核函数、径向基核函数、高斯核函数、幂指数核函数、拉普拉斯核函数、ANOVA 核函数

4、、二次有理核函数、多元二次核函数、逆多元二次核函数以及 Sigmoid 核函数 7.(多选)数据清理中，处理缺失值的方法是? A.估算 B.整例删除 C.变量删除 D.成对删除答案：A,B,C,D 解析：数据清理中，处理缺失值的方法有两种：删除法： 1）删除观察样本 2）删除变量：当某个变量缺失值较多且对研究目标影响不大时，可以将整个变量整体删除 3）使用完整原始数据分析：当数据存在较多缺失而其原始数据完整时，可以使用原始数据替代现有数据进行分析 4）改变权重：当删除缺失数据会改变数据结构时，通过对完整数据按照不同的权重进行加权，可以降低删除缺失数据带来的偏差查补法：均值插补、回归插补、抽样填补等成对删除与改变权重为一类估算与查补法为一类 8.在 Logistic Regression 中,如果同时加入 L1 和 L2 范数,会产生什么效果() A.可以做特征选择,并在一定程度上防止过拟合 B.能解决维度灾难问题 C.能加快计算速度 D.可以获得更准确的结果答案：A 解析： L范数具有系数解的特性，但是要注意的是，L没有选到的特征不代表不重要，原因是两个高相关性

5、的特征可能只保留一个。需要通过交叉验证，确定哪个特征重要。为什么 L1，L2 范数可以防止过拟合呢？在代价函数后面加上正则项，L即是 Lasso 回归，L是岭回归但是它为什么能防止过拟合呢？奥卡姆剃刀原理：能很好的拟合数据且模型简单模型参数在更新时，正则项可使参数的绝对值趋于，使得部分参数为，降低了模型的复杂度（模型的复杂度由参数决定），从而防止了过拟合。提高模型的泛化能力。 9.有两个样本点，第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性 SVM 分类器的分类面方程是( ) A.2x+y=4 B.x+2y=5 C.x+2y=3 D.2x-y=0 答案：B 解析： SVM 要找到间隔最大的分类平面，这里即求两点(0,-1),(2,3)的垂直平分线。斜率为：-1/(3+1)/(2-0)=-1/2 中点为：(1,2) 所以，分类超平面为：x+2y=5 10.执行完下列语句段后,i 值为() int f(int x) return (x0)?x*f(x-1):2) int i; i=f(

6、f(2); A.4 B.48 C.8 D.无限递归答案：B 解析： f(x) 当 x 大于 0 时，返回 x*f(x-1)，否则返回 2 f(0) = 2 f(1) = 1 * f(0) = 2 f(2) = 2 * f(1) = 4 f(3) = 3 * f(2) = 12 f(4) = 4 * f(3) = 48 f(4) = f(f(2) = 48 11.连续存储设计时,存储单元的地址() A.一定连续 B.一定不连续 C.不一定连续 D.部分连续,部分不连续答案：C 解析： 1.存储单元的地址，考察的是存储结构： 2.存储结构的含义是：数据元素在计算中的存储形式。 3.线性表的存储结构分为顺序存储和链式存储：（1）顺序存储为逻辑上相邻且物理地址也连续，以数组形式出现，可以取任意下标访问，是一种随机存取的存储结构；（2）链式存储是逻辑上相邻但是物理地址不一定连续，以链表的形式出现，必须从头开始访问，是一种顺序存取的存储结构。所以：答案选 C,存储单元的地址（物理地址）不一定连续 12.麦秋时节，庄园主雇了个力大无穷的农民来帮他收割田里的麦子。收获的劳动量很大，农

7、民必须在七天之内收割完。庄园主答应每天给他一块金块作工钱。但是这七块相等的金子是连在一起的，然而工钱是必须每天结清的。农民不愿意庄园主欠帐，而庄园主也不肯预付一天工钱。请问最少掰金子几次可以完成上述任务？ A.2 B.3 C.4 D.7 答案：A 解析： 1、第一天，庄园主掰 1 块金给农民，付第一天的。农民：1；庄园主：6 2、第二天，庄园主从剩下的 6 块里面掰下 2 块给农民，并收回第一天的一块。农民：2；庄园主：1+4 3、第三天，庄园主将手里的一块散金给农民。农民：2+1；庄园主：4 4、第四天，庄园主收回农民手里的三块金，并把手里的金给农民。农民：4；庄园主：2+1 5、第五天，庄园主把手里的 1 块散金给农民。农民：4+1；庄园主：2 6、第六天，庄园主收回农民手里的 1 块散金，将 2 块金给农民。农民：4+2，庄园主：1 7、第七天，庄园主将手里的金块给农民。农民：7，庄园主：0 综上，最少掰了两次可以搞定 13.(多选)算法一般都可以用哪几种控制结构组合而成？ A.顺序 B.选择 C.递归 D.循环答案：A,B,D 解析：算法一般不用递归，因为太消耗时

8、间。 14.用下面的 T-SQL 语句建立一个基本表： CREATE TABLE Student ( Sno CHAR ( 4 ) PRIMARY KEY, Sname CHAR ( 8 ) NOT NULL, Sex CHAR ( 2 ) , Age INT ) 可以插入到表中的元组是（） A.5021，刘祥，男，21 B.NULL，刘祥，NULL，21 C.5021 ，NULL，男，21 D.5021，刘祥，NULL，NULL 答案：D 解析： “男”为字符串类型，要添加引号，所以 A,C 排除，主键不能为 NULL，排除 B 15.一个查询语句执行后显示的结果为： 1 班 80 2 班 75 3 班 NULL ，则最有可能的查询语句是（） A.SELECT AVG(成绩) FROM 成绩表 WHERE classnext=p-nerx;delete p; C.p-next=q-next;delete p; D.p-next=q-next;delete q; E.delete p; F.q-next=p-next;delete q 答案：D 解析：让 p 指向 q 的下一个节点再

9、删除 q 17.（多选）有一个单向链表，头指针和尾指针分别为 p，q，以下哪项操作的复杂度不受队列长度的影响？ A.删除头部元素 B.删除尾部元素 C.头部元素之前插入一个元素 D.尾部元素之后插入一个元素答案：A,C,D 解析：单链表删除元素需要找到尾部元素的前一个元素，与队列长度有关，因此删除尾部元素时，虽然给出了尾指针，但是单链表删除还要知道前一节点,所以还是要遍历一遍才能知道尾指针前一节点既与队列长度有关 18.设有表示学生选课的三张表，学生 S（学号，姓名，性别，年龄，身份证号），课程 C（课号，课名），选课 SC（学号，课号，成绩），则表 SC 的关键字（键或码）为（）。 A.课号，成绩 B.学号，成绩 C.学号，课号 D.学号，姓名，成绩答案：C 解析：学号是学生表 S 的主键，课号是课程表 C 的主键，所以选课表 SC 的关键字就应该是与前两个表能够直接联系且能唯一定义的学号和课号，所以选择 C。 19.S 市 A，B 共有两个区，人口比例为 3：5，据历史统计 A 的犯罪率为 0.01%，B 区为 0.015%，现有一起新案件发生在 S 市，那么案件发生在 A 区的可能性有多大？ A.37.5% B.32.5% C.28.6% D.26.1% 答案：C 解析：在 A 区犯案概率：P(C|A)=0.01% 在 B 区犯案概率：P(C|B)=0.015% 在 A 区概率：P(A)=3/8 在 B 区概率：P(B)=5/8 犯案概率：P(C)=（3/8*0.01%+5/8*0.015%) 则犯案且在A区的概率： P(A|C)=P(C|A)*P(A)/P(C)=0.01%*(3/8)/ （3/8*0.01%+5/8*0.015%)28.6% 20.已知中国人的血型分布约为 A 型： 30%， B 型： 20%， O 型： 40%， AB 型： 10%，则任选一批中国人作为用户调研对象，希望他们中至少有一个是 B 型血的可能性不低于 90%，那么最少需要选多少人? A.7 B.9 C.11 D.13 答案：C 解析：一个人不是 B 型的概率是 1-

《数据分析面试题1》由会员suns****4568分享，可在线阅读，更多相关《数据分析面试题1》请在金锄头文库上搜索。

点击阅读更多内容

TA的资源