
南开大学21秋《数据科学导论》离线作业2答案第39期.docx
11页南开大学21秋《数据科学导论》离线作业2-001答案1. 一元回归参数估计的参数求解方法有( )A.最大似然法B.距估计法C.最小二乘法D.欧式距离法参考答案:ABC2. 对于k近邻法,下列说法错误的是( )对于k近邻法,下列说法错误的是( )A.不具有显式的学习过程B.适用于多分类任务C.k值越大,分类效果越好D.通常采用多数表决的分类决策规则参考答案:C3. 多层感知机的学习过程包含( )A.信号的正向传播B.信号的反向传播C.误差的正向传播D.误差的反向传播参考答案:AD4. 内存分析数据量比BI分析数据量大 )T.对F.错参考答案:F5. 赤池信息准则是衡量统计模型拟合优良性的一种标准 )A.正确B.错误参考答案:A6. 子集产生本质上是一个搜索过程,该过程可以从空集、随机产生的一个特征子集或者整个特征集开始 )A.正确B.错误参考答案:A7. 统计图表的可视化方法主要包括( )A.散点图B.折线图C.条形图D.饼图参考答案:ABCD8. 朴素贝叶斯分类器有简单、高效、健壮的特点,但某些属性可能会降低分类器的性能 )A.正确B.错误参考答案:A9. 给定一组点,使用点之间的距离概念,将点分组为若干簇,不同簇的成员可以相同。
)A.正确B.错误参考答案:B10. 数据变换(Data Transformation)的方法有( )A.光滑B.聚集C.数据泛化D.规范化参考答案:ABCD11. 局部变量若与全局变量重名,则不能在函数内部创建和使用 )A.正确B.错误参考答案:B12. 决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得各个子数据集有一个最好的分类的过程,这一过程对应着特征空间的划分,也对应着决策树的构建 )A.正确B.错误参考答案:A13. Apriori算法的计算复杂度受( )影响A.支持度阈值B.项数C.事务数D.事务平均宽度参考答案:ABCD14. 非结构化数据是指非纯文本类数据,没有标准格式,无法直接解析出相应的值 )T.对F.错参考答案:T15. 梦幻西游手游空间有什么用?梦幻西游手游空间有什么用?玩家可以在空间中上传照片、编辑个性签名,而且还可以放置礼物,让其他玩家来踩,有机会获得踩空间的奖励哦16. 多元线性回归是线性回归的扩充,其中涉及的属性多于两个,并且数据拟合到一个多维曲面 )T.对F.错参考答案:T17. 大话西游手游浣彩露有什么用?大话西游手游浣彩露有什么用?浣彩露是人物染色最主要的材料,仙人们浣形易色的必备品,据传为云霞仙子把流动的彩虹吸入琉璃瓶中而成的奇珍妙露。
18. 在Python3.5中,集合类型的各个元素之间存在先后顺序 )A.正确B.错误参考答案:B19. 多层感知机的学习能力有限,只能处理线性可分的二分类问题 )A.正确B.错误参考答案:B20. 聚类的最简单最基本方法是( )A.划分聚类B.层次聚类C.密度聚类D.距离聚类参考答案:A21. 考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5};假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含( )A.1,2,3,4B.1,2,3,5C.1,2,4,5D.1,3,4,5参考答案:C22. K-means算法采用贪心策略,通过迭代优化来近似求解 )A.正确B.错误参考答案:A23. 在有统计学意义的前提下,标准化偏回归系数的绝对值越大,说明相应的自变量对y的作用( )A.越小B.越大C.无关D.不确定参考答案:B24. 以下哪一项不属于数据变换?( )A.简单函数变换B.规范化C.属性合并D.连续属性离散化参考答案:C25. 一个HDFS集群由一个( )和( )构成。
此外,还有与这两个角色之间作为沟通桥梁的客户端(Client)A.一个名字节点B.若干个名字节点C.一个数据节点D.若干个数据节点参考答案:AD26. 使用SVD方法进行图像压缩不可以保留图像的重要特征 )A.正确B.错误参考答案:B27. k近邻法的基本要素包括( )A.距离度量B.k值的选择C.样本大小D.分类决策规则参考答案:ABD28. 购物篮问题是( )的典型案例A.数据变换B.关联规则挖掘C.数据分类参考答案:B29. 标准BP算法是在读取全部数据集后,对参数进行统一更新的算法 )A.正确B.错误参考答案:B30. 2002年博客引进中国,建立的第一个博客网站是新浪博客 )2002年博客引进中国,建立的第一个博客网站是新浪博客 )答案:错误31. 下列不属于商业大数据类型的是( )A.传统企业数据B.机器和传感器数据C.社交数据D.电子商务数据参考答案:B32. K-means聚类中K值选取的方法是( )A.密度分类法B.手肘法C.大腿法D.随机选取参考答案:AB33. 网络营销渠道应具有的功能是( )A:配送功能B:订货功能C:结算功能D:市场拓展功能网络营销渠道应具有的功能是( )A:配送功能B:订货功能C:结算功能D:市场拓展功能答案:ABC34. 地下城与勇士(DNF)使用加百利后,队长怎么无法进行再次挑战等操作?地下城与勇士(DNF)使用加百利后,队长怎么无法进行再次挑战等操作?1、组队后,如果有用户使用加百利秘密商店或者点击出现了加百利商店的交易界面,那么队长无法选择再次挑战、选择其他地下城、返回城镇等菜单;2、加百利只出现三分钟,三分钟后秘密商店自动关闭,届时队长即可进行再次挑战、选择其他地下城及返回城镇等操作。
35. 我们需要对已生成的树( )进行剪枝,将树变得简单,从而使它具有更好的泛化能力A.自上而下B.自下而上C.自左而右D.自右而左参考答案:B36. continue结束整个循环过程,不再判断循环的执行条件 )A.正确B.错误参考答案:B37. 地下城与勇士(DNF)TP提示码(3,172000xx,x)是什么意思?地下城与勇士(DNF)TP提示码(3,172000xx,x)是什么意思?请查杀病毒和木马,重启机器后再试38. 下列两个变量之间的关系中,哪个是函数关系?( )A.人的性别和他的身高B.人的工资与年龄C.正方形的面积和边长D.温度与湿度参考答案:C39. 给定一个数据集,如果存在某个超平面S能够将数据集的部分正实例点和负实例点正确的划分到超平面的两侧,则称该数据集是线性可分数据集 )A.正确B.错误参考答案:B40. 广义的Spark是指Spark生态系统,采用了四层架构 )T.对F.错参考答案:T41. 去除噪声使得数据光滑的技术主要有:( )A.分箱B.回归C.离群点分析参考答案:ABC42. 简述数据可视化的流程和步骤参考答案:数据可视化是对数据的综合运用,其操作包括数据获取、数据处理、可视化模式和可视化应用4个步骤。
1)数据获取 数据获取的形式多种多样,大致可以分为主动式和被动式两种主动式获取是以明确的数据需求为目的,利用相关技术手段主动采集相关数据,如卫星影像、测绘工程等;被动式获取是以数据平台为基础,由数据平台的活动者提供数据来源,如电子商务网站、网络论坛等 2)数据处理 数据处理是指对原始的数据进行分析、预处理和计算等步骤数据处理的目标是保证数据的准确性、可用性等 3)可视化模式 可视化模式是数据的一种特殊展现形式,常见的可视化模式有标签云、序列分析、网络结构、电子地图等可视化模式的选取决定了可视化方案的雏形 4)可视化应用 可视化应用主要根据用户的主观需求展开,最主要的应用方式是用来观察和展示,通过观察和人脑分析进行推理和认知,辅助人们发现新知识或者得到新结论可视化界面也可以帮助人们进行人与数据的交互,辅助人们完成对数据的迭代计算,通过若干步,数据的计算实验,生产系列化的可视化成果43. FP是一种最有影响的挖掘布尔关联规则频繁项集的算法 )T.对F.错参考答案:F44. Python中定义函数的关键字是( )A.defB.defineC.functionD.defunc参考答案:A45. 属性或维命名的不一致也可能导致结果数据集中的数据冗余。
)T.对F.错参考答案:T46. 按照程序设计语言的发展历程进行分类,Python可以归类为( )A.高级语言B.自然语言C.汇编语言D.机器语言参考答案:A47. 天涯明月刀是否能充值?天涯明月刀是否能充值?能充值,比例为1QB:100点券48. 标准BP算法是在读取全部数据集后,对参数进行统一更新的算法 )标准BP算法是在读取全部数据集后,对参数进行统一更新的算法 )A.正确B.错误参考答案:B49. 利用最小二乘法对多元线性回归进行参数估计时,其目标为( )A.最小化方差B.最小化残差平方和C.最大化信息熵D.最小化标准差参考答案:C50. 医疗健康数据的基本情况不包括以下哪项?( )A.诊疗数据B.个人健康管理数据C.公共安全数据D.健康档案数据参考答案:C。





![河南新冠肺炎文件-豫建科[2020]63号+豫建科〔2019〕282号](http://img.jinchutou.com/static_www/Images/s.gif)






