
南开大学21秋《大数据开发技术》平时作业二参考答案15.docx
13页南开大学21秋《大数据开发技术》平时作业二参考答案1. GraphX中( )方法可以查询边信息A.numVerticesB.numEdgesC.verticesD.edges参考答案:D2. Spark Streming中DStream可以通过外部数据源(Kafka,Flume,Twitter等)来获取,也可以通过现有DStream的高级操作(Transformation操作)获得 )A.正确B.错误参考答案:A3. var a=10; do{ a+=1;}while(aA.9B.10C.11D.12参考答案:B4. MLlib中Normalizer是一个转换器,它可以将多行向量输入转化为统一的形式 )T.对F.错参考答案:T5. Scala中高阶函数经常将只需要执行多次的函数定义为匿名函数作为参数 )T.对F.错参考答案:F6. 请问RDD的( )操作是根据键对两个RDD进行内连接A.joinB.zipC.combineByKeyD.collect参考答案:A7. Map Task和Reduce Task均由( )启动A.ClientB.Job TrackerC.TaskD.Task Tracker参考答案:D8. 以下哪个不是Scala的数据类型( )A.IntB.Short IntC.LongD.Any参考答案:B9. 云数据库不可以满足大企业的海量数据存储需求。
)A.正确B.错误参考答案:B10. RDD是一个可读写的数据结构 )A.正确B.错误参考答案:B11. var a=10; for(aA.10B.11C.20D.19参考答案:D12. Scala类通过子类化和基于灵活的混合类来进行扩展,作为( )的一个可靠性解决方案A.多态B.虚函数C.派生D.多重继承参考答案:D13. SQL Azure体系结构层中哪层是硬件和操作系统( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案:D14. Mllib中线性会馆算法中的参数intercept表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案:C15. PairRDD可以通过( )获得仅包含键的RDDA.keyB.keysC.valueD.values参考答案:B16. Scala函数组合器可以接收一个可以处理嵌套列表的函数,然后把返回结果连接起来的方法是( )A.mapB.foreachC.flattenD.flatmap参考答案:D17. Spark Streming中Dstream是一种抽象的离散流。
)T.对F.错参考答案:T18. HDFS中客户端在读取到数据后,会采用( )对数据块进行校验,以确定正确性A.md5B.哈希桶C.sha1D.奇偶校验参考答案:AC19. RDD的subtract用于用于将前一个RDD 中在后一个RDD 出现的元素删除 )T.对F.错参考答案:T20. Scala中可以用( )方法来连接两个或多个列表A.::B.#:::C.List.::( )D.List.concat( )参考答案:BCD21. GraphX中graph.edges可以得到( )A.顶点视图B.边视图C.顶点与边的三元组整体视图D.有向图参考答案:B22. Storm框架是实时计算系统,所以不能使用数据库 )A.正确B.错误参考答案:B23. Scala列表方法中输出符号指定条件的所有元素的方法是( )A.dropB.headC.filterD.init参考答案:C24. Spark Streming中对DStream的任何操作都会转化成对底层RDDs的操作 )A.正确B.错误参考答案:A25. Spark Streming中( )函数可以对源DStream中的每一个元素应用func方法进行计算,如果func函数返回结果为true,则保留该元素,否则丢弃该元素,返回一个新的DstreamA.mapB.flatMapC.filterD.union参考答案:C26. MapReduce的main函数中设置输出类型的方法有( )。
A.setOutputKeyClassB.setOutputClassC.setOutputValueClassD.setKeyValueClass参考答案:AC27. RDD中combineByKey不允许返回类型与输入数据类型不同的返回值 )A.正确B.错误参考答案:B28. PairRDD中( )函数可以进行分组A.mapValuesB.groupByC.groupByKeyD.reduceByKey参考答案:BC29. Hive提供了大数据批处理计算功能 )A.正确B.错误参考答案:B30. Spark中运行交互式SQL查询的大规模并行查询引擎是( )A.Spark CoreB.Spark SQLC.BlinkDBD.Mllib参考答案:C31. 流计算系统的需求有( )A.实时性B.廉价C.高性能D.高带宽E.分布式参考答案:ACE32. SQL Azure体系结构层中哪层相当于网关,相当于普通Web系统的逻辑层( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案:B33. 回溯法解旅行售货员问题时的解空间树是( )。
A.子集树B.排列树C.深度优先生成树D.广度优先生成树参考答案:A34. 以下算法中属于分类算法的是( )A.KNN算法B.逻辑回归C.随机森林D.Kmeans参考答案:ABC35. 已得到广泛应用的分布式文件系统主要包括( )A.GFSB.MapReduceC.HbaseD.HDFS参考答案:AD36. Spark Streming中( )函数可以使用func将源DStream中的每个元素进行聚合操作,返回一个内部所包含的RDD只有一个元素的新DStreamA.unionB.reduceC.joinD.cogroup参考答案:B37. 决策树是( )的常用算法A.分类B.聚类C.降维D.回归参考答案:AD38. 数据仓库、专家系统产生于大数据发展的成熟期 )A.正确B.错误参考答案:B39. Hbase中Zookeeper提供了( )A.分布式同步B.组服务C.域名服务D.配置维护参考答案:ABCD40. Scala是Scalable Language的简写,是一门多范式的编程语言,设计初衷是不包括面向对象编程的特性 )A.正确B.错误参考答案:B41. Scala是一种纯面向对象的语言,每个值都是对象。
)T.对F.错参考答案:T42. RDD的sortBy函数包含参数numPartitions,该参数决定排序后的RDD的分区个数,默认排序后的分区个数和排序之前的个数相等,即为this.partitions.size )T.对F.错参考答案:T43. 图是一种数据元素间为( )关系的数据结构A.多对多B.一对一C.一对多D.多对一参考答案:A44. 使用Amazon云环境部署Hadoop的说法中错误的是( )A.Hadoop不仅可以运行在企业内部的集群中,也可以运行在云计算环境中B.Hadoop自带有一套脚本,用于在EC2上面运行HadoopC.在EC2上运行Hadoop尤其适用于一些工作流D.Amazon EC2为Hadoop提供了存储服务参考答案:D45. Scala中如果函数无返回值,则函数返回类型为( )A.NULLB.VoidC.NothingD.Unit参考答案:D46. Pig是Hadoop项目中一种数据仓库工具 )A.正确B.错误参考答案:B47. Pentaho是最流行的开源商业智能软件之一 )A.对B.错参考答案:A48. 分治法的基本思想时将一个规模为n的问题分解为k个规模较小的子问题,这些子问题互相独立且与原问题相同。
递归地解这些子问题,然后将各个子问题的解合并得到原问题的解 )A.错误B.正确参考答案:B49. 问题的最优子结构性质是该问题不可用动态规划算法或贪心算法求解的关键特征 )A.错误B.正确参考答案:A50. Spark中DataFrame的( )方法是查询指定字段的数据信息A.selectB.selectExprC.colD.apply参考答案:ABCD51. 从分治法的一般设计模式可以看出,用它设计出的程序一般是递归算法 )A.错误B.正确参考答案:B52. 图结构中如果任意两个顶点之间都存在边,那么称之为( )A.完全图B.有向完全图C.无向图D.简单图参考答案:A53. ( )和( ),它们把原数据变换或投影到较小的空间A.小波变换B.中心化变换C.主成分分析D.对数变换参考答案:AC54. Scala函数组合器可以通过一个函数重新计算列表中所有元素,没有返回值 )A.正确B.错误参考答案:B55. 对于不同顶点之间的信息交换,Pregel采用了( )A.远程数据读取B.共享内存C.纯消息传递模型D.共享消息参考答案:C56. 使用分治法求解不需要满足的条件是( )。
A.子问题必须是一样的B.子问题不能够重复C.子问题的解可以合并D.原问题和子问题使用相同的方法解参考答案:A57. Scala在子类中重写超类的抽象方法时,需要使用override关键字 )T.对F.错参考答案:F58. 设计动态规划算法的主要步骤不包括根据计算最优值时。












