电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

南开在线考核《大数据开发技术(二)》19秋期末考核答卷

7页
  • 卖家[上传人]:哼****
  • 文档编号:126777987
  • 上传时间:2020-03-27
  • 文档格式:DOC
  • 文档大小:26.50KB
  • / 7 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、注意答案顺序,核对好了在下载。一定注意答案顺序!大数据开发技术(二)19秋期末考核-0001一、单选题 (共 15 道试题,共 30 分)1.GraphX中()是存放着Edg对象的RDDA.VertexRDDB.RDD(VertexId,VD)C.RDDEdgeD.EdgeRDD答案:C2.GraphX中graph.vertices可以得到()A.顶点视图B.顶点与边的三元组整体视图C.边视图D.有向图答案:A3.Scala中哪个函数可以创建区间数组()A.rangeB.ofDimC.fillD.concat答案:A4.var a=10; while(a20) a+=1; 共循环了()次A.9B.12C.11D.10答案:D5.Scala通过()来定义变量A.valB.valC.defineD.def答案:A6.Scala中()方法返回一个列表,包含除了第一个元素之外的其他元素A.tailB.lastC.initD.head答案:A7.Spark GraphX中类Graph的reverse方法可以()A.按照设定条件取出子图B.合并边相同的属性C.取两个图的公共顶点和边作为新图,并保持

      2、前一个图顶点与边的属性D.反转图中所有边的方向答案:D8.Spark中运行交互式SQL查询的大规模并行查询引擎是()A.Spark SQLB.Spark CoreC.MllibD.BlinkDB答案:D9.Spark中DataFrame的()方法是进行连接查询A.whereB.limitC.joinD.apply答案:C10.Spark中的每个RDD一般情况下是由()个分区组成的A.无数B.多C.1D.0答案:B11.Scala列表中()可以表示为一个空列表A.NoneB.NillC.NilD.List答案:C12.Spark Streming中()函数当被调用类型分别为(K,V)和(K,W)键值对的2个DStream 时,返回类型为(K,(V,W)键值对的一个新 DStream。A.unionB.reduceC.joinD.cogroup答案:D13.Spark GraphX中类Graph的aggregateMessages方法可以()A.收集邻居顶点的顶点Id和顶点属性B.收集邻居顶点的顶点IdC.将顶点信息更新到图中D.向指定顶点发送信息并聚合信息答案:D14.GraphX中()

      3、是完整提供边的各种操作类A.VertexRDDB.RDD(VertexId,VD)C.RDDEdgeD.EdgeRDD答案:D15.Scala函数组合器可以接收一个可以处理嵌套列表的函数,然后把返回结果连接起来的方法是()A.mapB.foreachC.flattenD.flatmap答案:D二、多选题 (共 10 道试题,共 20 分)16.TF-IDF中TF指的是()A.逆文档概率B.词频C.词在文档集中出现的概率D.词在文档集中出现的概率E.词在文档中出现的次数答案:BE17.Spark SQL可以处理()A.RDDB.Parquet文件C.JSON文件D.Hive表答案:ABCD18.以下哪个方法可以创建RDD()A.textFileB.parallelizeC.makeRDDD.loadFile答案:ABC19.Spark DataFrame中()方法可以返回一个ListA.takeAsListB.takeC.collectAsListD.collect答案:AC20.TF-IDF中IDF指的是()A.逆文档概率B.词频C.词在文档集中出现的概率D.词在文档集中出现的概率E.

      4、词在文档中出现的次数答案:AC21.以下算法中属于监督学习算法的是()A.随机森林B.逻辑回归C.KmeansD.KNN算法答案:ABD22.MLlib中进行数据标准化的方式有()A.StandardScaleerB.StandardC.NormalizerD.MinMaxScaler答案:ACD23.以下哪种方法可以让Spark不自定义分区也能对任何类型RDD 简单重分区()A.resetpartitionB.repartitonC.coalesceD.Partition答案:BC24.Spark是一个()计算框架A.快速B.容错C.可扩展D.分布式答案:ABCD25.Scala支持()A.高阶函数B.柯里化C.匿名函数D.函数嵌套答案:ABCD三、判断题 (共 10 道试题,共 20 分)26.RDD是一个可读写的数据结构答案:错误27.Scala函数组合器中flatmap结合了map和flatten的功能,接收一个可以处理嵌套列表的函数,然后把返回结果连接起来答案:正确28.RDD的sortBy排序默认是升序答案:正确29.Spark中DataFrame 的查询操作也是一个懒操作

      5、, 仅仅生成一个查询计划, 只有触发Action 操作才会进行计算并返回查询结果。答案:正确30.Scala中高阶函数可以产生新的函数,并将新的函数作为返回值。答案:正确31.默认情况下,Scala 使用的是可变集合答案:错误32.RDD的转换操作是用于触发转换操作的操作,这个时候才会真正开始进行计算。答案:错误33.键值对RDD由一组组的键值对组成,这些RDD被称为PairRDD。答案:正确34.PairRDD中groupBy(func)func返回key,传入的RDD的各个元素根据这个key进行分组。答案:正确35.Dstream输出操作中foreachRDD的正确用法是使用rdd.foreachPartition方法创建一个单独的连接对象,然后使用该连接对象输出所有RDD分区中的数据到外部系统答案:正确四、主观填空题 (共 5 道试题,共 10 分)36.Scala函数组合器可以把一个二维的列表展开成一个一维的列表的方法是#答案:flatten37.Scala中定义函数的关键字是#答案:def38.图中以当前顶点为目标点的边的数量是#度数答案:入39.Spark SQL 可以通过

      6、#方法将HDFS 上的格式化文件转换为DataFrame答案:load40.Mllib中线性会馆算法中的参数reParam默认值是#答案:1五、问答题 (共 3 道试题,共 12 分)41.请描述图计算应用中的Google的PageRank网页排名答案:PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票,Google根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。PageRank是通过网页之间的链接网络图计算网页等级的,是Google网页排名中的重要算法。42.请阐述Spark的生态圈答案:(1)Spark Core:Spark核心,提供底层框架及核心支持。包含Spark的基本功能,包括任务调度、内存管理、容错机制等。(2)BlinkDB:一个用于在海量数据上运行交互式SQL查询的大规模并行查询引擎。(3)Spark SQL:可以执行SQL查询,包括基本的SQL语法和HiveQL语法。(4)Spark Streaming:流式计算。(5)MLBase:专注于机器学习,让机器学习的

      7、门槛更低,让一些可能并不了解机器学习的用户也能方便地使用MLBase。(6)MLlib:MLBase的一部分,MLlib是Spark的数据挖掘算法库,实现了一些常见的机器学习算法和实用程序,包括分类、回归、聚类、协同过滤、降维以及底层优化。(7)GraphX:内置了很多的图相关算法。(8)SparkR:SparkR是AMPLab发布的一个R开发包,使得R摆脱单机运行的命运,可以作为Spark的Job运行在集群上,极大地扩展了R的数据处理能力。43.请概括使用Spark Streaming的四个基本步骤答案:1)创建StreamingContext对象2)创建InputDStream3)操作DStream4)启动Spark Streaming六、名词解释 (共 2 道试题,共 8 分)44.Spark GraphX答案:Spark GraphX是一个分布式图处理框架,是一个基于Spark平台提供图计算和图挖掘的简洁易用且丰富多彩的接口,极大地方便了大家对分布式图处理的需求。45.SparkContext答案:SparkContext是Spark应用程序的上下文和入口,无论是Scala、Python、R程序,都是通过SparkContext对象的实例来创建RDD,Spark Shell中的sc就是SparkContext对象的实例。

      《南开在线考核《大数据开发技术(二)》19秋期末考核答卷》由会员哼****分享,可在线阅读,更多相关《南开在线考核《大数据开发技术(二)》19秋期末考核答卷》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
     
    收藏店铺
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.