好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

南开大学21春《大数据开发技术》离线作业一辅导答案18.docx

11页
  • 卖家[上传人]:re****.1
  • 文档编号:471404820
  • 上传时间:2023-01-16
  • 文档格式:DOCX
  • 文档大小:12.92KB
  • / 11 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 南开大学21春《大数据开发技术》离线作业一答案1. Scala列表方法中使用分隔符将列表所有元素作为字符串显示的方法是( )A.filterB.foreachC.mapD.mkString参考答案:D2. RDD的flatMap操作是将函数应用于RDD之中的每一个元素,将返回的迭代器(数组、列表等)中的所有元素构成新的RDD )A.正确B.错误参考答案:A3. Gartner研究机构给出的大数据定义是大数据一般会涉及两种或两种以上的数据形式,它需要收集超过100TB的数据,并且是高速实时数据流; 或者是从小数据开始,但数据每年增长速率至少为60% )A.对B.错参考答案:B4. 对于不同顶点之间的信息交换,Pregel采用了( )A.远程数据读取B.共享内存C.纯消息传递模型D.共享消息参考答案:C5. Hbase采用( )作为底层数据存储A.HDFSB.GFSC.HbaseD.传统文件系统参考答案:A6. 算法的复杂性没有时间复杂性和空间复杂性之分 )A.错误B.正确参考答案:A7. Spark Streming中( )函数可以合并两个DStream,生成一个包含两个DStream中所有元素的新DStream对象A.mapB.flatMapC.filterD.union参考答案:D8. 采用贪心算法的最优装载问题的主要计算量在于将集装箱依其重量从小到大排序,故算法的时间复杂度为( )。

      A.O(n2n)B.O(nlogn)C.O(2n)D.O(n)参考答案:B9. 亚马逊的云服务提供了多达几十种服务,涵盖了IaaS、PaaS、SaaS这三层 )A.正确B.错误参考答案:A10. 回溯法搜索解空间树时,常用的两种剪枝函数为约束函数和限界函数 )A.错误B.正确参考答案:B11. 下面是贪心算法的基本要素的是( )A.重叠子问题B.构造最优解C.贪心选择性质D.定义最优解参考答案:C12. 贪心选择性质是贪心算法可行的第一个基本要素,也是贪心算法与动态规划算法的主要区别 )A.错误B.正确参考答案:B13. SQL Azure体系结构层中哪层是硬件和操作系统( )A.Client LayerB.Services LayerC.Platform. LayerD.Infrastructure Layer参考答案:D14. 使用Amazon云环境部署Hadoop的说法中错误的是( )A.Hadoop不仅可以运行在企业内部的集群中,也可以运行在云计算环境中B.Hadoop自带有一套脚本,用于在EC2上面运行HadoopC.在EC2上运行Hadoop尤其适用于一些工作流D.Amazon EC2为Hadoop提供了存储服务参考答案:D15. Scala是Scalable Language的简写,是一门多范式的编程语言,设计初衷是不包括面向对象编程的特性。

      )T.对F.错参考答案:F16. Spark的RDD持久化操作有( )方式A.cacheB.presistC.storageD.long参考答案:AB17. 在图结构中,每个元素都可以有( )前驱A.至少一个B.零个或多个C.一个D.零个参考答案:B18. Scala中如果函数无返回值,则函数返回类型为( )A.NULLB.VoidC.NothingD.Unit参考答案:D19. Scala 集合分为可变的和不可变的集合 )A.正确B.错误参考答案:A20. 以下哪个是Scala的数据类型( )A.AnyB.NULLC.NothingD.AnyRef参考答案:ABCD21. Mllib中线性会馆算法中的参数reParam表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案:D22. HDFS的命名空间包含( )A.节点B.目录C.文件D.块参考答案:BCD23. 大数据处理的关键技术主要包括:数据采集和预处理、数据存储、数据计算架构、数据分析和挖掘、数据可视化展示等 )A.对B.错参考答案:A24. 设计动态规划算法的主要步骤有5步。

      )A.错误B.正确参考答案:A25. Scala是Scalable Language的简写,是一门多范式的编程语言,设计初衷是不包括面向对象编程的特性 )A.正确B.错误参考答案:B26. Mllib中线性会馆算法中的参数numIterations表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案:A27. Storm中如果要让每一个Task都会收到所有的Tuple,应该采用哪种Stream Groupings( )A.ShuffleGroupingB.AllGroupingC.GlobalGroupingD.FiedlsGrouping参考答案:B28. Mllib中线性会馆算法中的参数intercept表示( )A.要运行的迭代次数B.梯度下降的步长C.是否给数据加干扰特征或者偏差特征D.Lasso和ridge的正规化参数参考答案:C29. GraphX中( )方法可以释放边缓存A.cacheB.presistC.unpersistVerticesD.edges.unpersist参考答案:D30. NAS是一种采用直接与网络介质相连的特殊设备实现数据存储的模式。

      )A.对B.错参考答案:A31. Scala函数组合器可以通过一个函数重新计算列表中所有元素,没有返回值 )A.正确B.错误参考答案:B32. 大数据时代预测人类移动行为的数据来源有( )A.志愿者定位数据B.装有导航设备的出租车轨迹数据C.终端定位于通讯记录D.社会网络签到数据参考答案:ABCD33. 下列Scala代码应输出( ):var a=0;var b=0var sum=0;for(a-1 until 3; b-1 until 3) {sum+=a+b;}println(sum);A.36B.35C.11D.12参考答案:D34. 0-1背包问题的回溯算法所需的计算时间为( )A.O(n2n)B.O(nlogn)C.O(2n)D.O(n)参考答案:A35. 以下属于Hadoop的安装方式的有( )A.单机模式B.多机模式C.分布式模式D.并行模式E.伪分布式模式参考答案:ACE36. TF-IDF中TF指的是( )A.词频B.词在文档中出现的次数C.逆文档概率D.词在文档集中出现的概率E.词在文档集中出现的概率参考答案:AB37. Spark中DataFrame的( )方法是查询指定字段的数据信息A.selectB.selectExprC.colD.apply参考答案:ABCD38. 交通数据的来源包括车辆GPS数据,人类移动的GPS位置信息或者单位站点记录,和监视设备的视频图像技术记录。

      )A.对B.错参考答案:A39. Pig是Hadoop项目中一种数据仓库工具 )A.正确B.错误参考答案:B40. Spark持久化RDD后,在再一次需要计算该RDD时将需要重新计算 )A.正确B.错误参考答案:B41. Scala类通过子类化和基于灵活的混合类来进行扩展,作为( )的一个可靠性解决方案A.多态B.虚函数C.派生D.多重继承参考答案:D42. 1秒定律体现了大数据的哪个特征( )A.数据量大B.数据产生速度快C.数据存储快D.数据计算快参考答案:B43. 关系数据库与NoSQL数据库相比适用于哪些领域( )A.电信B.银行C.互联网企业大数据处理D.传统企业的数据分析参考答案:AB44. MLlib中进行数据标准化的方式有( )A.NormalizerB.StandardC.StandardScaleerD.MinMaxScaler参考答案:ACD45. 数据采集,又称数据获取,是大数据生命周期的第一个环节,通过RFID.射频识别技术,传感器,交互型社交网络,移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据 )A.对B.错参考答案:A46. 分支限界法解旅行售货员问题时,活结点表的组织形式是( )。

      A.最小堆B.最大堆C.栈D.数组参考答案:A47. RDD的sortBy排序默认是升序 )T.对F.错参考答案:T48. 用户可以在Apache Mesos上运行Spark )T.对F.错参考答案:T49. 传统数据处理流程,用户需要主动发起查询或者定时查询;流处理流程中,可以实时查询 )A.正确B.错误参考答案:A50. 大数据技术也能帮助政府进行支出管理,透明合理的财政支出将有利于提高公信力和监督财政支出 )A.对B.错参考答案:A。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.