[南开大学]20春学期《大数据开发技术（二）》在线作业-1（答案100分）

资源ID：135285799 资源大小：47.50KB 全文页数：9页
资源格式： DOC 下载积分：2金贝

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要2金贝

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

1、金锄头文库是“C2C”交易模式，即卖家上传的文档直接由买家下载，本站只是中间服务平台，本站所有文档下载所得的收益全部归上传人（卖家）所有，作为网络服务商，若您的权利被侵害请及时联系右侧客服；
2、如你看到网页展示的文档有jinchutou.com水印，是因预览和防盗链等技术需要对部份页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有jinchutou.com水印标识，下载后原文更清晰；
3、所有的PPT和DOC文档都被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；下载前须认真查看，确认无误后再购买；
4、文档大部份都是可以预览的，金锄头文库作为内容存储提供商，无法对各卖家所售文档的真实性、完整性、准确性以及专业性等问题提供审核和保证，请慎重购买；
5、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据；
6、如果您还有什么不清楚的或需要我们协助，可以点击右侧栏的客服。

下载须知 | 常见问题汇总

1、会员注册 2、如何支付与充值 3、个人资料信息修改 4、我的收藏和“收藏文件夹” 5、我的读者群和加入读者群 6、我的书签 7、金锄头文库批量上传工具（绿色版）V1.0 8、下载文档（资源）相关问题整理 9、解决下载文档时，自动弹出迅雷的问题 10、下载时为什么支付不成功？

[南开大学]20春学期《大数据开发技术（二）》在线作业-1（答案100分）

谋学网www.mouxue.com【奥鹏】-南开大学20春学期（1709、1803、1809、1903、1909、2003）大数据开发技术（二）在线作业试卷总分:100 得分:100第1题,Spark中DataFrame的（）方法是进行条件查询A、whereB、joinC、limitD、apply正确答案:A第2题,Dstream输出操作中print方法在Driver中打印出DStream中数据的()元素。A、第一个B、所有C、前10个D、前100个正确答案:C第3题,Scala元组的值是通过将单个的值包含在（）中构成的A、小括号B、中括号C、大括号D、尖括号正确答案:A第4题,当需要将一个普通的RDD转化为一个PairRDD时可以使用（）函数来进行操作A、transferB、changeC、mapD、build正确答案:C第5题,以下哪个函数可以求两个RDD交集（）A、unionB、substractC、intersectionD、cartesian正确答案:C第6题,以下哪个函数可以求两个RDD差集（）A、unionB、substractC、intersectionD、cartesian正确答案:B第7题,spark-submit配置项中（）表示executor使用的总核数A、-num-executors NUMB、-executor-memory MEMC、-total-executor-cores NUMD、-executor-coures NUM正确答案:C第8题,GraphX中（）方法可以释放顶点缓存A、cacheB、presistC、unpersistVerticesD、edges.unpersist正确答案:C第9题,以下哪个方法可以从外部存储中创建RDD（）A、parallelizeB、makeRDDC、textFileD、loadFile正确答案:C第10题,Scala可以使用（）关键字实现单例模式A、objectB、staticC、privateD、public正确答案:A第11题,以下哪个不是Scala的数据类型（）A、IntB、Short IntC、LongD、Any正确答案:B第12题,Mllib中metrics.precisionByThreshold表示（）指标A、准确度B、召回率C、F值D、ROC曲线正确答案:A第13题,图的结构通常表示为：G(V,E)，其中，E是图G中()A、顶点B、顶点的集合C、边D、边的集合正确答案:D第14题,请问RDD的（）操作用于将相同键的数据聚合A、joinB、zipC、combineByKeyD、collect正确答案:C第15题,Mllib中metrics.recallByThreshold表示（）指标A、准确度B、召回率C、F值D、ROC曲线正确答案:B第16题,GraphX中EdgeRDD继承自（）A、EdgeRDDB、RDDEdgeC、VertexRDDVDD、RDD(VertexId，VD)正确答案:B第17题,Dstream输出操作中（）方法将DStream中的内容以文本的形式保存为文本文件A、printB、saveAsTextFilesC、saveAsObjectFilesD、saveAsHadoopFiles正确答案:B第18题,GraphX中（）方法可以查询顶点信息A、numVerticesB、numEdgesC、verticesD、edges正确答案:C第19题,Scala通过（）来定义变量A、valB、valC、defineD、def正确答案:A第20题,Mllib中线性会馆算法中的参数reParam表示（）A、要运行的迭代次数B、梯度下降的步长C、是否给数据加干扰特征或者偏差特征D、Lasso 和ridge 的正规化参数正确答案:D第21题,Scala中（）方法返回Map所有的valueA、keyB、keysC、valueD、values正确答案:D第22题,Scala列表方法中返回所有元素，除了最后一个的方法是（）A、dropB、headC、filterD、init正确答案:D第23题,Spark Streming中（）函数可以使用func将源DStream中的每个元素进行聚合操作，返回一个内部所包含的RDD只有一个元素的新DStreamA、unionB、reduceC、joinD、cogroup正确答案:B第24题,PairRDD可以通过（）获得仅包含键的RDDA、keyB、keysC、valueD、values正确答案:B第25题,Scala中（）方法返回Map所有的keyA、keyB、keysC、valueD、values正确答案:B第26题,以下哪个是Scala的数据类型（）A、AnyB、NULLC、NothingD、AnyRef正确答案:A,B,C,D第27题,以下算法中属于分类算法的是（）A、KNN算法B、逻辑回归C、随机森林D、Kmeans正确答案:A,B,C第28题,Spark的RDD持久化操作有()方式A、cacheB、presistC、storageD、long正确答案:A,B第29题,Spark Streaming的特点有（）A、单极性B、可伸缩C、高吞吐量D、容错能力强正确答案:B,C,D第30题,Spark Streaming能够和（）无缝集成A、HadoopB、Spark SQLC、MllibD、GraphX正确答案:B,C,D第31题,Scala系统支持（）作为对象成员A、通用类B、内部类C、抽象类D、复合类正确答案:A,B,C,D第32题,Scala中可以用（）方法来连接两个或多个列表A、:B、#:C、List.:()D、List.concat()正确答案:B,C,D第33题,Spark DataFrame中（）方法可以返回一个ListA、collectB、takeC、takeAsListD、collectAsList正确答案:C,D第34题,Spark DataFrame中（）方法可以返回一个Array对象A、collectB、takeC、takeAsListD、collectAsList正确答案:A,B第35题,Spark可以通过哪些外部存储创建RDD（）A、文本文件B、目录C、压缩文件D、通配符匹配的文件正确答案:A,B,C,D第36题,Spark只有键值对类型的RDD才能设置分区方式T、对F、错正确答案:T第37题,Scala中列表是可变的T、对F、错正确答案:F第38题,RDD的转换操作是用于触发转换操作的操作，这个时候才会真正开始进行计算。T、对F、错正确答案:F第39题,Spark取代Hadoop仅仅是取代MapReduce这种计算框架，Spark可以取代HDFS吗T、对F、错正确答案:F第40题,Spark在同一个应用中不能同时使用Spark SQL和MllibT、对F、错正确答案:F第41题,val如同Java里面的非final变量，可以在它的声明周期中被多次赋值。T、对F、错正确答案:F第42题,Scala 配备了一种表现型的系统，它以静态的方式进行抽象，以安全和连贯的方式进行使用。T、对F、错正确答案:T第43题,RDD的mapPartitions操作会导致Partitions数量的变化T、对F、错正确答案:F第44题,RDD的flatMap操作是将函数应用于RDD 之中的每一个元素，将返回的迭代器(数组、列表等)中的所有元素构成新的RDD 。T、对F、错正确答案:T第45题,RDD的subtract用于用于将前一个RDD 中在后一个RDD 出现的元素删除T、对F、错正确答案:T第46题,MLlib中StandardScaler处理的对象是每一列，也就是每一维特征，将特征标准化为单位标准差或是0均值，或是0均值单位标准差。T、对F、错正确答案:T第47题,RDD的filter函数返回一个存储符合过滤条件的所有元素的新RDDT、对F、错正确答案:T第48题,用户可以在Apache Mesos上运行SparkT、对F、错正确答案:T第49题,RDD中join操作根据键对两个RDD进行内连接，将两个RDD 中键相同的数据的值相加。T、对F、错正确答案:F第50题,PairRDD中groupByKey是对具有相同键的值进行分组T、对F、错正确答案:T

注意事项

本文（[南开大学]20春学期《大数据开发技术（二）》在线作业-1（答案100分））为本站会员（j****u）主动上传，金锄头文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即阅读金锄头文库的“版权提示”【网址:https://www.jinchutou.com/h-59.html】，按提示上传提交保证函及证明材料，经审查核实后我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。