[南开大学]20春学期《大数据开发技术(二)》在线作业-1(答案100分)
谋学网www.mouxue.com【奥鹏】-南开大学20春学期(1709、1803、1809、1903、1909、2003)大数据开发技术(二)在线作业试卷总分:100 得分:100第1题,Spark中DataFrame的()方法是进行条件查询A、whereB、joinC、limitD、apply正确答案:A第2题,Dstream输出操作中print方法在Driver中打印出DStream中数据的()元素。A、第一个B、所有C、前10个D、前100个正确答案:C第3题,Scala元组的值是通过将单个的值包含在()中构成的A、小括号B、中括号C、大括号D、尖括号正确答案:A第4题,当需要将一个普通的RDD转化为一个PairRDD时可以使用()函数来进行操作A、transferB、changeC、mapD、build正确答案:C第5题,以下哪个函数可以求两个RDD交集 ()A、unionB、substractC、intersectionD、cartesian正确答案:C第6题,以下哪个函数可以求两个RDD差集 ()A、unionB、substractC、intersectionD、cartesian正确答案:B第7题,spark-submit配置项中()表示executor使用的总核数A、-num-executors NUMB、-executor-memory MEMC、-total-executor-cores NUMD、-executor-coures NUM正确答案:C第8题,GraphX中()方法可以释放顶点缓存A、cacheB、presistC、unpersistVerticesD、edges.unpersist正确答案:C第9题,以下哪个方法可以从外部存储中创建RDD()A、parallelizeB、makeRDDC、textFileD、loadFile正确答案:C第10题,Scala可以使用()关键字实现单例模式A、objectB、staticC、privateD、public正确答案:A第11题,以下哪个不是Scala的数据类型()A、IntB、Short IntC、LongD、Any正确答案:B第12题,Mllib中metrics.precisionByThreshold表示()指标A、准确度B、召回率C、F值D、ROC曲线正确答案:A第13题,图的结构通常表示为:G(V,E),其中,E是图G中()A、顶点B、顶点的集合C、边D、边的集合正确答案:D第14题,请问RDD的()操作用于将相同键的数据聚合A、joinB、zipC、combineByKeyD、collect正确答案:C第15题,Mllib中metrics.recallByThreshold表示()指标A、准确度B、召回率C、F值D、ROC曲线正确答案:B第16题,GraphX中EdgeRDD继承自()A、EdgeRDDB、RDDEdgeC、VertexRDDVDD、RDD(VertexId,VD)正确答案:B第17题,Dstream输出操作中()方法将DStream中的内容以文本的形式保存为文本文件A、printB、saveAsTextFilesC、saveAsObjectFilesD、saveAsHadoopFiles正确答案:B第18题,GraphX中()方法可以查询顶点信息A、numVerticesB、numEdgesC、verticesD、edges正确答案:C第19题,Scala通过()来定义变量A、valB、valC、defineD、def正确答案:A第20题,Mllib中线性会馆算法中的参数reParam表示()A、要运行的迭代次数B、梯度下降的步长C、是否给数据加干扰特征或者偏差特征D、Lasso 和ridge 的正规化参数正确答案:D第21题,Scala中()方法返回Map所有的valueA、keyB、keysC、valueD、values正确答案:D第22题,Scala列表方法中返回所有元素,除了最后一个的方法是()A、dropB、headC、filterD、init正确答案:D第23题,Spark Streming中()函数可以使用func将源DStream中的每个元素进行聚合操作,返回一个内部所包含的RDD只有一个元素的新DStreamA、unionB、reduceC、joinD、cogroup正确答案:B第24题,PairRDD可以通过()获得仅包含键的RDDA、keyB、keysC、valueD、values正确答案:B第25题,Scala中()方法返回Map所有的keyA、keyB、keysC、valueD、values正确答案:B第26题,以下哪个是Scala的数据类型()A、AnyB、NULLC、NothingD、AnyRef正确答案:A,B,C,D第27题,以下算法中属于分类算法的是()A、KNN算法B、逻辑回归C、随机森林D、Kmeans正确答案:A,B,C第28题,Spark的RDD持久化操作有()方式A、cacheB、presistC、storageD、long正确答案:A,B第29题,Spark Streaming的特点有()A、单极性B、可伸缩C、高吞吐量D、容错能力强正确答案:B,C,D第30题,Spark Streaming能够和()无缝集成A、HadoopB、Spark SQLC、MllibD、GraphX正确答案:B,C,D第31题,Scala系统支持()作为对象成员A、通用类B、内部类C、抽象类D、复合类正确答案:A,B,C,D第32题,Scala中可以用()方法来连接两个或多个列表A、:B、#:C、List.:()D、List.concat()正确答案:B,C,D第33题,Spark DataFrame中()方法可以返回一个ListA、collectB、takeC、takeAsListD、collectAsList正确答案:C,D第34题,Spark DataFrame中()方法可以返回一个Array对象A、collectB、takeC、takeAsListD、collectAsList正确答案:A,B第35题,Spark可以通过哪些外部存储创建RDD()A、文本文件B、目录C、压缩文件D、通配符匹配的文件正确答案:A,B,C,D第36题,Spark只有键值对类型的RDD才能设置分区方式T、对F、错正确答案:T第37题,Scala中列表是可变的T、对F、错正确答案:F第38题,RDD的转换操作是用于触发转换操作的操作,这个时候才会真正开始进行计算。T、对F、错正确答案:F第39题,Spark取代Hadoop仅仅是取代MapReduce这种计算框架,Spark可以取代HDFS吗T、对F、错正确答案:F第40题,Spark在同一个应用中不能同时使用Spark SQL和MllibT、对F、错正确答案:F第41题,val如同Java里面的非final变量,可以在它的声明周期中被多次赋值。T、对F、错正确答案:F第42题,Scala 配备了一种表现型的系统,它以静态的方式进行抽象,以安全和连贯的方式进行使用。T、对F、错正确答案:T第43题,RDD的mapPartitions操作会导致Partitions数量的变化T、对F、错正确答案:F第44题,RDD的flatMap操作是将函数应用于RDD 之中的每一个元素,将返回的迭代器(数组、列表等)中的所有元素构成新的RDD 。T、对F、错正确答案:T第45题,RDD的subtract用于用于将前一个RDD 中在后一个RDD 出现的元素删除T、对F、错正确答案:T第46题,MLlib中StandardScaler处理的对象是每一列,也就是每一维特征,将特征标准化为单位标准差或是0均值,或是0均值单位标准差。T、对F、错正确答案:T第47题,RDD的filter函数返回一个存储符合过滤条件的所有元素的新RDDT、对F、错正确答案:T第48题,用户可以在Apache Mesos上运行SparkT、对F、错正确答案:T第49题,RDD中join操作根据键对两个RDD进行内连接,将两个RDD 中键相同的数据的值相加。T、对F、错正确答案:F第50题,PairRDD中groupByKey是对具有相同键的值进行分组T、对F、错正确答案:T