
江苏开放大学数据采集与预处理第四次形考作业答案.docx
5页江苏开放大学数据采集与预处理第四次形考作业注意:学习平台题目可能是随机,一定注意答案对应的选项,同学们在本页按“Ctrl+F”快捷搜索题目中“关键字”就可以快速定位题目,如果答案有疑问或遗漏,请在下载网站联系上传者进行售后江苏开放大学数据采集与预处理第四次形考选择题1、下列选项中,关于groupBy()方法说法不正确的是( )A、分组键可以是列表或数组,但长度不需要与待分组轴的长度相同B、可以通过DAtAFrAme中的列名的值进行分组C、可以使用函数进行分组D、可使用series或字典分组正确答案:A 学生答案:A2、下列选项中,关于Agg()方法使用不正确是( )A、A、gg()方法中funC参数只能传入一个函数B、A、gg()方法中funC参数可以传入多个函数C、A、gg()方法中funC参数可以传入自定义函数D、A、gg()方法不能对产生的标量值进行广播正确答案:A 学生答案:A3、下列选项中,关于trAnsform()方法说法正确的是( )A、不会与原数据保持相同形状B、会对产生的标量值进行广播操作C、funC参数只能传入内置函数D、funC参数可以传入多个内置函数正确答案:B4、请阅读下面一段程序:import pAnDAs As pD(pD.DAtAFrAme([,3],]*3,Columns=[‘A’,‘B’])).Apply(lA、mBDA x:x+1)执行上述程序后,最终输出的结果为()。
A、A B032132232B、A B02323223C、A B034134234D、A B043143243正确答案:D 学生答案:D5、下列选项中,关于A、pply()说法不正确的是( )A、可以使用自定义函数B、可以接收多个函数C、可以使用广播功能D、返回的结果一定与原数据的形状相同正确答案:D 学生答案:D6、下列选项表述错误的是( )A、数据库可以通过降低数据的冗余度减小数据的存储空间B、通过专有的操作语句,可以对数据库中的数据进行操作C、数据库通常分为关系型数据库和非关系型数据库D、关系型数据库具有高扩展性和高性能的优点正确答案:D 学生答案:D7、下列选项表述错误的是( )A、关系型数据库具有容易理解、使用方便、安全性能高等优点B、非关系型数据库具有读写性能高、存储数据格式多样等优点C、在数据量较大的情况下,关系型数据库在查询速度上通常不及非关系型数据库D、非关系型数据库比关系型数据库安全性能高,而且提供多种数据存储格式正确答案:D 学生答案:D8、以下关于MySQL的说法错误的是( )A、.MySQL是一个开源软件B、.MySQL⾮常灵活,适⽤于⼩到中型的数据处理。
C、.MySQL是没有服务器的,不需要服务器进程或系统来操作D、.MySQL是一个跨平台的数据库系统: WinDows , MACOS , Linux 和 Unix 均适⽤正确答案:C 学生答案:C9、关于MySQL中的数据类型,下列选项表述不正确的是( )A、.VARCHAR(length)表示最大长度 为length的可变长度字符串B、.TEXT表示最大长度为64KB的可变长度字符串C、.CHAR(length)表示最大长度为length的可变长度字符串D、.DATE和TIME都可以作为日期型数据正确答案:C 学生答案:C10、下列哪个⼯具不能实现数据清洗功能?( )A、ExCelB、OpenRefineC、WekAD、photoshop正确答案:D 学生答案:D11、WekA使⽤什么编程语⾔进⾏开发?( )A、CB、C++C、PythonD、JAvA正确答案:D 学生答案:D12、下列哪个选项不属于WekA集合的数据挖掘功能?( )A、数据预处理B、关联规则挖掘C、搭建神经⽹络D、数据可视化正确答案:C 学生答案:C13、OpenRefine的⼯作⽅式是?( )A、单元格B、图C、列和字段D、矩阵正确答案:C 学生答案:C14、OpenRefine不⽀持下列那种⽂件格式?( )A、C、sv⽂件B、tsv⽂件C、json⽂件D、py⽂件正确答案:D 学生答案:D15、在OpenRefine界⾯,下列哪个变量不属于 GREL 语⾔?( )A、vAueB、rowC、CellD、grAD正确答案:D 学生答案:D16、在OpenRefine界⾯,下列哪个选项能够查看数据集D、A、tA中是否含有缺失值?( )A、DAtA.inDexB、DAtA.vAlueC、DAtA.CellD、isNull(DAtA)正确答案:D 学生答案:D17、下列选项表述不正确的是( )。
A、OpenRefine使用的是计算机的3333、端口B、可以在命令行使用trl+C命令退出OpenRefine软件C、可以在OpenRefine界面的LAnguAge Settings 选项处进行语言的选择D、OpenRefine使用的是计算机的8000端口正确答案:D 学生答案:D18、下列选项表述不正确的是( )A、OpenRefine支持多种格式的数据文件B、OpenRefine支持多种数据导入方式C、OpenRefine支持撤销操作D、GREL为OpenRefine的内建语言,不能与正则表达式结合进行数据转换正确答案:D 学生答案:D19、在openrefine的内建语言中,能将string s转换为小写的是( )A、stArtsWith(string s,string suB)B、enDsWith(string s, string suB)C、toUpperCAse(string s)D、toLowerCAse(string s)正确答案:D 学生答案:D江苏开放大学数据采集与预处理第四次形考简答题1、请简述常用的分组方式参考答案:1.等距分组法:等距分组法是将数据按照一定的间隔划分为若干组,每组的数据范围是相同的。
这种方法适用于数据变化较平稳、分布比较均匀的情况例如,对学生的身高进行等距分组,可以将身高按照5厘米一个间隔进行分组,得到的数据组数较多,但每组的数据范围相同,方便进行比较和分析2.等频分组法:等频分组法是将数据按照出现频率的大小划分为若干组,每组的数据量相同这种方法适用于数据分布不均匀、存在异常值的情况例如,对班级成绩进行等频分组,可以将成绩按照出现频率的大小进行分组,这样可以排除异常值的影响,更加准确地反映学生的整体水平3.聚类分组法:聚类分组法是将数据按照相似性进行聚类划分为若干组,每组的数据具有较高的相似性这种方法适用于数据类型比较复杂、不易按照单一指标进行分组的情况例如,对消费者进行聚类分组,可以将他们的消费行为、生活方式、偏好等多个指标进行综合评估,得到不同的消费群体,为企业提供更加精准的市场分析和营销策略4.主成分分析法:主成分分析法是将多个相关指标进行综合分析,得到少数几个主成分来描述数据的变化情况,再根据主成分进行分组这种方法适用于数据类型复杂、指标之间存在相关性的情况例如,对企业的财务数据进行主成分分析,可以得到财务状况、盈利能力、偿债能力等主要因素,再根据这些因素进行企业排名和分组,为投资者提供更加精准的投资建议。
5.决策树分组法:决策树分组法是根据数据的特征和分类标准,通过构建决策树来进行数据分组这种方法适用于数据类型复杂、分类标准多样的情况例如,对消费者进行决策树分组,可以根据他们的性别、年龄、职业、收入等多个因素进行分类,得到不同的消费群体和消费偏好,为企业提供更加精准的产品定位和营销策略2、现有表DouBAn,表内有若干条出版社数据信息 iD为出版社编号,puBlish_ nAme列为出版社名称,Book_numBer列为出版书籍数量,puBlish_ link为出版社链接网址 请使用seleCt和like语句查询出名字以北京开头的出版社名称( puBlish_ nAme)并提交与判定SQL语句3、现有如下图所示的学生信息,请根据图中的信息完成以下操作:1、)根据年级信息为分组键,对学生信息进行分组,并输出大一学生信息18分)(2、)分别计算出四个年级中身高最高的同学10分)(3、)计算大一学生与大三学生的平均体重10分)请将程序写在下面的文本框内students = [{ 'name ':‘张三', 'grade ': '大一','height': 170,"weight': 60},{ "name ' : ‘李四', 'grade ': ‘大二',‘height ': 175,"weight': 65},{ 'name ': '王五', 'grade ': '大一', 'height ' : 180,"weight': 70},{ " name': ‘赵六','grade': ‘大四',‘height': 185,"weight ': 75},{ 'name ':‘钱七', 'grade': ‘大三:,‘height ' : 190,"weight': 80},{ ' name ': ‘孙八', 'grade': '大一', "height': 195,"weight ': 85},{ ' name': ‘周九', 'grade': ‘大三',"height': 200,"weight ' : 90},{ 'name ': ‘吴十', 'grade': '大二',"height ': 205,'weight ': 95},#(1)根据年级信息为分组键,对学生信息进行分组,并输出大一学生信息。
groups ={}for student in students:grade = student[ ' grade']if grade not in groups:groups[grade] - []groups[grade].append(student)for student in groups[ '大一']:print( student)#(2)分别计算出四个年级中身高最高的同学for grade in[ '大一',‘大二",'大三','大四']:max_height = emax_student = Nonefor student in groups[grade]:if student[ " height' ] > max_height:max_height = student[ " height ' ]max_student = studentprint('年级:,身高最高的同学:{]}'.format(grade,max_student[ ' name']))#(3)计算大一学生与大三学生的平均体重sum_weight = ecount = efor student in groups[ '大一']:sum_weight += student[ " weight' ]count += 1avg_weight_1 = sum_weight / countsum_weight = ecount = 6for student in groups[ '大三']:sum_weight += student[ " weight']count += 1avg_weight_3 =。
