
AI-应知应会(小月)题库(98道).docx
19页AI-应知应会(小月)1、.( )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果——[单选题]A 数据清洗B 数据集成C 数据变换D 数据归约 正确答案:D 2、.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?( )——[单选题]A 关联规则发现B 聚类C 分类D 自然语言处理 正确答案:A 3、以下两种描述分别对应哪两种对分类算法的评价标准?( )( )警察抓小偷,描述警察抓的人中有多少个是小偷的标准 )描述有多少比例的小偷给警察抓了的标准——[单选题]A Precision,RecallB Recall,PrecisionC Precision,ROCD Recall,ROC 正确答案:A 4、将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( )——[单选题]A 频繁模式挖掘B 分类和预测C 数据预处理D 数据流挖掘 正确答案:C 5、当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( )——[单选题]A 分类B 聚类C 关联分析D 隐马尔可夫链 正确答案:B 6、建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?——[单选题]A 根据内容检索B 建模描述C 预测建模D 寻找模式和规则 正确答案:C 7、下面哪种不属于数据预处理的方法?——[单选题]A 变量代换B 离散化C 聚集D 估计遗漏值 正确答案:D 8、假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。
等频( )划分时,15在第几个箱子内?——[单选题]A 第一个B 第二个C 第三个D 第四个 正确答案:B 9、下面哪个不属于数据的属性类型——[单选题]A 标称B 序数C 区间D 相异 正确答案:D 10、只有非零值才重要的二元属性被称作——[单选题]A 计数属性B 离散属性C 非对称的二元属性D 对称属性 正确答案:C 11、以下哪种方法不属于特征选择的标准方法:——[单选题]A 嵌入B 过滤C 包装D 抽样 正确答案:D 12、下面不属于创建新属性的相关方法的是:——[单选题]A 特征提取B 特征修改C 映射数据到新的空间D 特征构造 正确答案:D 13、下面哪个属于映射数据到新的空间的方法?——[单选题]A 傅立叶变换B 特征加权C 渐进抽样D 维归约 正确答案:A 14、假设属性income的最大最小值分别是12000元和98000元利用最大最小规范化的方法将属性的值映射到0至1的范围内对属性income的73600元将被转化为:——[单选题]A 0.821B 1.224C 1.458D 0.716 正确答案:A 15、一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。
则年级属性的众数是:——[单选题]A 一年级B 二年级C 三年级D 四年级 正确答案:A 16、下列哪个不是专门用于可视化时间空间数据的技术——[单选题]A 等高线图B 饼图C 曲面图D 矢量场图 正确答案:B 17、在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是——[单选题]A 有放回的简单随机抽样B 无放回的简单随机抽样C 分层抽样D D 正确答案:D 18、数据仓库是随着时间变化的,下面的描述不正确的是——[单选题]A 数据仓库随时间的变化不断增加新的数据内容B 捕捉到的新数据会覆盖原来的快照C 数据仓库随事件变化不断删去旧的数据内容D 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合 正确答案:C 19、下面关于数据粒度的描述不正确的是——[单选题]A 粒度是指数据仓库小数据单元的详细程度和级别B 数据越详细,粒度就越小,级别也就越高C 数据综合度越高,粒度也就越大,级别也就越高D 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量 正确答案:C 20、有关数据仓库的开发特点,不正确的描述是:——[单选题]A 数据仓库开发要从数据出发B 数据仓库使用的需求在开发出去就要明确C 数据仓库的开发是一个不断循环的过程,是启发式的开发D 在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式 正确答案:A 21、关于OLAP的特性,下面正确的是——[单选题]A (1)B (2)C (1)D (1) 正确答案:D 22、关于OLAP和OLTP的区别描述,不正确的是:——[单选题]A OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同B 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务C OLAP的特点在于事务量大,但事务内容比较简单且重复率高D OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的 正确答案:C 23、关于OLAP和OLTP的说法,下列不正确的是: ( )——[单选题]A OLAP事务量大,但事务内容比较简单且重复率高B OLAP的最终数据来源与OLTP不一样C OLTP面对的是决策人员和高层管理人员D OLTP以应用为核心,是应用驱动的 正确答案:A 24、设X={1,2,3}是频繁项集,则可由X产生( )个关联规则。
——[单选题]A 4B 5C 6D 7 正确答案:C 25、考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含——[单选题]A 1,2,3,4B 1,2,3,5C 1,2,4,5D 1,3,4,5 正确答案:C 26、在图集合中发现一组公共子结构,这样的任务称为——[单选题]A 频繁子集挖掘B 频繁子图挖掘C 频繁数据项挖掘D 频繁模式挖掘 正确答案:B 27、下列度量不具有反演性的是——[单选题]A 系数B 几率C Cohen度量D 兴趣因子 正确答案:D 28、下列 ( )不是将主观信息加入到模式发现任务中的方法——[单选题]A 与同一时期其他数据对比B 可视化C 基于模板的方法D 主观兴趣度量 正确答案:A 29、以下哪些算法是分类算法——[单选题]A DBSCANB C4.5C K-MeanD EM 正确答案:B 30、以下哪种算法属于描述性分析方法——[单选题]A 决策树B 逻辑回归C 聚类D 随机森林 正确答案:C 31、下列几种分类模型,哪个模型产生的结果相对于另外几个模型,更具有可解释性——[单选题]A 决策树B 随机森林C 支持向量机D 神经网络 正确答案:A 32、出现下列哪种情形,说明当前模型很可能过度拟合——[单选题]A 训练集准确度很低,测试集准确度很低B 训练集准确度很低,测试集准确度很高C 训练集准确度很高,测试集准确度很低D 训练集准确度很高,测试集准确度很高 正确答案:C 33、Python中,有两个变量 a = 1, b = 2,则执行 c = a + b 之后,c的值为——[单选题]A 12B 3C 12D 3 正确答案:A 34、下面哪种数据结构中,不能出现重复的元素——[单选题]A listB tupleC numpy.ndarrayD set 正确答案:D 35、有两个tuple( ),a=( ),b=( ),则执行 c=a+b之——[单选题]A (5,7,9)B (1,2,3,4,5,6)C 21D ((1,2,3),(4,5,6)) 正确答案:B 36、有两个 numpy 数组, a = np.array( ), b = np.array( ),若执行 c = np.dot(a, b),则 c 的值为——[单选题]A [2,B [6,C 20D 15 正确答案:C 37、有以下的文本文件 pm25.txt,想用 pandas 读取成数据框,以下哪种方法是正确的 海门::9::121.15::31.89 鄂尔多斯::12::109.781327::39.608266 招远::12::120.38::37.35 舟山::12::122.207216::29.985295 齐齐哈尔::14::123.97::47.33 盐城::15::120.13::33.38——[单选题]A pd.read_csv(pm25.txt,B pd.read_csv(pm25.txt,C pd.read_csv(pm25.txt,D pd.read_csv(pm25.txt, 正确答案:D 38、有两个 pandas 数据框 df1 与 df2,想要以 user_id 为 key ,合并两张表,希望结果中只保留 df1 中出现过的 user_id,下列语句中正确的是——[单选题]A pd.merge(df1,B pd.merge(df1,C pd.merge(df1,D pd.merge(df1, 正确答案:B 39、有一个数据框 df,其中一列 sex 代表性别,另一列 height 代表身高,想要。









![2019版 人教版 高中语文 必修 上册《第一单元》大单元整体教学设计[2020课标]](http://img.jinchutou.com/static_www/Images/s.gif)


