[南开大学]20春学期《数据科学导论》在线作业-1(答案100分)
谋学网www.mouxue.com【奥鹏】-南开大学20春学期(1709、1803、1809、1903、1909、2003)数据科学导论在线作业试卷总分:100 得分:100第1题,实体识别的常见形式()A、同名异义B、异名同义C、单位不统一D、属性不同正确答案:D第2题,例如将工资收入属性值映射到-1,1或者0,1内属于数据变换中的()A、简单函数变换B、规范化C、属性构造D、连续属性离散化正确答案:B第3题,单层感知机模型属于()模型。A、二分类的线性分类模型B、二分类的非线性分类模型C、多分类的线性分类模型D、多分类的非线性分类模型正确答案:A第4题,通过变量标准化计算得到的回归方程称为()。A、标准化回归方程B、标准化偏回归方程C、标准化自回归方程D、标准化多回归方程正确答案:A第5题,数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()A、异常值B、缺失值C、不一致的值D、重复值正确答案:C第6题,以下哪些不是缺失值的影响()A、数据建模将丢失大量有用信息B、数据建模的不确定性更加显著C、对整体总是不产生什么作用D、包含空值的数据可能会使建模过程陷入混乱,导致异常的输出正确答案:C第7题,层次聚类适合规模较()的数据集A、大B、中C、小D、所有正确答案:C第8题,以下哪个不是处理缺失值的方法()A、删除记录B、按照一定原则补充C、不处理D、随意填写正确答案:D第9题,聚类的最简单最基本方法是()。A、划分聚类B、层次聚类C、密度聚类D、距离聚类正确答案:A第10题,具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。A、1,线性B、2,线性C、1,非线性D、2,非线性正确答案:A第11题,考虑下面的频繁3-项集的集合:1,2,3,1,2,4,1,2,5,1,3,4,1,3,5,2,3,4,2,3,5,3,4,5假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含()A、1,2,3,4B、1,2,3,5C、1,2,4,5D、1,3,4,5正确答案:C第12题,在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。A、减小,减小B、减小,增大C、增大,减小D、增大,增大正确答案:B第13题,手肘法的核心指标是()。A、SESB、SSEC、RMSED、MSE正确答案:B第14题,变量之间的关系一般可以分为确定性关系与()。A、非确定性关系B、线性关系C、函数关系D、相关关系正确答案:A第15题,以下哪一项不属于数据变换()A、简单函数变换B、规范化C、属性合并D、连续属性离散化正确答案:C第16题,以下哪一项不是特征选择常见的方法()A、过滤式B、封装式C、嵌入式D、开放式正确答案:第17题,通过构造新的指标-线损率,当超出线损率的正常范围, 则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()A、简单函数变换B、规范化C、属性构造D、连续属性离散化正确答案:C第18题,比如一张表,从业务上讲,一个用户应该只会有一条记录, 那么如果某个用户出现了超过一条的记录,这就产生了()A、异常值B、不一致的值C、重复值D、缺失值正确答案:C第19题,某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为Y=100-1.2X,这说明()。A、产量每增加一台,单位成本增加100元B、产量每增加一台,单位成本减少1.2元C、产量每增加一台,单位成本平均减少1.2元D、产量每增加一台,单位平均增加100元正确答案:C第20题,层次聚类对给定的数据进行()的分解。A、聚合B、层次C、分拆D、复制正确答案:B第21题,K-means聚类中K值选取的方法是()。A、密度分类法B、手肘法C、大腿法D、随机选取正确答案:A,B第22题,数据科学具有哪些性质()A、有效性B、可用性C、未预料D、可理解正确答案:A,B,C,D第23题,多层感知机的学习过程包含()。A、信号的正向传播B、信号的反向传播C、误差的正向传播D、误差的反向传播正确答案:A,D第24题,系统日志收集的基本特征有()A、高可用性B、高可靠性C、可扩展性D、高效率正确答案:A,B,C第25题,层次聚类的方法是()A、聚合方法B、分拆方法C、组合方法D、比较方法正确答案:A,B第26题,距离度量中的距离可以是()A、欧式距离B、曼哈顿距离C、Lp距离D、Minkowski距离正确答案:A,B,C,D第27题,聚类的主要方法有()。A、划分聚类B、层次聚类C、密度聚类D、距离聚类正确答案:A,B,C第28题,相关性的分类,按照相关的方向可以分为()。A、正相关B、负相关C、左相关D、右相关正确答案:A,B第29题,对于多层感知机,()层拥有激活函数的功能神经元。A、输入层B、隐含层C、输出层正确答案:B,C第30题,什么情况下结点不用划分()A、当前结点所包含的样本全属于同一类别B、当前属性集为空,或是所有样本在所有属性上取值相同C、当前结点包含的样本集为空D、还有子集不能被基本正确分类正确答案:A,B,C第31题,信息熵越大,数据信息的不确定性越小。T、对F、错正确答案:F第32题,K-means算法采用贪心策略,通过迭代优化来近似求解。T、对F、错正确答案:T第33题,K-means聚类是发现给定数据集的K个簇的算法。T、对F、错正确答案:T第34题,特征的信息增益越大,则其越不重要。T、对F、错正确答案:F第35题,决策树的输入为训练集,输出为以node为根结点的一棵决策树T、对F、错正确答案:T第36题,探索性数据分析的特点是研究从原始数据入手,完全以实际数据为依据。T、对F、错正确答案:第37题,sigmoid函数属于阶跃函数,是神经网络中常见的激活函数。T、对F、错正确答案:F第38题,在数据预处理时,无论什么情况,都可以直接将异常值删除T、对F、错正确答案:F第39题,一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的“纯度提升越大”,因此我们可用信息增益来进行决策树的最优特征选择。T、对F、错正确答案:T第40题,当特征为离散型时,可以使用信息增益作为评价统计量。T、对F、错正确答案:T第41题,支持度是衡量关联规则重要性的一个指标。T、对F、错正确答案:T第42题,交叉表被广泛用于调查研究,商业智能,工程和科学研究T、对F、错正确答案:第43题,BFR聚类簇的坐标可以与空间的坐标保持一致。T、对F、错正确答案:F第44题,在树的结构中,特征越重要,就越远离根节点。T、对F、错正确答案:第45题,神经网络中误差精度的提高可以通过增加隐含层中的神经元数目来实现。T、对F、错正确答案:T第46题,多元线性回归模型中,标准化偏回归系数没有单位。T、对F、错正确答案:T第47题,单层感知机对于线性不可分的数据,学习过程也可以收敛。T、对F、错正确答案:F第48题,利用K近邻法进行分类时,使用不同的距离度量所确定的最近邻点都是相同的。T、对F、错正确答案:F第49题,EDA可以最大化数据分析者对数据集和数据集底层结构的洞察力,并且为分析者提供数据集中包含的各类信息。T、对F、错正确答案:T第50题,对于项集来说,置信度没有意义。T、对F、错正确答案: