
大数据技术及应用章节练习题参考答案.docx
17页第1章1.1 概念:大数据是指大小超出传统数据库工具的获取、存储、管理和分析能力的数据集特征:规模庞大(Volume),种类繁多(Variety),生成快速(Velocity),来源真实(Veracity),……1.2 数据采集、数据预处理、数据分析与挖掘、数据展现与可视化1.3 目的:监督并改善数据的质量,保证后续分析挖掘结果的有效性 主要操作:数据清洗、数据集成、数据转换和数据归约1.4 统计分析、机器学习、数据挖掘等1.5 略第2章2.1 分类:系统日志采集、网络数据采集、传感器采集、其他采集方法等特点:大规模、海量存储、高速传输、实时采集、支持分布式架构、可扩展性适用范围:系统日志、网页数据、电子商务信息、传感器数据、科学领域数据等2.2 来源:企业信息管理系统、网络信息系统、物联网信息系统、科学研究实验系统应用场合:企业信息管理系统针对企业、机关内部的业务平台如办公自动化系统、事务管理系统等;网络信息系统针对互联网络平台上的各种信息系统;物联网信息系统针对各种传感器设备及监控系统;科学研究实验系统针对科学大数据2.3 基本流程:对采集到的海量数据进行数据挖掘处理之前,需要先对原始数据进行必要的数据清洗、数据集成、数据变换和数据归约等多项处理工作,必要时可以进行多次数据预处理。
作用:改进原始数据的质量,满足后续的数据挖掘算法进行知识获取的目的,达到客户应用的挖掘需求2.4 数据清洗的基本处理过程:数据分析、确定数据清洗规则和策略、数据检测、数据清洗、数据评估和干净数据回流六个步骤2.5 箱1: 60,61,65箱2: 70,73,81箱3: 85,90,92平均值平滑处理:箱1: 62,62,62 箱2: 75,75,75 箱3: 89,89,89边界值平滑处理:箱1: 60,60,65 箱2: 70,70,81 箱3: 85,92,922.6 最小-最大值规范化:适用于已知属性的取值范围,对原始数据进行线性变换的场合z-score规范化:基于属性的平均值和标准差进行规范化的方法,适用于属性的最大值和最小值未知,或者孤立点左右了最小-最大规范化的场合小数定标规范化:值域区间[-1,1]2.7 (1)最小-最大值规范化:94转换到[0.0,1.0]区间,为0.252)z-score:其中标准偏差为15.36,94规范为-0.3913)小数定标规范化:94规范为0.0942.8 常见的大数据采集及处理平台类别:常见的大数据采集工具有Apache的Chukwa、Facebook的Scribe、Cloudera的Flume、Linkedin的Kafka 和 阿里的TT(Time Tunnel)等。
应用场合:大多是作为完整的大数据处理平台而设计的,不仅可以进行海量日志数据的采集,还可以实现数据的聚合和传输第3章3.1 传统存储分为直连式存储和网络连接存储直连式存储是通过服务器内部直接连接磁盘组,或者通过外接线连接磁盘阵列这种方式通常需要通过硬件RAID卡或者软RAID的方式实现磁盘的冗余保护,防止由于磁盘故障导致整个存储系统的不可用而丢失数据网络连接是通过以太网方式接入并进行访问的存储形式,是一台在网络上提供文档共享服务的网络存储服务器存储设备可以直接连接在以太网中,使用者可以通过某种方式(例如linux下的mount命令)将存储服务挂载到本地进行访问,在本地呈现的就是一个文件目录树3.2 名称节点是HDFS系统中的管理者,负责管理文件系统的命名空间,记录每个文件中各个块所在的数据节点的位置信息,维护文件系统的文件树及所有的文件和目录的元数据数据节点存储所有具体数据并根据需要检索数据块,受客户端或名称节点调度,数据节点定期向名称节点发送它们所存储的块的列表同时,它会通过心跳定时向名称节点发送所存储的文件块信息3.3 为了保证系统的容错性和可用性,HDFS采用了多副本方式对数据进行冗余存储,通常一个数据块的多个副本会被分配到不同的数据节点上。
在读取数据时,为了减少整体的带宽消耗和降低整体的带宽时延,HDFS会尽量让读取程序读取离客户端最近的副本如果读取程序的同一个机架上有一个副本,那么就读取该副本;如果一个HDFS集群跨越多个数据中心,那么客户端也将首先读取本地数据中心的副本3.4 NoSQL是一种不同于关系数据库的数据库管理系统设计方式,是对非关系型数据库的统称NoSQL技术引入了灵活的数据模型、水平可伸缩性和无模式数据模型,典型的NoSQL数据库通常包括键值数据库、列族数据库、文档数据库和图数据库,这些数据库旨在提供易于扩展和管理的大量数据3.5 CAP理论可简单描述为:一个分布式系统不能同时满足一致性(consistency)、可用性(availability)和分区容错性(partition tolerance)这 3 个需求,最多只能同时满足两个3.6 HBase使用坐标来定位表中的数据,也就是说,每个值都是通过坐标来访问的需要根据行键、列族、列限定符和时间戳来确定一个单元格,因此可以视为一个“四维坐标”3.7 每个Region服务器负责管理一个Region集合,通常在每个Region服务器上会放置10~1000个Region。
当存储数据量非常庞大时,必须设计相应的Region定位机制,保证客户端知道哪里可以找到自己所需要的数据每个Region都有一个RegionID来标识它的唯一性,这样,一个Region标识符就可以表示成“表名+开始主键+RegionID”3.8 当客户端提出数据访问请求时,首先在Zookeeper集群上查找-ROOT-的位置,然后客户端通过-ROOT-查找请求所在范围所属.META.的区域位置,接着,客户端查找.META.区域位置来获取用户空间区域所在节点及其位置;最后,客户端即可直接与管理该区域的Region服务器进行交互一旦客户端知道了数据的实际位置(某Region服务器位置),该Client会直接和这个Region服务器进行交互,也就是说,客户端需要通过“三级寻址”过程找到用户数据表所在的region服务器,然后直接访问该Region服务器获得数据3.9 数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的 (Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策,数据仓库是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的。
一个典型的数据仓库主要包含4个层次:数据源、数据存储和管理、数据服务、数据应用3.10 基本架构包括:1.数据源:是数据仓库的数据来源,包括了外部数据、现有业务系统和文档资料等2.数据集成:完成数据的抽取、清洗、转换和加载任务,数据源中的数据采用ETL工具以固定周期加载到数据仓库中3.数据存储和管理:这一层次主要涉及对数据的存储和管理,包括数据仓库、数据集市、数据仓库检测、运行与维护工具和元数据管理等4.数据服务:为前端工具和应用提供数据服务,可以直接从数据仓库中获取数据供前端应用使用,也可以通过 OLAP 服务器为前端应用提供更加复杂的数据服务5.数据应用:这一层次直接面向最终用户,包括数据查询工具、自由报表工具、数据分析工具、数据挖掘工具和各类应用系统第4章4.1 分类用于找出一组数据对象的共同特点并按照一定的模式将其划分为不同的类分类的目的是分析输入数据,通过训练集中的数据表现出来的特性构造出一个分类函数或分类模型,该模型常被称为分类器,用于将未知类别的样本数据映射到给定类别中分类技术也因此被广泛的应用于如欺诈检测、目标营销、医疗诊断、人脸检测、故障诊断和故障预警等4.2 数据分类过程总体可以分为两个阶段:第一阶段,建立描述预先定义的数据类或概念集的分类器。
这是学习阶段(或训练阶段),其中分类算法通过分析或从训练集“学习”来构造分类器通过对训练数据中各数据行的内容进行分析,从而认为每一行数据是属于一个确定的数据类别,其类别值是由一个属性描述(类标号)第二阶段,使用模型进行分类首先评估分类器的预测准确率,选取独立于训练集数据的测试集,通过第一阶段构造出的分类器对给定测试集的数据进行分类将分类出的每条测试记录的类标号与学习模型对该记录的类预测进行比较,如果分类器的性能达到预定要求,就用该模型对类标号未知的数据记录进行分类4.3 决策树算法采用不同的度量准则,主要有以下三种:信息增益、增益率和基尼指数信息增益准则倾向于选择具有大量不同取值的属性,从而产生许多小而纯的子集信息增益率会导致数据集划分不平衡,其中一个分区比其它分区小的多基尼指数偏小于多值属性,当类的数量很大时会有困难,还倾向于导致相等大小的分区和纯度4.4 有准确率、精确率、召回率、假正率、真负率、假负率、F度量和ROC曲线与AUC曲线等4.54.6 幸存可能性为0.0347,遇难可能性0.0261与4.5题结果对比:略4.7 (1)0.116;(2)0.496;(3)0.002347。
4.8 最近邻:由于y1=+1,因此x的类标号为+1;k-近邻(k=3):由于y2=+1,y7=-1,y4=-1,因此x的类标号为-1第5章5.1 参见5.1节5.2 参见5.2节5.3 (1) 绘制学习时间与测试成绩的散点图;(2) 和(3)5.4 (1)(2)5.5 与一元线性回归模型单个自变量相比,当多元线性回归模型自变量数目增多时,若自变量均与因变量相关性很强, 得到的回归方程拟合效果会更接近真实情况5.6 (1)散点图:(2)(3)5.7 非线性关系的处理分为三种情况:第一种是自变量X和因变量Y之间的关系通过函数替换转为线性,然后利用线性回归模型的求解方法估计回归参数,并作出回归诊断;第二种是当自变量X与因变量Y之间的非线性关系对应的描述函数形式不明确时,采用多项式回归分析方法,进而转化为多元线性逐步回归来进行求解;第三种是自变量X与因变量Y之间的非线性关系对应的描述函数形式很明确,但回归参数是未知的,不能像第一种情况那样通过函数替换转化为线性关系,需要采用比较复杂的拟合方法或者数学模型来求解,通常利用泰勒级数展开,并进行数值迭代来近似逼近实际曲线5.8 常见的非线性函数有双曲线、半对数、双对数、三角函数、指数函数、幂函数等,其线性化方法参见5.3.2节。
5.9 (1)(2)平均绝对百分误差MAPE为4.1053) 5.10 多项式回归模型用来解决生活中一大类非线性回归问题,常用于描述经济生活中的生产成本关系,这些因变量与自变量之间的关系通常都无法用线性回归模型来表示,但是可以用多项式回归方程加以描述根据泰勒级数展开的原理,任何曲面、曲线、超曲面问题,在一定范围内,都可以通过增加高次项来无限逼近真实数据,因此可用适当阶数的多项式方程来近似描述基本原理:多项式回归问题通常可以使用变量代换法转化为多元线性回归问题来处理,参照线性回归模型的求解思路,使用最小二乘法(OLS)完成对多项式回归模型的参数估计第6章6.1 相同点:都是根据研究对象的特征对它们进行分类 不同点:分类是一种监督式学习方法,预先已经划分好类别;聚类属于非监。












