
大数据技术导论课后习题及答案.docx
18页工程一1 .大数据的特性有哪些?答:Volume (数据量大)、Variety (数据类型繁多)、Velocity (处理 速度快)、Value (价值密度低)、Online ()2 .大数据时代产生的原因有哪些?答:外部原因:(1)存储设备容量不断增加2)CPU处理能力大幅提升3)网络带宽不断增加根本原因:数据产生方式的巨大变化是大数据时 代产生的本质原因3 . 一般情况下,大数据处理流程分为哪几个阶段?答:大数据处理流程分为五步,分别是数据采集、数据预处理、数据存储 和数据计算、数据分析、数据可视化4 .谷歌公司在大数据的开展中起了重要作用,谷歌“三架马车”指的是 什么?答:在2003年,谷歌公司发表了谷歌分布式文件系统(Google File System, GFS)的论文在2004年,谷歌又发表了谷歌大数据分布式计算框架 MapReduce的论文在2006年,谷歌又发表了大表BigTable的论文这 三篇论文是大数据技术开展史上重要的里程碑,史称谷歌大数据的“三架 马车”5 .请结合自己的专业谈谈如何利用大数据技术解决具体问题答:略是Hadoop没有区分完全分布式和伪分布式,对于伪分布式Hadoop仍然会米 用与集群相同的处理方式,按次序启动DataNode进程,只不过在伪分布式中 NameNode和DataNode都为localhost,所以对于伪分布式,也必须要安装SSH。
3. Hadoop伪分布式core-site.xml需要配置哪些属性,每个属性的作用是 什么?答:
5. 使用HDFS命令进行如下操作:在HDFS上创立一个文件夹test,本地 上传一个文件到test目录下,浏览该文件的内容答:可以参考如下格式hdfs dfs -mkdir/testhdfs dfs -put 7test.txt /testhdfs dfs -cat /test/test.txt工程四1 .常用的大数据采集工具有哪些?答:Flume 和 Kafka, scribe 等2 .数据预处理的作用是什么,有哪几种数据预处理的方法?答:从数据源采集的原始数据一般都是“脏”的,所谓“脏”就是数据 不正常,会影响后续数据存储和处理过程,甚至数据分析的准确性常见的 “脏”数据有数据缺失、数据值异常、数据格式不合要求等,这时候就需要我们对原始数据进行数据预处理操作,保证数据采集的数据质量,以便后续步骤的顺利进行一般数据预处理主要分为以下几个方面数据清洗,数据转换,数据集成, 数据规约3 .什么是爬虫,爬虫的作用是什么?答:网络爬虫是一个模拟人类请求网站行为的程序或脚本网络爬虫可 以自动请求网页并使用一定的规那么把我们所需要的有价并值的数据抓取下 来4 .网页的基本结构包含哪些?答:网页一般由三局部组成,分别是HTML (超文本标记语言)、CSS (层 叠样式表)和JavaScript (活动脚本语言)。
其中,HTML是整个网页的框 架整个网页由一些成对出现的HTML标签组成一个网页一般分为有head 和body两局部,body内部可以包含一些HTML标签,HTML标签里填充具体 的网页内容,同时HTML标签可以具有属性,比方href属性用于设置该标签 被点击时进行超链接跳转CSS主要负责定义网页的外观样式,比方长,宽, 颜色等等5 .爬虫程序如何进行数据爬取?答:爬虫爬取网页数据的基本过程类似于我们浏览网页的过程主要分 为两个步骤1) Http-Request在Http-Request阶段,爬虫程序对需要爬取数据的网页服务器发送Http 请求,并等待网页服务器的Http响应2) Http-Response在Http-Response阶段,网页服务器接收到请求后,验证请求的合法性, 然后将爬虫程序请求的网页数据封装好,发送Http响应爬虫程序接收网页 服务器响应,经过程序代码的解析处理,获取需要爬取的网页内容工程五1.大数据计算框架的类别有哪些?常见的大数据计算框架有哪些?2.画出HDFS架构图客户端3•什么叫NoSQL数据库,NoSQL数据库的作用是什么?答:非关系(NoSQL)数据库是一种易扩展、大数据量、高性能和灵活 数据模型的数据库。
NoSQL数据库主要用于存储非结构化数据和半结构化数 据4. HBase数据库前身是什么?答:谷歌 bigtableo5. HBase数据库是哪种NoSQL数据库? HBase如何标识每条数据?答:HBase是基于Hadoop的面向列的NoSQL数据库HBase的数据存 储在数据单元中,每个数据单元通过行键、列簇、列限定符和时间戳共同 组成的索引来标识的6. 表达HBase数据库如何进行数据存储答:假设有一张表,HBase会根据行键的值对该表中的行进行分区,每个行区间构成一个分区(Region),分区内包含了位于这个行区间内的所有数据默认一张表的初始分区数为2个,随着表中数据不断增加,Region 不断增大,当增大到超过阈值的时候,一个Region就会分为两个Region 表中的行越来越多,Region就越来越多这么多Region需要一个“管家” 来管理,这个管家就是RegionServero RegionServer的管理原那么为每个 RegionServer负责管理一个或多个Regiono不同的Region可以分布在不 同的Region Server上,但一个Region不会拆分到多个Region Server上。
Region并不是数据存储的最小单元Region往下还可以细分,每个Region 又由一个或者多个Store组成,每个Store保存一个列族的数据每个Store 又由一个MemStore和零或多个Store File组成,Store File以文件格式保 存在HDFS上工程六1 .什么是数据分析?传统数据分析和大数据分析的异同点有哪些?答:数据分析是指用统计分析方法和工具对收集来的数据进行分析,从中 提取有用信息,从而形成分析结论的过程传统的数据分析大多基于联机分 析处理技术(OLAP),分析的数据是结构化的关系数据,数据结构清晰一致, 数据量一般不大,利用单一机器即可进行数据分析工作,在数据分析中会伴 随着数据挖掘以及机器学习相关算法的使用,这些算法大多基于统计学理论 的抽样分析和假设检验而在大数据时代,数据分析的数据量更大、难度更 高、过程更复杂、应用场景更多数据分析被赋予了新的含义,我们称之为 大数据分析2 .常见的大数据分析方法有哪些?答:分类,回归,聚类等3 .分类分析和回归分析的区别是什么?答:回归与分类的区别是分类算法输出的是离散的数值,而回归算法输出 的是连续的数值4 .分类分析和聚类分析的区别是什么?答:分类是有监督学习,分类有统一的标准和类别标签。
而聚类是无监 督学习,分类之前并不知道分为几类,分类完类别也没有具体的标签,聚类 只会把数据按照某种内在特性聚合成一个个簇5 . k均值聚类算法的原理是什么?答:k均值聚类算法是通过不断的迭代找到每个样本潜在的类别,把具 有相似性的样本聚合在一起形成“簇”,它的标准就是要求每个簇内各个样 本点数据距离尽可能小,簇间距离尽可能大具体聚合成多少个簇,由我们 人为指定K值决定6 .为什么要进行数据可视化?答:数据可视化使得我们展示的海量数据信息更加直观、形象和易于理 解良好的可视化效果能够增加人机交互的体验,起到事半功倍的作用数 据可视化常常和数据分析相结合,数据分析的结果仅仅以文字和表格的形式 呈现,有时候不够直观,难以理解这时候需要用一些数据可视化的手段去 进一步展现数据分析结果,把文字变成图片、图像,这样才能更好展现我们 传递给外界的信息7 .常用的数据可视化工具有哪些?答:Tableau> Echarts> D3.js> Google Charts> Highcharts> Sigma JS 等工程二1.表达大数据处理和传统数据处理有什么不同?答:传统数据处理平台在大数据时代将面临严重挑战。
主要在以下几个方 面:(1)由于传统数据处理平台多部署于单机环境下,用于处理结构化数据 计算数据量也较小,数据存储大多采用关系型数据库数据计算效率依赖单 机的性能,数据处理速度方面存在瓶颈,对于大数据量的处理无法到达实时 性要求2)传统的数据处理方法以计算为中心,所有数据必须汇总传输到一台 机器进行计算,计算完毕后再返回,增加了数据传输时间随着数据量的增 加,处理速度会越来越慢3)传统数据处理平台数据来源单一,多用于处理结构化数据,对于非 结构化数据和半结构化数据无能为力大数据处理平台具有以下特点1)分布式数据计算(2)动态扩展性(3)容错性强(4) I/O传输速度快2 . Hadoop的设计思想是什么?答:Hadoop的设计思想如下1)能够大幅度降低高性能计算本钱用户可以通过家庭或者工作中普通的PC机组成大数据服务集群,集群节 点数量根据机器性能可以到达数千个不必花费高昂的代价去购买集群服务 器用于环境搭建使高性能计算实现本钱降低,适用面更广泛2)具有良好的稳定性和可靠性争对集群中单个或多个服务器节点失效问题,Hadoop具有自动维护数据服务器集群的稳定性和可靠性3)能够大幅度提高数据计算和存储效率Hadoop采用并行数据处理机制,把海量数据分割成多个小型的数据块, 并通过数据分发机。
