您所在位置：网站首页 > IT计算机/网络 > 数据挖掘与识别大数据分析核心技术分享_光环大数据培训

大数据分析核心技术分享_光环大数据培训

10页

卖家[上传人]：gua****an

文档编号：50302553

上传时间：2018-08-07

文档格式：DOCX

文档大小：48.48KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

0 金贝

/ 10 举报版权申诉马上下载

文本预览

下载提示

常见问题

1、光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/大数据分析核心技术分享大数据分析核心技术分享_ _光环大数据培训光环大数据培训目前，大数据领域每年都会涌现出大量新的技术，成为大数据获取、存储、处理分析或可视化的有效手段。大数据技术能够将大规模数据中隐藏的信息和知识挖掘出来，为人类社会经济活动提供依据，提高各个领域的运行效率，甚至整个社会经济的集约化程度。1 大数据生命周期展示了一个典型的大数据技术栈。底层是基础设施，涵盖计算资源、内存与存储和网络互联，具体表现为计算节点、集群、机柜和数据中心。在此之上是数据存储和管理，包括文件系统、数据库和类似 YARN 的资源管理系统。然后是计算处理层，如hadoop、MapReduce 和 Spark，以及在此之上的各种不同计算范式，如批处理、流处理和图计算等，包括衍生出编程模型的计算模型，如 BSP、GAS 等。数据分析和可视化基于计算处理层。分析包括简单的查询分析、流分析以及更复杂的分析(如机器学习、图计算等)。查询分析多基于表结构和关系函数，流分析基于数据、事件流以及简单的统计分析，

2、而复杂分析则基于更复杂的数据结构与方法，如图、矩阵、迭代计算和线性代数。一般意义的可视化是对分析结果的展示。但是通过交互式可视化，还可以探索性地提问，使分析获得新的线索，形成迭代的分析和可视化。基于大规模数据的实时交互可视化分析以及在这个过程中引入自动化的因素是目前研究的热点。有 2 个领域垂直打通了上述的各层，需要整体、协同地看待。一是编程和管理工具，方向是机器通过学习实现自动最优化、尽量无需编程、无需复杂的配置。另一个领域是数光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/据安全，也是贯穿整个技术栈。除了这两个领域垂直打通各层，还有一些技术方向是跨了多层的，例如“内存计算”事实上覆盖了整个技术栈。2.大数据技术生态大数据的基本处理流程与传统数据处理流程并无太大差异，主要区别在于：由于大数据要处理大量、非结构化的数据，所以在各处理环节中都可以采用并行处理。目前，Hadoop、MapReduce 和 Spark 等分布式处理方式已经成为大数据处理各环节的通用处理方法。Hadoop 是一个能够让用户轻松架构和使用的分布式计算平台。

3、用户可以轻松地在Hadoop 上开发和运行处理海量数据的应用程序。Hadoop 是一个数据管理系统，作为数据分析的核心，汇集了结构化和非结构化的数据，这些数据分布在传统的企业数据栈的每一层。Hadoop 也是一个大规模并行处理框架，拥有超级计算能力，定位于推动企业级应用的执行。Hadoop 又是一个开源社区，主要为解决大数据的问题提供工具和软件。虽然Hadoop 提供了很多功能，但仍然应该把它归类为多个组件组成的 Hadoop 生态圈，这些组件包括数据存储、数据集成、数据处理和其他进行数据分析的专门工具。图 2 展示了Hadoop 的生态系统，主要由HDFS、MapReduce、Hbase、Zookeeper、Oozie、Pig、Hive 等核心组件构成，另外还包括 Sqoop、Flume 等框架，用来与其他企业融合。同时，Hadoop 生态系统也在不断增长，新增 Mahout、Ambari、Whirr、BigTop 等内容，以提供更新功能。低成本、高可靠、高扩展、高有效、高容错等特性让 Hadoop 成为最流行的大数据分析系统，然而其赖以生存的 HDFS 和 MapReduce 组件

4、却让其一度陷入困境批处理的工作方式让其只适用于离线数据处理，在要求实时性的场景下毫无用武之地。因此，光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/各种基于 Hadoop 的工具应运而生。为了减少管理成本，提升资源的利用率，有当下众多的资源统一管理调度系统，例如 Twitter 的 Apache Mesos、Apache 的YARN、Google 的 Borg、腾讯搜搜的 Torca、Facebook Corona(开源)等。Apache Mesos 是 Apache 孵化器中的一个开源项目，使用 ZooKeeper 实现容错复制，使用Linux Containers 来隔离任务，支持多种资源计划分配(内存和 CPU)。提供高效、跨分布式应用程序和框架的资源隔离和共享，支持 Hadoop、MPI、Hypertable、Spark 等。YARN 又被称为 MapReduce 2.0，借鉴 Mesos，YARN 提出了资源隔离解决方案Container，提供 Java 虚拟机内存的隔离。对比 MapReduce 1.0，开发人员使用

5、ResourceManager、ApplicationMaster 与 NodeManager 代替了原框架中核心的JobTracker 和 TaskTracker。在 YARN 平台上可以运行多个计算框架，如MR、Tez、Storm、Spark 等。基于业务对实时的需求，有支持在线处理的 Storm、Cloudar Impala、支持迭代计算的 Spark 及流处理框架 S4。Storm 是一个分布式的、容错的实时计算系统，由BackType 开发，后被 Twitter 捕获。Storm 属于流处理平台，多用于实时计算并更新数据库。Storm 也可被用于“连续计算”(Continuous Computation)，对数据流做连续查询，在计算时就将结果以流的形式输出给用户。它还可被用于“分布式 RPC”，以并行的方式运行昂贵的运算。Cloudera Impala 是由 Cloudera 开发，一个开源的 Massively Parallel Processing(MPP)查询引擎。与 Hive 相同的元数据、SQL 语法、ODBC 驱动程序和用户接口(HueBeeswax)，可以直接在

6、 HDFS 或 HBase 上提供快速、交互式 SQL 查询。Impala 是在 Dremel 的启发下开发的，不再使用缓慢的 Hive+MapReduce 批处理，而是通过与商用并行关系数据库中类似的分布式查询引擎(由 Query Planner、Query 光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/Coordinator 和 Query Exec Engine 这 3 部分组成)，可以直接从 HDFS 或者 HBase 中用 SELECT、JOIN 和统计函数查询数据，从而大大降低了延迟。Hadoop 社区正努力扩展现有的计算模式框架和平台，以便解决现有版本在计算性能、计算模式、系统构架和处理能力上的诸多不足，这正是 Hadoop2.0 版本“ YARN”的努力目标。各种计算模式还可以与内存计算模式混合，实现高实时性的大数据查询和计算分析。混合计算模式之集大成者当属 UC Berkeley AMP Lab 开发的 Spark 生态系统，如图3 所示。Spark 是开源的类 Hadoop MapReduce 的通用的数据

7、分析集群计算框架，用于构建大规模、低延时的数据分析应用，建立于 HDFS 之上。Spark 提供强大的内存计算引擎，几乎涵盖了所有典型的大数据计算模式，包括迭代计算、批处理计算、内存计算、流式计算(Spark Streaming)、数据查询分析计算(Shark)以及图计算(GraphX)。Spark 使用Scala 作为应用框架，采用基于内存的分布式数据集，优化了迭代式的工作负载以及交互式查询。与 Hadoop 不同的是，Spark 和 Scala 紧密集成，Scala 像管理本地collective 对象那样管理分布式数据集。Spark 支持分布式数据集上的迭代式任务，实际上可以在 Hadoop 文件系统上与 Hadoop 一起运行(通过 YARN、Mesos 等实现)。另外，基于性能、兼容性、数据类型的研究，还有 Shark、Phoenix、Apache Accumulo、Apache Drill、Apache Giraph、Apache Hama、Apache Tez、Apache Ambari 等其他开源解决方案。预计未来相当长一段时间内，主流的 Hadoop 平台改进后将与各

8、种新的计算模式和系统共存，并相互融合，形成新一代的大数据处理系统和平台。3.大数据采集与预处理在大数据的生命周期中，数据采集处于第一个环节。根据 MapReduce 产生数据的应用系统分类，大数据的采集主要有 4 种来源：管理信息系统、Web 信息系统、物理信息系光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/统、科学实验系统。对于不同的数据集，可能存在不同的结构和模式，如文件、XML 树、关系表等，表现为数据的异构性。对多个异构的数据集，需要做进一步集成处理或整合处理，将来自不同数据集的数据收集、整理、清洗、转换后，生成到一个新的数据集，为后续查询和分析处理提供统一的数据视图。针对管理信息系统中异构数据库集成技术、Web 信息系统中的实体识别技术和 DeepWeb 集成技术、传感器网络数据融合技术已经有很多研究工作，取得了较大的进展，已经推出了多种数据清洗和质量控制工具，例如，美国SAS 公司的 Data Flux、美国 IBM 公司的 Data Stage、美国 Informatica 公司的Informatica Powe

9、r Center。4.大数据存储与管理传统的数据存储和管理以结构化数据为主，因此关系数据库系统(RDBMS)可以一统天下满足各类应用需求。大数据往往是半结构化和非结构化数据为主，结构化数据为辅，而且各种大数据应用通常是对不同类型的数据内容检索、交叉比对、深度挖掘与综合分析。面对这类应用需求，传统数据库无论在技术上还是功能上都难以为继。因此，近几年出现了 oldSQL、NoSQL 与 NewSQL 并存的局面。总体上，按数据类型的不同，大数据的存储和管理采用不同的技术路线，大致可以分为 3 类。第 1 类主要面对的是大规模的结构化数据。针对这类大数据，通常采用新型数据库集群。它们通过列存储或行列混合存储以及粗粒度索引等技术，结合 MPP(Massive Parallel Processing)架构高效的分布式计算模式，实现对 PB 量级数据的存储和管理。这类集群具有高性能和高扩展性特点，在企业分析类应用领域已获得广泛应用;第 2 类主要面对的是半结构化和非结构化数据。应对这类应用场景，基于 Hadoop 开源体系的系统平台更为擅长。它们通过对 Hadoop 生态体系的技术扩展和封装，实现对半结构化和非结构化数据的存储和管理;第 3 类面对的是结构化和非结光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/

《大数据分析核心技术分享_光环大数据培训》由会员gua****an分享，可在线阅读，更多相关《大数据分析核心技术分享_光环大数据培训》请在金锄头文库上搜索。

点击阅读更多内容

TA的资源