电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

六大主流大数据采集平台架构分析_光环大数据培训

19页
  • 卖家[上传人]:gua****an
  • 文档编号:51644831
  • 上传时间:2018-08-15
  • 文档格式:DOCX
  • 文档大小:729.81KB
  • / 19 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、 光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/六大主流大数据采集平台架构分析六大主流大数据采集平台架构分析_ _光环大数据培训光环大数据培训光环大数据培训机构,随着大数据越来越被重视,数据采集的挑战变的尤为突 出。今天为大家介绍几款数据采集平台:Apache FlumeFluentdLogstashChukwaScribeSplunk Forwarder大数据平台与数据采集大数据平台与数据采集任何完整的大数据平台,一般包括以下的几个过程:数据采集数据存储数据处理数据展现(可视化,报表和监控)光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/其中,数据采集是所有数据系统必不可少的,随着大数据越来越被重视,数据 采集的挑战也变的尤为突出。这其中包括:数据源多种多样数据量大变化快如何保证数据采集的可靠性的性能如何避免重复数据如何保证数据的质量我们今天就来看看当前可用的六款数据采集的产品,重点关注它们是如何做到 高可靠,高性能和高扩展。1 1、ApacheApache Flum

      2、eFlume光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/官网:https:/flume.apache.org/Flume 是 Apache 旗下的一款开源、高可靠、高扩展、容易管理、支持客户扩展的数据采集系统。 Flume 使用 JRuby 来构建,所以依赖 Java 运行环境。Flume 最初是由 Cloudera 的工程师设计用于合并日志数据的系统,后来逐渐发 展用于处理流数据事件。Flume 设计成一个分布式的管道架构,可以看作在数据源和目的地之间有一个Agent 的网络,支持数据路由。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/每一个 agent 都由 Source,Channel 和 Sink 组成。SourceSourceSource 负责接收输入数据,并将数据写入管道。Flume 的 Source 支持HTTP,JMS,RPC,NetCat,Exec,Spooling Directory。其中 Spooling 支持监 视一个目录或者文件,解析其中新

      3、生成的事件。ChannelChannelChannel 存储,缓存从 source 到 Sink 的中间数据。可使用不同的配置来做 Channel,例如内存,文件,JDBC 等。使用内存性能高但不持久,有可能丢数 据。使用文件更可靠,但性能不如内存。SinkSinkSink 负责从管道中读出数据并发给下一个 Agent 或者最终的目的地。Sink 支持 的不同目的地种类包括:HDFS,HBASE,Solr,ElasticSearch,File,Logger 或者其它的 Flume Agent。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/Flume 在 source 和 sink 端都使用了 transaction 机制保证在数据传输中没有 数据丢失。Source 上的数据可以复制到不同的通道上。每一个 Channel 也可以连接不同数 量的 Sink。这样连接不同配置的 Agent 就可以组成一个复杂的数据收集网络。 通过对 agent 的配置,可以组成一个路由复杂的数据传输网络。光环大数据光环大数据-大数据培训知名品牌大数

      4、据培训知名品牌http:/ 光环大数据光环大数据 http:/配置如上图所示的 agent 结构,Flume 支持设置 sink 的 Failover 和 Load Balance,这样就可以保证即使有一个 agent 失效的情况下,整个系统仍能正常 收集数据。Flume 中传输的内容定义为事件(Event),事件由 Headers(包含元数据,Meta Data)和 Payload 组成。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/Flume 提供 SDK,可以支持用户定制开发:Flume 客户端负责在事件产生的源头把事件发送给 Flume 的 Agent。客户端通常和产生数据源的应用在同一个进程空间。常见的 Flume 客户端有 Avro,log4J,syslog 和 HTTP Post。另外 ExecSource 支持指定一个本地进程 的输出作为 Flume 的输入。当然很有可能,以上的这些客户端都不能满足需求, 用户可以定制的客户端,和已有的 FLume 的 Source 进行通信,或者定制实现一 种新的 Sourc

      5、e 类型。同时,用户可以使用 Flume 的 SDK 定制 Source 和 Sink。似乎不支持定制的 Channel。2 2、FluentdFluentd官网:http:/docs.fluentd.org/articles/quickstartFluentd 是另一个开源的数据收集框架。Fluentd 使用 C/Ruby 开发,使用 JSON 文件来统一日志数据。它的可插拔架构,支持各种不同种类和格式的数据源和 数据输出。最后它也同时提供了高可靠和很好的扩展性。Treasure Data, Inc 对该产品提供支持和维护。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/Fluentd 的部署和 Flume 非常相似:光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/Fluentd 的架构设计和 Flume 如出一辙:光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/Fluentd 的 Input/Buffer/Ou

      6、tput 非常类似于 Flume 的 Source/Channel/Sink。InputInputInput 负责接收数据或者主动抓取数据。支持 syslog,http,file tail 等。BufferBufferBuffer 负责数据获取的性能和可靠性,也有文件或内存等不同类型的 Buffer 可以配置。OutputOutputOutput 负责输出数据到目的地例如文件,AWS S3 或者其它的 Fluentd。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/Fluentd 的配置非常方便,如下图:Fluentd 的技术栈如下图:光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/FLuentd 和其插件都是由 Ruby 开发,MessgaePack 提供了 JSON 的序列化和异步的并行通信 RPC 机制。Cool.io 是基于 libev 的事件驱动框架。FLuentd 的扩展性非常好,客户可以自己定制(Ruby)Input/Buffer/Output。Fluent

      7、d 从各方面看都很像 Flume,区别是使用 Ruby 开发,Footprint 会小一 些,但是也带来了跨平台的问题,并不能支持 Windows 平台。另外采用 JSON 统 一数据/日志格式是它的另一个特点。相对去 Flumed,配置也相对简单一些。3 3、LogstashLogstashhttps:/ 光环大数据光环大数据 http:/Logstash 是著名的开源数据栈 ELK (ElasticSearch, Logstash, Kibana)中的那个 L。Logstash 用 JRuby 开发,所有运行时依赖 JVM。Logstash 的部署架构如下图,当然这只是一种部署的选项。一个典型的 Logstash 的配置如下,包括了 Input,filter 的 Output 的设置。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/几乎在大部分的情况下 ELK 作为一个栈是被同时使用的。所有当你的数据系统使用 ElasticSearch 的情况下,logstash 是首选。4 4、ChukwaChukwa官网:https:/chukwa.apache.org/光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/Apache Chukwa 是 apache 旗下另一个开源的数据收集平台,它远没有其他几个有名。Chukwa 基于 Hadoop 的 HDFS 和 Map Reduce 来构建(显而易见,它用 Java 来实现),提供扩展性和可靠性。Chukwa 同时提供对数据的展示,分析和监视。 很奇怪的是它的上一次 github 的更新事 7 年前。可见该项目应该已经不活跃 了。Chukwa 的部署架构如下:Chukwa 的主要单元有: Agent,Collector,Data

      《六大主流大数据采集平台架构分析_光环大数据培训》由会员gua****an分享,可在线阅读,更多相关《六大主流大数据采集平台架构分析_光环大数据培训》请在金锄头文库上搜索。

      点击阅读更多内容
    TA的资源
    点击查看更多
    最新标签
    信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2 2022年小学体育教师学期工作总结
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.