电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本
换一换
首页 金锄头文库 > 资源分类 > DOCX文档下载
分享到微信 分享到微博 分享到QQ空间

六大主流大数据采集平台架构分析_光环大数据培训

  • 资源ID:51644831       资源大小:729.81KB        全文页数:19页
  • 资源格式: DOCX        下载积分:0金贝
快捷下载 游客一键下载
账号登录下载
微信登录下载
三方登录下载: 微信开放平台登录   支付宝登录   QQ登录  
二维码
微信扫一扫登录
下载资源需要0金贝
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
验证码:   换一换

 
账号:
密码:
验证码:   换一换
  忘记密码?
    
1、金锄头文库是“C2C”交易模式,即卖家上传的文档直接由买家下载,本站只是中间服务平台,本站所有文档下载所得的收益全部归上传人(卖家)所有,作为网络服务商,若您的权利被侵害请及时联系右侧客服;
2、如你看到网页展示的文档有jinchutou.com水印,是因预览和防盗链等技术需要对部份页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有jinchutou.com水印标识,下载后原文更清晰;
3、所有的PPT和DOC文档都被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;下载前须认真查看,确认无误后再购买;
4、文档大部份都是可以预览的,金锄头文库作为内容存储提供商,无法对各卖家所售文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;
5、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据;
6、如果您还有什么不清楚的或需要我们协助,可以点击右侧栏的客服。
下载须知 | 常见问题汇总

六大主流大数据采集平台架构分析_光环大数据培训

光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn六大主流大数据采集平台架构分析六大主流大数据采集平台架构分析_ _光环大数据培训光环大数据培训光环大数据培训机构,随着大数据越来越被重视,数据采集的挑战变的尤为突 出。今天为大家介绍几款数据采集平台:Apache FlumeFluentdLogstashChukwaScribeSplunk Forwarder大数据平台与数据采集大数据平台与数据采集任何完整的大数据平台,一般包括以下的几个过程:数据采集数据存储数据处理数据展现(可视化,报表和监控)光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn其中,数据采集是所有数据系统必不可少的,随着大数据越来越被重视,数据 采集的挑战也变的尤为突出。这其中包括:数据源多种多样数据量大变化快如何保证数据采集的可靠性的性能如何避免重复数据如何保证数据的质量我们今天就来看看当前可用的六款数据采集的产品,重点关注它们是如何做到 高可靠,高性能和高扩展。1 1、ApacheApache FlumeFlume光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn官网:https:/flume.apache.org/Flume 是 Apache 旗下的一款开源、高可靠、高扩展、容易管理、支持客户扩展的数据采集系统。 Flume 使用 JRuby 来构建,所以依赖 Java 运行环境。Flume 最初是由 Cloudera 的工程师设计用于合并日志数据的系统,后来逐渐发 展用于处理流数据事件。Flume 设计成一个分布式的管道架构,可以看作在数据源和目的地之间有一个Agent 的网络,支持数据路由。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn每一个 agent 都由 Source,Channel 和 Sink 组成。SourceSourceSource 负责接收输入数据,并将数据写入管道。Flume 的 Source 支持HTTP,JMS,RPC,NetCat,Exec,Spooling Directory。其中 Spooling 支持监 视一个目录或者文件,解析其中新生成的事件。ChannelChannelChannel 存储,缓存从 source 到 Sink 的中间数据。可使用不同的配置来做 Channel,例如内存,文件,JDBC 等。使用内存性能高但不持久,有可能丢数 据。使用文件更可靠,但性能不如内存。SinkSinkSink 负责从管道中读出数据并发给下一个 Agent 或者最终的目的地。Sink 支持 的不同目的地种类包括:HDFS,HBASE,Solr,ElasticSearch,File,Logger 或者其它的 Flume Agent。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cnFlume 在 source 和 sink 端都使用了 transaction 机制保证在数据传输中没有 数据丢失。Source 上的数据可以复制到不同的通道上。每一个 Channel 也可以连接不同数 量的 Sink。这样连接不同配置的 Agent 就可以组成一个复杂的数据收集网络。 通过对 agent 的配置,可以组成一个路由复杂的数据传输网络。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn配置如上图所示的 agent 结构,Flume 支持设置 sink 的 Failover 和 Load Balance,这样就可以保证即使有一个 agent 失效的情况下,整个系统仍能正常 收集数据。Flume 中传输的内容定义为事件(Event),事件由 Headers(包含元数据,Meta Data)和 Payload 组成。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cnFlume 提供 SDK,可以支持用户定制开发:Flume 客户端负责在事件产生的源头把事件发送给 Flume 的 Agent。客户端通常和产生数据源的应用在同一个进程空间。常见的 Flume 客户端有 Avro,log4J,syslog 和 HTTP Post。另外 ExecSource 支持指定一个本地进程 的输出作为 Flume 的输入。当然很有可能,以上的这些客户端都不能满足需求, 用户可以定制的客户端,和已有的 FLume 的 Source 进行通信,或者定制实现一 种新的 Source 类型。同时,用户可以使用 Flume 的 SDK 定制 Source 和 Sink。似乎不支持定制的 Channel。2 2、FluentdFluentd官网:http:/docs.fluentd.org/articles/quickstartFluentd 是另一个开源的数据收集框架。Fluentd 使用 C/Ruby 开发,使用 JSON 文件来统一日志数据。它的可插拔架构,支持各种不同种类和格式的数据源和 数据输出。最后它也同时提供了高可靠和很好的扩展性。Treasure Data, Inc 对该产品提供支持和维护。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cnFluentd 的部署和 Flume 非常相似:光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cnFluentd 的架构设计和 Flume 如出一辙:光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cnFluentd 的 Input/Buffer/Output 非常类似于 Flume 的 Source/Channel/Sink。InputInputInput 负责接收数据或者主动抓取数据。支持 syslog,http,file tail 等。BufferBufferBuffer 负责数据获取的性能和可靠性,也有文件或内存等不同类型的 Buffer 可以配置。OutputOutputOutput 负责输出数据到目的地例如文件,AWS S3 或者其它的 Fluentd。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cnFluentd 的配置非常方便,如下图:Fluentd 的技术栈如下图:光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cnFLuentd 和其插件都是由 Ruby 开发,MessgaePack 提供了 JSON 的序列化和异步的并行通信 RPC 机制。Cool.io 是基于 libev 的事件驱动框架。FLuentd 的扩展性非常好,客户可以自己定制(Ruby)Input/Buffer/Output。Fluentd 从各方面看都很像 Flume,区别是使用 Ruby 开发,Footprint 会小一 些,但是也带来了跨平台的问题,并不能支持 Windows 平台。另外采用 JSON 统 一数据/日志格式是它的另一个特点。相对去 Flumed,配置也相对简单一些。3 3、LogstashLogstashhttps:/github.com/elastic/logstash光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cnLogstash 是著名的开源数据栈 ELK (ElasticSearch, Logstash, Kibana)中的那个 L。Logstash 用 JRuby 开发,所有运行时依赖 JVM。Logstash 的部署架构如下图,当然这只是一种部署的选项。一个典型的 Logstash 的配置如下,包括了 Input,filter 的 Output 的设置。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn几乎在大部分的情况下 ELK 作为一个栈是被同时使用的。所有当你的数据系统使用 ElasticSearch 的情况下,logstash 是首选。4 4、ChukwaChukwa官网:https:/chukwa.apache.org/光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cnApache Chukwa 是 apache 旗下另一个开源的数据收集平台,它远没有其他几个有名。Chukwa 基于 Hadoop 的 HDFS 和 Map Reduce 来构建(显而易见,它用 Java 来实现),提供扩展性和可靠性。Chukwa 同时提供对数据的展示,分析和监视。 很奇怪的是它的上一次 github 的更新事 7 年前。可见该项目应该已经不活跃 了。Chukwa 的部署架构如下:Chukwa 的主要单元有: Agent,Collector,Data

注意事项

本文(六大主流大数据采集平台架构分析_光环大数据培训)为本站会员(gua****an)主动上传,金锄头文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即阅读金锄头文库的“版权提示”【网址:https://www.jinchutou.com/h-59.html】,按提示上传提交保证函及证明材料,经审查核实后我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。

分享当前资源【六大主流大数据采集平台架构分析_光环大数据培训】到朋友圈,您即可以免费下载此资源!
微信扫一扫分享到朋友圈
二维码
操作提示:任选上面一个二维码,打开微信,点击“发现”使用“扫一扫”,即可将选择的网页分享到朋友圈
您可能感兴趣的------------------------------------------------------------------------------------------------------



关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.