大数据技术 Hadoop+Spark+MongoDB+MySQL+C#_光环大数据培训

资源ID：50302302 资源大小：46.26KB 全文页数：10页
资源格式： DOCX 下载积分：0金贝

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要0金贝

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

1、金锄头文库是“C2C”交易模式，即卖家上传的文档直接由买家下载，本站只是中间服务平台，本站所有文档下载所得的收益全部归上传人（卖家）所有，作为网络服务商，若您的权利被侵害请及时联系右侧客服；
2、如你看到网页展示的文档有jinchutou.com水印，是因预览和防盗链等技术需要对部份页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有jinchutou.com水印标识，下载后原文更清晰；
3、所有的PPT和DOC文档都被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；下载前须认真查看，确认无误后再购买；
4、文档大部份都是可以预览的，金锄头文库作为内容存储提供商，无法对各卖家所售文档的真实性、完整性、准确性以及专业性等问题提供审核和保证，请慎重购买；
5、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据；
6、如果您还有什么不清楚的或需要我们协助，可以点击右侧栏的客服。

下载须知 | 常见问题汇总

1、会员注册 2、如何支付与充值 3、个人资料信息修改 4、我的收藏和“收藏文件夹” 5、我的读者群和加入读者群 6、我的书签 7、金锄头文库批量上传工具（绿色版）V1.0 8、下载文档（资源）相关问题整理 9、解决下载文档时，自动弹出迅雷的问题 10、下载时为什么支付不成功？

大数据技术 Hadoop+Spark+MongoDB+MySQL+C#_光环大数据培训

光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn大数据技术大数据技术 Hadoop+Spark+MongoDB+MySQL+C#_Hadoop+Spark+MongoDB+MySQL+C#_光环大数据培训光环大数据培训随着 IT 技术的飞速发展，各行各业都已在广泛尝试使用大数据技术提供更稳健和优质的服务。目前，医疗 IT 系统收集了大量极具价值的数据，但这些历史医疗数据并没有发挥出其应有的价值。为此，本文拟利用医院现有的历史数据，挖掘出有价值的基于统计学的医学规则、知识，并基于这些信息构建专业的临床知识库，提供诊断、处方、用药推荐功能，基于强大的关联推荐能力，极大地提高医疗服务质量，减轻医疗人员的工作强度。二、hadoop 从存储角度来看，当前主要还是在用 Hadoop 生态环境中的 HDFS 框架。 HDFS 的一系列特性使得它非常适合大数据环境下的存储。1HadoopHadoop 不是一个软件，而是一个分布式系统基础架构，是由 Apache 基金会主持开发的一个开源项目。Hadoop 可以使用户在不了解分布式底层实现的情况下，开发分布式程序，从而充分利用电脑集群的威力，实现高速运算和大规模数据存储。Hadoop 主要有HDFS、MapReduce、Hbase 等子项目组成。Hadoop 是一个能够对大量数据进行分布式处理的软件框架，并且使用可靠、高效、光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn可伸缩的方式进行数据处理。Hadoop 假设数据处理和存储会失败，因此系统维护多个工作数据副本，确保能够针对失败的节点重新分布处理。Hadoop 通过并行工作，提高数据处理速度。Hadoop 能够处理 PB 级数据，这是常规数据服务器所不能实现的。此外，Hadoop 依赖于开源社区，任何问题都可以及时得到解决，这也是 Hadoop 的一大优势。Hadoop 建立在 Linux 集群上，因此成本低，并且任何人都可以使用。它主要具有以下优点：高可靠性。Hadoop 系统中数据默认有三个备份，并且 Hadoop 有系统的数据检查维护机制，因而提供了高可靠性的数据存储。扩展性强。Hadoop 在普通 PC 服务器集群上分配数据，通过并行运算完成计算任务，可以很方便的为集群扩展更多的节点。高效性。Hadoop 能够在集群的不同节点之间动态的转移数据。并且保证各个节点的动态平衡，因此处理速度非常快。高容错性。Hadoop 能够保存数据的多个副本，这样就能够保证失败时，数据能够重新分配。Hadoop 总体架构如下图所示， Hadoop 架构中核心的是 MapReduce 和 HDFS 两大组件。Google 曾发表论文Google File System ，系统阐述了 Google 的分布式文件系统的设计实现，Apache 针对 GFS，进行开源开发，发布了 Hadoop 的分布式文件系统：Hadoop Distributed File System，缩写为 HDFS。MapReduce 的核心思想也由 Google 的一篇论文MapReduce:Simplified Data Processing on Large Clusters 提出，简单解释MapReduce 的核心思想就是：任务分解执行，执行结果汇总。2光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cnSparkSpark 是 UC Berkeley 大学 AMP 实验室开源的类似 MapReduce 的计算框架，它是一个基于内存的集群计算系统，最初的目标是解决 MapReduce 磁盘读写的开销问题，当前最新的版本是 1.5.0。Spark经推出，就以它的高性能和易用性吸引着很多大数据研究人员，在众多爱好者的努力下，Spark 逐渐形成了自己的生态系统( Spark 为基础，上层包括 Spark SQL，MLib，Spark Streaming 和 GraphX)，并成为 Apache 的顶级项目。Spark 的核心概念是弹性分布式存储 (Resilient Distributed Datasets， RDD)间，它是 Spark 对分布式内存进行的抽象，使用者可以像操作本地数据集一样操作 RDD，从而可以将精力集中于业务处理。在 Spark 程序中，数据的操作都是基于 RDD 的，例如经典的WordCount 程序，其在 Spark 编程模型下的操作方式如下图所示：可以看到 Spark 先从文件系统抽象出 RDD1，然后由 RDD1 经过 flatMap 算子转换得到 RDD2，RDD2 再经过 reduceByKey 算子得到 RDD3，最后 RDD3 中的数据重新写回文件系统，一切操作都是基于 RDD 的。三、思路和架构经过多方面的思考，最终决定基于 Spark 技术进行构建和实现医院临床知识库系统，采用 MongoDB/Sequoiadb 构建大数据仓库，做为大数据的存储中心，采用Hadoop+Spark1 构建大数据分析平台，基于 AgileEAS.NET SOA 中间件构建 ETL 数据抽取转换工具(后期部分换用了 Pentaho Kettle)，基于 AgileEAS.NET SOA 中间件构建知识库的服务门户，通过 WCF/WebService 与 HIS 系统进行业务整合集成，使用 AgileEAS.NET SOA+FineUI 构建基础字典管理以后分析结构的图像化展示功能。最初我们选择了 SequoiaDB 做为大数据存储中心，为此我还特意的为 SequoiaDB光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn完成了 C#驱动，参考本人为巨杉数据库(开源 NoSQL)写的 C#驱动，支持 Linq，全部开源，已提交 Github 一文，但是一方面熟悉 SequoiaDB 的技术人员太少了，维护是个问题，最后，在差不多 8 多个月这后我们换用了 MongoDB 3.0 做为大数据存储中心。最初我们选择了 Hadoop2.0+Spark1.3.1 版本之上使用 scala2.10 开发完成了医院临床知识库系统，请参考 centos+scala2.11.4+Hadoop2.3+Spark1.3.1 环境搭建，但是在后期替换 Sequoiadb 为 MongoDB 的同时，我们把计算框架也由 Hadoop2.0+Spark1.3.1 升级到了Hadoop2.6+Spark1.6.2。考虑到 Spark 都部署在 Linux 的情况，对于 Spark 分析的结果输出存储在 MySQL5.6数据库之中，系统所使用的各种字典信息也存储在 MySQL 之中。Spark 数据分析部分的代码使用 IntelliJ IDEA 14.1.4 工具进行编写，其他部分的代码使用 VS2010 进行编写。1总体架构整个系统由数据采集层、存储分析层和应用逻辑层三大部分以及本系统所选所以来的外部数据源。本系统的外部数据源目前主要是医院信息系统所产生的临床数据，目前主要集中在 HIS 系统之中，后期将采依赖于 EMR、LIS、PACS 系统。数据采集层主要负责从临床业务系统采集海量历史临床数据同，历史记录采集方式分为批采集和实时采集，在数据采集过程之中对原始数据进行格工检查，并对原始数据进行清洗和转换，并将处理后的数据存储在大数据仓库之中。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn存储分析层主要负责数据存储以及数据分析两大部分业务，经过清洗转换的合理有效数据被存储在大数据集群之中，使用 JSON 格式，大数据存储引用使用 SequoiaDB 数据库，数据分析部分由 Hadoop/Spark 集群来完成，大数据存储经由 Spark 导入并进行分析，分析结果写入临床知识数据库，临床知识数据库使用 MySQL 数据库进行存储。应用逻辑层主要负责人机交互以及分析结构回馈临床系统的渠道，通过 WebUI的方式向临床医生、业务管理人员提供列表式、图像化的知识展示，也为临床系统的业务辅助、推荐功能提供调用的集成 API，目前 API 主要通过 WebService、WebAPI 两种方式提供。2总体流程整个系统经由数据源数据采集，写入大数据存储 SequoiaDB 集群，然后由 Spark进行分析计算，分析生成的临床知识写入 MySQL 知识库，经由 WebUI 以及标准的 API 交由临床使用。3数据导入流程历史数据的采集导入使用初期使用 AgileEAS.NET SOA 的计划任务配何 C#脚本进行实现，由计划任务进行协调定时执行，具体的数据导入代码根据不同的临床业务系统不同进行脚本代码的调整，也可以使用 Pentaho Kettle 进行实现，通过 Pentaho Kettle 可配置的实现数据的导入。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn4物理结构设计临床数据源为本系统进行分析的数据来源，源自于临床 HIS、EMR，目前医院的HIS 使用 SQL Server 2008 R2 数据库，EMR 使用 ORACLE 11G 数据库，运行于 Windows2008操作系统之上。SequoiaDB 集群为大数据存储数制库集群，目前使用 SequoiaDB v2.0，运行于Centos6.5 操作系统之上，根据业务来规模使用 2-16 节点集群，其用于存储经过清洗转换处理的海量历史临床数据，供 Spark 集群进行分析，以及供应 SOA 服务器进行历史数据查询和历史相关推荐使用。Hadoop/Spark 集群为本系统的分析计算核心节点，用于对 SequoiaDB 集群之中的历史数据进行分析，生成辅助临床医生使用的医学知识，本集群根据业务来规模使用 2-16节点集群，使用 Centos6.5 操作系统，安装 JAVA1.7.79 运行环境、scala2.11.4 语言，使用Hadoop2.3，Spark1.3.1 分析框架。MySQL 知识库为本系统的知识库存储数据库，Hadoop/Spark 集群所生产的分析结构写入本数据库，经由 SOA 服务器和 Web 服务处理供临床系统集成使用和 WebGUI 展现，目前使用 MySQL5.6 版本，安装于 Windows2008/Centos6 操作系统之上。SOA Server 为本系统的对外接口应用服务器，向临床业务系统和 Web Server 提供业务运算逻辑，以及向临床业务系统提供服务 API，目前运行于 Windows2008 操作系统，部署有.NET Framework 4.0 环境，运行 AgileEAS.NET SOA 中间件的 SOA 服务，由AgileEAS.NET SOA 中间件 SOA 服务向外部系统提供标准的 WebService 以及 WebAPI。Web Server 为系统提供基于标准的 B/S 浏览器用户接口，供业务

注意事项

本文（大数据技术 Hadoop+Spark+MongoDB+MySQL+C#_光环大数据培训）为本站会员（gua****an）主动上传，金锄头文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即阅读金锄头文库的“版权提示”【网址:https://www.jinchutou.com/h-59.html】，按提示上传提交保证函及证明材料，经审查核实后我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。