大数据平台招标参数
10页1、大数据平台招标参数1大数据基础平台1.1大数据实时同步转换平台大数据实时同步转换平台主要功能是实时地将业务库中的数据同步到区域大数据中心库中,同时可以对数据进行转换处理,将转换后的数据写入到专用的数据集市中,以供其他业务系统使用。该系统需要提供可配置的、可调度的和快速部署的管理工具,对数据在同步和转换中的异常要有捕捉和补偿机制,从而确保数据的最终一致性。l 数据实时同步采用基于数据库日志解析的大数据同步技术:先将源端数据一次性地全量同步至大数据平台,然后通过解析源数据库在线日志或归档日志获取变更的增量数据,再将这些增量数据实时同步到目标大数据平台。变更类型包括insert、update、delete三种操作,并将其解析为DML或DDL消息。支持异构的多元化的源数据库:必须能完好地支持当前主流的数据库产品,如Oracle、DB2、SQL Server、MySQL和Sybase等。实时性:要能快速地将源数据系统中变更的数据同步到目标数据系统中去,每笔变更实时同步转换时间小于15秒。非侵入式:要与源系统相对分离,不改变源端数据库,不需要对源端数据库进行表结构等改造。对源数据库性能影响小:不能
2、对源系统的性能造成大的压力,对源端数据库性能影响小于5%。异常处理:要能够将业务系统中变更的数据完整地反映到目标数据系统中去,即使同步进程意外中断,还可以对数据进行重新同步,确保数据的最终一致性。l 数据同步、转换、装载任务设计、部署和运行异构、兼容性:实时同步转换平台采用分布式B/S架构,任务、转换设计Web可视化,兼容kettle定义的转换和任务,任务具备目录管理和基本信息管理。高可用性、高吞吐量:任务分布式集群执行支持集群方式,根据转换处理速度的需求可以灵活增加转换节点,同步转换吞吐每秒9000条记录以上。集群支持MASTER/SLAVE模式,允许转换以及转换中的步骤在集群多台服务器节点上并发执行。分布式消息总线控制:支持将DML、DDL消息用分布式消息系统分类保存,消息及时存盘,定时自动销毁,类目删除;提供消费接口供后端转换任务消费。任务元数据管理:可定义每次转换前后的数据结构和转换规则数据抽取定义:源对象数据格式、输出对象数据格式、字段抽取规则、抽取条件设置、输出排序规则、抽取调度管理。数据转换任务部署:支持一次设计多次部署,以提高数据交换的实施效率;任务部署时应支持灵活的部
3、署参数定义,以提高数据同步任务设计的重用性。支持工作流,可将若干数据同步任务按一定次序串接起来。数据同步、转换、装载任务监控管理:支持远程监控和管理远程执行的转换和作业,另外,提供一键恢复的功能,保证了在主机意外宕机或者平台执行任务遇到问题时,平台能够从错误中快速恢复。平台还需要额外提供一个错误列表,供系统运维人员查看,可以及时提醒系统运维人员对平台的任务进行维护。数据同步、转换、装载任务定时调度:可以定时调度转换及作业。数据质量统计:显示数据传输统计指标,包括:各业务转换上传条数、实际上传条数、错误数和上传正确率等信息。提供条件筛选功能,可以指定某机构,以及开始日期和结束时间来进行所需数据质量结果筛选。l 大数据存储支持存储主要采用基于HDFS的分布式文件系统和基于HBase的分布式关系数据库,在中心数据库端,获取消息队列中的数据库变化的日志文件,按照完全同步的要求插入或更新到Hadoop平台的分布式关系大数据库中。1.2大数据实时存储计算平台大数据实时存储计算平台是一套系统化的分布式平台,包括数据分布式存储、分布式消息队列和分布式计算等功能组件。在分布式存储方面,可以实现对存储容量
4、的线性扩展;在分布式计算方面,采用符合SQL92规范的交互功能,使得传统的数据开发人员可以通过SQL语句对大数据平台中的数据进行业务处理。在生产环境下,存储数据可实时备份,支持异地备份,在数据故障情况下,可实现数据的快速恢复。需要对整个存储平台实现良好的性能监控和故障预警功能。在不影响现有服务的同时,可以实现导向式的硬件横向扩展。通过SQL查询的数据,要根据权限实现动态数据屏蔽保障科研平台患者的隐私。l 基于Hadoop架构实现实时分布式关系数据库有效支撑PB级别数据的结构化查询计算支持SQL-92的解析分布式执行,支持大表联接JOIN查询、子查询等高级特性;支持数据的多版本,可以记录数据的所有更改历史,并查询某一版本的数据;提供JDBC接口在分布式关系大数据库上执行DML/DDL语句支持动态数据屏蔽(DDM):当用户、应用程序通过SQL访问患者隐私数据时,对SQL进行实时屏蔽,依据用户角色定义规则屏蔽遮罩诸如患者姓名、身份证号码、电话号码等敏感数据列,但同时不影响数据的join等计算操作l 融合多种分布式计算框架支持关系计算、图计算与语义计算等框架支持MapReduce、Tez、Hi
《大数据平台招标参数》由会员u****w分享,可在线阅读,更多相关《大数据平台招标参数》请在金锄头文库上搜索。
项目名称-项目介绍_331155759
闵行区医院信息集成平台项目建设
项目名称-立项申请(升级产品立项)
03专业资格答辩模板(命名格式:岗位序列-P级-部门-工号-姓名) (139)
综管GIS设计
附件2-电子健康卡管理系统接口使用文档V1.7
模板-2.1.3_用户需求说明书
JZ-SPI-P-PMC-T04(项目总结报告)
中端HR市场洞察分析
技术支持工程师JAVA-P8-华南大区-6819-覃力
2014-1332上海市儿童保健信息系统分包合同技术附件20141203 (187)
JZ-SPI-E-VER-T06(测试总结报告)
附件4:培训会场布置图(外请讲师培训)
2017年质量预算表(黄渡) (503)
JZ-SPI-E-TS-P05(候选技术解决方案)
BS-CKB3.3-产品介绍及发布说明(临床知识库系统)
“网上图书销售管理系统”实验报告
0907-2020年度区中医院绩效考核
孙国平家庭医生个人工作量(预算值样表) (270)
“校园卡管理系统”实验报告
2023-04-04 88页
2023-01-27 39页
2023-01-27 31页
2023-01-27 26页
2023-01-27 33页
2023-01-27 30页
2023-01-27 35页
2023-01-17 24页
2023-01-17 32页
2023-01-17 39页