大数据平台招标参数
大数据平台招标参数1大数据基础平台1.1大数据实时同步转换平台大数据实时同步转换平台主要功能是实时地将业务库中的数据同步到区域大数据中心库中,同时可以对数据进行转换处理,将转换后的数据写入到专用的数据集市中,以供其他业务系统使用。该系统需要提供可配置的、可调度的和快速部署的管理工具,对数据在同步和转换中的异常要有捕捉和补偿机制,从而确保数据的最终一致性。l 数据实时同步采用基于数据库日志解析的大数据同步技术:先将源端数据一次性地全量同步至大数据平台,然后通过解析源数据库在线日志或归档日志获取变更的增量数据,再将这些增量数据实时同步到目标大数据平台。变更类型包括insert、update、delete三种操作,并将其解析为DML或DDL消息。支持异构的多元化的源数据库:必须能完好地支持当前主流的数据库产品,如Oracle、DB2、SQL Server、MySQL和Sybase等。实时性:要能快速地将源数据系统中变更的数据同步到目标数据系统中去,每笔变更实时同步转换时间小于15秒。非侵入式:要与源系统相对分离,不改变源端数据库,不需要对源端数据库进行表结构等改造。对源数据库性能影响小:不能对源系统的性能造成大的压力,对源端数据库性能影响小于5%。异常处理:要能够将业务系统中变更的数据完整地反映到目标数据系统中去,即使同步进程意外中断,还可以对数据进行重新同步,确保数据的最终一致性。l 数据同步、转换、装载任务设计、部署和运行异构、兼容性:实时同步转换平台采用分布式B/S架构,任务、转换设计Web可视化,兼容kettle定义的转换和任务,任务具备目录管理和基本信息管理。高可用性、高吞吐量:任务分布式集群执行支持集群方式,根据转换处理速度的需求可以灵活增加转换节点,同步转换吞吐每秒9000条记录以上。集群支持MASTER/SLAVE模式,允许转换以及转换中的步骤在集群多台服务器节点上并发执行。分布式消息总线控制:支持将DML、DDL消息用分布式消息系统分类保存,消息及时存盘,定时自动销毁,类目删除;提供消费接口供后端转换任务消费。任务元数据管理:可定义每次转换前后的数据结构和转换规则数据抽取定义:源对象数据格式、输出对象数据格式、字段抽取规则、抽取条件设置、输出排序规则、抽取调度管理。数据转换任务部署:支持一次设计多次部署,以提高数据交换的实施效率;任务部署时应支持灵活的部署参数定义,以提高数据同步任务设计的重用性。支持工作流,可将若干数据同步任务按一定次序串接起来。数据同步、转换、装载任务监控管理:支持远程监控和管理远程执行的转换和作业,另外,提供一键恢复的功能,保证了在主机意外宕机或者平台执行任务遇到问题时,平台能够从错误中快速恢复。平台还需要额外提供一个错误列表,供系统运维人员查看,可以及时提醒系统运维人员对平台的任务进行维护。数据同步、转换、装载任务定时调度:可以定时调度转换及作业。数据质量统计:显示数据传输统计指标,包括:各业务转换上传条数、实际上传条数、错误数和上传正确率等信息。提供条件筛选功能,可以指定某机构,以及开始日期和结束时间来进行所需数据质量结果筛选。l 大数据存储支持存储主要采用基于HDFS的分布式文件系统和基于HBase的分布式关系数据库,在中心数据库端,获取消息队列中的数据库变化的日志文件,按照完全同步的要求插入或更新到Hadoop平台的分布式关系大数据库中。1.2大数据实时存储计算平台大数据实时存储计算平台是一套系统化的分布式平台,包括数据分布式存储、分布式消息队列和分布式计算等功能组件。在分布式存储方面,可以实现对存储容量的线性扩展;在分布式计算方面,采用符合SQL92规范的交互功能,使得传统的数据开发人员可以通过SQL语句对大数据平台中的数据进行业务处理。在生产环境下,存储数据可实时备份,支持异地备份,在数据故障情况下,可实现数据的快速恢复。需要对整个存储平台实现良好的性能监控和故障预警功能。在不影响现有服务的同时,可以实现导向式的硬件横向扩展。通过SQL查询的数据,要根据权限实现动态数据屏蔽保障科研平台患者的隐私。l 基于Hadoop架构实现实时分布式关系数据库有效支撑PB级别数据的结构化查询计算支持SQL-92的解析分布式执行,支持大表联接JOIN查询、子查询等高级特性;支持数据的多版本,可以记录数据的所有更改历史,并查询某一版本的数据;提供JDBC接口在分布式关系大数据库上执行DML/DDL语句支持动态数据屏蔽(DDM):当用户、应用程序通过SQL访问患者隐私数据时,对SQL进行实时屏蔽,依据用户角色定义规则屏蔽遮罩诸如患者姓名、身份证号码、电话号码等敏感数据列,但同时不影响数据的join等计算操作l 融合多种分布式计算框架支持关系计算、图计算与语义计算等框架支持MapReduce、Tez、Hive、Pig等批处理计算作业支持Spark分布式内存计算框架,以实现复杂的数据挖掘算法和图计算算法l 一站式的可视化运维管理平台一键式集群部署、增量部署、丰富的可视化运维界面组件热插拔设计、秒级部署到端监控指标覆盖所有组件,运行异常实时感知支持作业与任务执行的可视化与分析,能够更好地查看依赖和性能。适应数据规模增长一键式线性扩容l 高性能海量数据实时查询、更新,PB级别数据,全表任意字段条件查询、更新时间在毫秒级别,普通多表关联查询在亚秒级别。数据查询吞吐量10000条/秒,数据写入吞吐量9000条/秒l 高可用多份数据热备,保障系统高可用能够处理从GB到PB的数据,并随数据增长动态不停机扩容l 动态数据屏蔽当应用程序请求通过 SQL访问患者隐私数据时,进行实时脱敏,依据用户角色、职责和其他规则屏蔽诸如姓名、身份证号码、电话号码等敏感数据列,以实现数据安全性、隐私保护。1.3大数据商业智能分析平台大数据商业智能分析平台可以基于GPU支持实现海量数据的实时、完整的商业智能分析,包括数据仓库建立、多维数据集建模和数据集市管理等功能,用户可以在该平台基础上,实现报表功能的自定义开发、即席查询和数据钻取等,它支持多表头和图形化的表现形式,可以方便地将数据导出为csv、excel、pdf文件。l 多维模型后台管理数据目录管理:对分析模型进行分门别类的管理,支持多层目录;可以上传、下载、新建、修改、删除模型,对模型基本属性如命名、排序进行维护;支持模型在不同目录间的拷贝或移动即席查询建模:查询条件自定义;查询条件各字段的录入规则定义;查询输出定义;查询输出排序字段;详细显示定义;分组定义多维分析建模:分析方案的定义;立方体的定义;立方体维度的定义(支持层次维度);立方体度量集、计算成员的定义;立方体聚合表的定义;虚拟立方体定义统计分析建模:提供丰富的统计分析函数,可以基于指标、维度成员进行相关的算术、统计、聚合、集合、逻辑、关系等各类运算,并支持MDX表达式模型查询缓存:支持MDX查询单、双维度缓存,缓存可持久化,缓存有效期可设置l 数据前台分析应用基于MDX多维分析操作:所有数据集市的指标、维度自由拖拽组合;多种钻探方式;交叉探查、钻透;旋转;切片和切块;数据过滤;指标汇总和排序;图表的多维分析;基于自然语言查询:可以用自然语言的方式进行即席查询,在没有精确命中结果的情况下给出其他最匹配查询条件建议。数据钻取:支持按各种维度的明细数据钻取可视化分析应用:支持复杂报表的前台展现可视化,支持折线图(区域图)、柱状图(条状图)、散点图(气泡图)、饼图(环形图)、离线真实地图、仪表盘、漏斗图等高性能:亿级事实表,双维度即席查询响应时间小于3秒数据导出:数据分析结果可以导出成excel、csv和pdf格式2人口健康信息大数据中心人口健康信息大数据中心能够支持实时镜像和转换区域卫生系统内数据。实时转换数据集存放着两类数据,一类是和业务库中对应的镜像数据,一类是在镜像数据基础上再加工处理的数据。在大数据中心里,需要实现业务再建模,完成数据清洗和转换等。数据集主要包括:3大数据应用平台3.1大数据健康档案浏览器大数据健康档案浏览器是在大数据基础平台和人口健康信息大数据中心的基础上,以患者为中心,通过患者的身份证号,关联包括医疗的诊疗、用药、手术、用血、检查、检验和体检记录以及公共卫生的相关数据。该系统主要实现详细的患者数据查询功能,如当查询某一患者时候,要能查询出该患者历史上所有的就诊记录、处方记录、住院记录、费用记录、体检记录以及所接受的公共卫生服务记录等。大数据健康档案的基本内容需要包含个人基本信息和主要卫生服务记录两部分内容。确定健康档案信息内容如下:一是个人基本信息包括人口学和社会经济学等基础信息以及基本健康信息。二是主要卫生服务记录,是从居民个人一生中所发生的重要卫生事件的详细记录中动态抽取的重要信息。主要卫生服务记录包括:1)、儿童保健:如出生医学证明信息、新生儿疾病筛查信息、儿童健康体检信息等。2)、妇女保健:婚前保健服务信息、妇女病普查信息、计划生育技术服务信息、孕产期保健服务与高危管理信息、产前筛查与诊断信息、出生缺陷监测信息等。3)、疾病预防:预防接种信息、传染病报告信息、死亡医学证明信息等。4)、疾病管理:高血压、糖尿病、肿瘤等病例管理信息。5)、医疗服务:临床检验检查报告、用药信息和住院病案首页信息等。l 即时检索整合区域内的医疗机构数据后,数据总量达到几十亿甚至上百亿,在如此庞大的数据量下,本系统能实现海量PB数据亚秒级的查询和准确快速的展现。l 文书格式根据国家对医疗文书的规范要求,将不同的数据以对应的医疗文书PDF格式展现。不仅让数据展现更加美观,同时也让卫生从业人员查看更加的直观。同时,展现出来的文书也便于下载和打印。l 全生命周期视图展现每个人的所有生命周期,并根据年龄展现当前所处的周期,以及统计到目前为止每个生命周期的诊疗次数。同时通过选择不同的生命周期展现该周期特有的公共卫生服务内容。l 多终端支持支持WEB/PC/APP,按需选择载体,提供完整的接口实现和HIS、APP等应用系统的快速集成。3.2区域卫生大数据智能分析系统区域卫生大数据智能分析系统支持完整的区域卫生运营监管指标的即席查询和丰富可视化展示,并且可以自由配置展示界面和用户权限。主要指标包括:l 医院财务类1、门急诊收入统计门急诊总费用门急诊次均费用西药费中药饮片费用门急诊药品次均药费门急诊药品次均费用门急诊药占比门急诊药占比2、住院收入统计住院总费用住院次均费用西药费中药饮片费用住院药品次均费用住院药品次均费用住院药占比住院药占比3、医院收入西药费中成药中草药化验费4、门诊收入西药费中成药中草药化验费5、住院收入西药费中成药中草药化验费6、监管-同环比门诊总费用门诊同期总费用门诊同比门诊上期总费用门诊环比住院总费用住院同期总费用住院同比住院上期总费用住院环比l 公共卫生居民健康档案常住人口本年度新建档案数累计建档数建档率户籍老年人建档数老年人建档数老年人高血压患者累计建档数老年人糖尿病患者累计建档数重性精神病患者建档数重性精神病人健康体检数健康档案合格数健康档案合格率有动态记录健康档案数有动态记录使用率老年人健康管理老年人总数老年人档案管理总数老年人档案管理率老年人健康