好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

东方通ETL工具软件TI.docx

16页
  • 卖家[上传人]:公****
  • 文档编号:494149711
  • 上传时间:2024-01-29
  • 文档格式:DOCX
  • 文档大小:210.34KB
  • / 16 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • T ongT ech ®TI-ETL v2产品白皮书北京东方通科技公司2015年目录1 前言 12为什么要用ETL 12.1 业务需求 12.2 IT 需求 22.3 IT与业务一致性要求 23 TI-ETL v2 简介 33.1 产品组成结构 33.1.1 集成开发工具 43.1.2 服务器 53.1.3 资源库 53.1.4 统一管理平台 63.2 产品结构关系 73.3 转换流程和任务流程 83.3.1 转换流程 83.3.2 任务流程 94 主要功能和特点 104.1 大数据适配 104.2强健的ETL引擎 104.3 丰富的系统适配 114.4 资源统一存储 114.5 丰富的处理组件 114.6 多种数据抽取模式 114.7 图形化操作/调试/预览能力 114.8 高效数据处理 124.9 异常恢复和数据一致性 124. 10强大的监控管理功能 124. 11插件式组件管理和可扩展性 124. 12国产环境支持 135 成功案例 13■几 ■ ▲1 前言随着 IT 应用建设的发展,数据成为了最重要的资源,无论是接地气的业务系统、应用软 件、数据中心或是高大上的云/物/移/大/智,均是以数据资源为核心,依托发挥数据价值而存 在和发展。

      目前,虽然各行业IT发展成熟度不一致,但基本已经度过了大批量业务系统建设阶段, 业务系统也经过了几年的运转,积累了不同量级的数据资源但因早起IT业务系统的很少跨 部门、跨单位、跨层级的统一规划和建设,导致业务系统处于分散、独立的状况,业务间数据 资源不仅处于烟囱状态,数据资源的一致性和互用性较差,数据资源的价值无法充分发挥此外,各行业自身业务也在逐渐多元化和复杂化,业务产生和所需使用的数据也就具有不 确定和频繁变动性,导致一旦应用发生变化、新增系统或物理数据变动,一旦无法借助某些手 段适应变化,整个应用和数据体系均有较大可能不得不随之修改数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,通过应用 间的数据有效流通和流通的管理从而达到集成,主要解决数据的分布性、异构性、有效性和及 时性的问题此外,数据集成是个长期不断持续的过程,需要有易用的工具、长期可靠的运行 环境、全面有效的监控管理共同支撑,而非仅通过工具可以一次性解决的ETL是数据集成领域的落地技术,区别与传统数据交换,ETL在可完成基本数据交换(抽 取、传输、装载)的前提下,对数据的转换(即数据的按需加工处理)提供更易用和更强大的 支持,使数据在不同业务之间流动的同时,各业务获取到的数据确实是可有准确、及时、有效 应用的。

      TI-ETL是从传统数据交换产品继续发展的产物,有着多年的数据集成领域产品研制的积 淀,已在大交通(海/陆/空)、大政府、国防工业、企业等行业核心系统中成功应用,辅助众 多行业和用户逐渐发挥出了数据的价值,提升了 IT支撑业务的有效性2 为什么要用 ETL2.1 业务需求IT建设随业务发展,业务过程以数据贯穿,即业务有效性的基础是数据,且有效性又包 含可获得性、及时性、准确性和一致性在信息化早起,因信息系统较少、业务关系复杂度较 低,对数据关注度也较低随着各单位自身的发展,内部组织机构、多级组织机构建设愈发全 面,业务关系也愈发复杂,各内部组织以及跨不同单位之间均会因为业务关联产生数据有效关 联、互用的需求例如单位内人力作为人资管理的职能部门,新人入职、人员在部门间调动、人员岗位晋升 等人员变动情况会影响向财务、档案、信息管理等多个部门的业务,包括工资涨降、档案归 档、固定资产关联等等,即人资信息发生变化时需要其它同样存储了该信息的业务部门也能够 自动完成信息变更例如部委需要从各下级委办局汇总数据,各委办局业务系统可能是分别由不同厂商建设, 虽然是处理同样的业务,但业务系统存储数据的格式和方式不同。

      以数据项“部门名称”为 例,有的业务系统存储是的汉字,也的存储的可能是数字编码,此时虽然数据都能汇总到一 起,但数据却无法合并,即使汇总后也可能无法支撑业务2.2IT 需求数据大多以数据库、文件为存储载体,数据库和文件又存在多个品牌和版本,所以业务数 据往往是分散在不同品牌、版本的数据库和文件中,业务系统间能够按需的互用数据则需要通 过 IT 手段实现对不同数据源的按需适配、按需采集、按需处理、按需装载以及通过图形化界 面操作定义数据间的关系和处理逻辑,实现一次定义长期有效执行,同时提供全局的可视化监 控管理,能够随时掌握业务间数据交互的有效性2.3IT 与业务一致性要求“按需”是业务诉求,对应IT则包括了采集、加工处理、装载、监控、运维、管理等技 术要求,以满足业务层面对可获得性、及时性、准确性、一致性的需求,多以ETL产品和技术 实现IT支撑:(1) ETL提供多种数据源适配组件,可与多种主流数据库、文件、通信协议进行对接,保 障采集的全面适配,提供高可获得性2) ETL提供触发器、时间、CDC等多种数据采集模式,可根据业务对及时性的定义以及 业务数据存储的现状选择不同模式,并且提供并行等高效处理机制,提供高及时性。

      3) ETL 提供丰富的数据加工处理组件达到100+,且可根据业务规则灵活拼接处理流程, 提供高准确性和高一致性4) ETL提供基于Web的监控管理中心,在满足核心业务需求的同时提供易用、可视的运 维、监控、管理、监视的统一管理能力3 TI-ETL v2 简介东方通数据集成产品TI-ETL,提供对企业数据的集成处理功能通过TI-ETL产品,用户 可以从不同结构的数据源中抽取数据(Extract),对数据进行复杂的加工处理(Transform),最后将数据加载到各种存储结构中(Load)例如实现从多个异构的数据源 (不同数据库、结构化文件等)抽取数据,并加工成统一的数据格式,最后加载到数据仓库 中,供商业智能(Business Intelligent, BI)等应用使用TI-ETL提供一个简单易用的开发、管理工具,提供覆盖从数据集成逻辑的设计、开发、 调试、部署,到运行、管理、监控各个生命周期不同阶段的集成开发工具通过TI-ETL可以 实现对数据集成流程的开发和部署;通过监控和日志功能,可以实现对数据集成的运行过程进 行实时监视,对集成流程历史数据进行分析TI-ETL提供了一个强健、高效的数据处理引擎,支撑各种复杂的数据转换流程、任务调 度流程的高效运行。

      引擎采取异步并行处理的技术,实现流程中的每个组件多线程并行高效处 理;支持集群部署方式,允许将转换或转换中的比较耗时的数据处理组件部署在多台服务器上 并发执行,从而将转换的工作分摊到多台服务器上,从而提高TIETL的数据处理效率TI-ETL基于Java技术和标准数据库接口(JDBC、ODBC等),支持部署在各种主流操作系 统和国产操作系统上,支持与各种主流数据库、开源数据库、国产数据库的接入,支持对各种 结构化/非结构化格式文件的读写,以及通过多种协议与其他应用系统的交互TI-ETL提供大量的任务组件和转换组件,如多源的数据合并、数据的路由、数据行列转 换、字典表查询、定时重启、循环调度、流程告警等,用户可以通过拖拽方式快速完成各种复 杂的数据集成需求和集成的调度控制,无需人工编码,快速构建数据集成应用TI-ETL提供Web形式的统一管理平台,用于将分布式网络环境中部署的TI-ETL服务器运 行实例及运行在TI-ETL服务内的任务流程集中统一管理监控提供功能级和数据集的权限管 理,可定义的错误告警机制,自定义面板等同时管理平台提供丰富的管理Rest API接口和 方便的管理扩展机制,方便客户集成统一管理平台并扩展自己的插件集成到平台中。

      3.1 产品组成结构TI-ETL产品架构由集成开发工具TI-ETL Studio、TI-ETL服务器、资源库、统一管理平 台四大核心部分组成,如下图所示ETLIE^S监控口认证权限元載据 日志 幽池 鞠 异常照度铸换引单 任芳引单样换组件 鶉换趣 任労组件 闲裁换4管 理平台弓賢'-r口ETL引啜. L J裁据库资騒文件S3SB元姻贾薄IC节点苣遵图:TI-ETL v2产品组成结构3・1・1集成开发工具TI-ETL Studi集成开发工具是一个集开发、调试、配置、部署、执行、监控、日志、管 理等功能于一体的平台通过该平台实现从数据集成需求到实现的快速转化,并实现对整个生 命周期的管理>开发/调试TI-ETL Studio提供大量的任务组件和转化组件,通过这些组件,以图形化的方式,实现 数据集成流程的快速编排TI-ETL Studio还提供了功能强大的调试预览功能,可以在开发过程中实现数据行级别的 调试和预览,跟踪和观察每一行数据经过数据集成流程中每一个转化组件进行加工处理的结 果通过集成开发工具开发调试完成的数据集成流程保存到资源库中统一存储管理>远程管理TI-ETL Studio通过ETL服务器的远程接口,实现对服务器的管理。

      包括数据集成流程的 分布式部署、远程执行、对执行状态的实时监控、对执行日志进行查看和分析TI-ETL Studio的监控管理功能可以对运行中的流程执行暂停、开始、停止、解部署等控 制,同时还可以对数据处理状态进行实时监控,包括每个组件处理的记录数、过滤的记录数, 并且可以得到每个组件处理数据的性能指标和整个集成流程的性能指标3・1・2服务器TI-ETL服务器是一个TI-ETL的逻辑节点,包含对数据集成流程的执行能力,并通过HTTP 协议对外开放对服务器的管理接口> ETL引擎TI-ETL服务器包含两个执行引擎:任务引擎和转换引擎,分别实现对任务调度管理的任 务流程和完成对实际数据抽取、加工处理、加载的转换流程的执行在TI-ETL服务器启动时,可以检查部署在该节点上的数据集成流程,并执行配置为“自 动重启动”的流程,其他非自动重启动的流程需要手工启动在TI-ETL数据流程中,数据是以行为单位进行处理,如下图所示,TI-ETL通过两个对象 描述一个数据行:数据对象和元信息对象数据对象实际的行数据,由一个或多个数据列(字 段)组成;元信息对象用于描述数据对象,包括数据对象中每个列(字段)的类型、长度、格 式等。

      Record 1FtBCDid^- I>监控管理接口TI-ETL服务器还提供了对运行时的监控和管理功能,这些功能通过Java、HTTP、REST等 多种封装形式对外开放通过这些接口,第三方应用可以将监控管理功能集成到自己的管理控 制台中进行统一监控管理,实现对TI-ETL的远程管理,如流程部署、流程控制、转换监控、 日志查看等功能>认证授权TI-ETL服务器提供了完善的认证授权机制,只有通过认证和授权的用户,才可以通过监 控管理接口实现对服务器的管理和监控3・1・3资源库TI-ETL资源库用于持久化存储TI-ETL的元数据,包括ETL服务器的配置信息、任务流程 信息、转换流程信息、基础资源信息(如数据库连接)等TI-ETL提供基于关系型数据库和文件系统两种类型的资源库一般文件系统资源库为本 地库,在开发阶段使用;基于关系型数据库的资源库为共享库,可以作为开发库和生产库使 用TI-ETL Studi可以连接多。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.