什么是数据处理中的ETL
4页1、ETL,Extraction-Transformation-Loading的缩写,中文名称为数据抽取、转换和加载。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。ETL是数据仓库中的非常重要的一环。它是承前启后的必要的一步。相对于关系数据库,数据仓库技术没有严格的数学理论基础,它更面向实际工程应用。所以从工程应用的角度来考虑,按着物理数据模型的要求加载数据并对数据进行一些系列处理,处理过程与经验直接相关,同时这部分的工作直接关系数据仓库中数据的质量,从而影响到联机分析处理和数据挖掘的结果的质量。数据仓库是一个独立的数据环境,需要通过抽取过程将数据从联机事务处理环境、外部数据源和脱机的数据存储介质导入到数据仓库中;在技术上,ETL主要涉及到关联、转换、增量、调度和监控等几个方面;数据仓库系统中数据不要求与联机事务处理系统中数据实时同步,所以ETL可以定时进行。但多个ETL的操作时间、顺序和成败对数据仓库中信息的有效性至关重要。ETL(Extract-Transform
2、-Load的缩写,即数据抽取、转换、装载的过程)作为BI/DW(Business Intelligence)的核心和灵魂,能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。如果说数据仓库的模型设计是一座大厦的设计蓝图,数据是砖瓦的话,那么ETL就是建设大厦的过程。在整个项目中最难部分是用户需求分析和模型设计,而ETL规则设计和实施则是工作量最大的,约占整个项目的60%80%,这是国内外从众多实践中得到的普遍共识。ETL是数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程。是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。信息是现代企业的重要资源,是企业运用科学管理、决策分析的基础。目前,大多数企业花费大量的资金和时间来构建联机事务处理OLTP的业务系统和办公自动化系统,用来记录事务处理的各种相关数据。据统计,数据量每23年时间就会成倍增长,这些数据蕴含着巨大的商业价值,而企业所关注的通常只
3、占在总数据量的24左右。因此,企业仍然没有最大化地利用已存在的数据资源,以致于浪费了更多的时间和资金,也失去制定关键商业决策的最佳契机。于是,企业如何通过各种技术手段,并把数据转换为信息、知识,已经成了提高其核心竞争力的主要瓶颈。而ETL则是主要的一个技术手段。如何正确选择ETL工具?如何正确应用ETL?目前,ETL工具的典型代表有:Informatica、Datastage、OWB、微软DTS数据集成:快速实现ETLETL的质量问题具体表现为正确性、完整性、一致性、完备性、有效性、时效性和可获取性等几个特性。而影响质量问题的原因有很多,由系统集成和历史数据造成的原因主要包括:业务系统不同时期系统之间数据模型不一致;业务系统不同时期业务过程有变化;旧系统模块在运营、人事、财务、办公系统等相关信息的不一致;遗留系统和新业务、管理系统数据集成不完备带来的不一致性。实现ETL,首先要实现ETL转换的过程。它可以集中地体现为以下几个方面:空值处理 可捕获字段空值,进行加载或替换为其他含义数据,并可根据字段空值实现分流加载到不同目标库。规范化数据格式 可实现字段格式约束定义,对于数据源中时间、数
《什么是数据处理中的ETL》由会员苏****分享,可在线阅读,更多相关《什么是数据处理中的ETL》请在金锄头文库上搜索。
《组织能力的突破:从杨三角看领先企业成功之道》杨国安
2022年第一季度人力资源关键指标专项调研报告
《全球中小微企业在疫情后时代的挑战、应对与转型》
个人信用信息基础数据库数据接口规范
CFCA统一的电子商务安全网上支付平台-系统安装指南
1104工程培训资料_模块09_信用风险分析
基础数据平台作业调度监控系统详细设计说明书
中小企业信贷系统用户需求规格说明书_合同管理
信贷统计监测数据系统详细设计说明书
非现场监管报表指标体系(金融机构法人机构适用)基础报表、特色报表填报说明
经营分析系统用户ETL测试计划书(ABIS部分)
经营分析系统工作汇报
Unix系统知识培训
经营分析系统测试大纲(ELT案例)
经营分析系统测试案例(OLAP案例)
顺义新城林河南大街配套工程实施方案
银行卡统计分析系统详细设计说明书(前台)
银行卡统计分析系统多维应用服务器安装部署
银行卡统计分析系统数据准确性测试案例
银行卡统计分析系统报表数据准确性测试案例
2023-05-19 5页
2023-05-19 13页
2023-05-19 4页
2023-05-19 12页
2023-05-19 10页
2023-05-19 4页
2023-05-19 4页
2023-05-19 4页
2023-05-19 1页
2023-05-19 39页