电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

dw2.0下一代数据仓库的架构读书笔记

5页
  • 卖家[上传人]:wt****50
  • 文档编号:37706921
  • 上传时间:2018-04-21
  • 文档格式:PDF
  • 文档大小:202.37KB
  • / 5 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、DW2.0DW2.0-下一代数据仓库的架构读书笔记下一代数据仓库的架构读书笔记 在公司花了一天时间把这本书翻完了, 这本书是 PM 借我看的, 之前一直忙项目, 没有时间看,在国庆期间就想把它看完早点还了。书不厚,才 218 页,所以比较 快的看完了,总算完成了既定目标。这本书是老外写的,但是翻译的不错。至少 我从头读到尾没感觉很不顺畅的地方。看封面上写的主要四个人翻译的,看来多 点人翻译校对,翻译质量还是能够上去的嘛。这本书写的挺好,介绍了数据仓库 的一些基本知识,虽然多是概念上的东西,没有什么实际案例,但是对于我入门 还是挺有帮助的。 书的章节后都会有一个总结,整理的很好,有时候我会先看总结,然后再针对性 的看详细内容,这样看起来效率蛮高,效果也不错。主要内容是介绍了 DW2.0 只区别于之前的数据仓库的变化,以及 DW2.0 中采用的一些方案,从数据的生命 周期, 谈到数据模型, 如何应对不断变化的业务需求, ETL 在数据仓库中的角色, 以及后面的性能,成本考虑以及对非结构化数据的处理。感觉有些概念是需要记 下的,大部分内容就摘录总结的内容了。 DW2.0 是新一代数据仓库的构

      2、架 。DW2.0 和第一代数据仓库有很大的差别。四个 最大的差别如下: 1,随着数据进入并存储于数据仓库,产生了对数据生命周期的认识。 2,数据仓库中包含非结构化数据。 3,DW2.0 环境包含元数据。 4,DW2.0 的技术基础能够随着时间而变化。 DW2.0 的四个主要的生命周期区: 1,交互区,数据仓库一更新模式在交易响应时间水平下完成构建 2,整合去,数据在这里经过整合并完成分析处理 3,近线区,作为整合区数据的一个缓存区域 4,归档区,存放访问概率显著下降但仍有可能访问的数据 以上的四个区,按照数据的时间进行划分,交互区的数据非常新,比如刚 2 秒的 数据。 整合区大概有 24 小时或一个月之久的数据。 而近线区存放 34 年的数据, 作为整合区的一个缓存,如果有些数据不被频繁的访问到,则可能会将数据从整 合区放到近线区,反之也有可能移回整合区,在很多方面,近线区就是整合区的 延伸,近线区时可选择的,亦即数据不一定需要经过这一区。但是当数据量非常 大并且数据间的访问概率差别很大时,就可以利用近线区来处理。后面提到近线 区的存储成本比整合区要低很多。归档区存放超过 5 年甚至

      3、10 年的数据,这些 数据一般不会被查询到,但是不排除专门的数据分析师会用到,所以还是需要存 储的。 设置不同区的原因: 由于数据的访问概率和访问模式差别很大。比如交互区的数据被频繁访问,并且 其访问模式是随机访问。这样就有必要将数据进行划分,区别对待,不同区的数 据采用的技术会有所不同。在经典的数据仓库中,所有的数据都被存放在磁盘存 储器上,好像所有的数据都有平等的访问机会。这样其实会导致数据越聚越多, 造成经常被访问的数据的访问效率下降, 对不同的数据要求的响应时间也会不同, 比如历史很久的数据, 查询很少, 可以忍受等几个小时或一天的时间等数据出来。 而最近的数据会被经常访问到,希望是秒杀级的速度。所以要将数据进行分区, 集中性的处理。这样层次上也比较清晰。 数据是会会随着时间流动的,慢慢的从交互区,最终移动到归档区。数据的结构 在不同的区之间可能会做些改变。不同的生命周期,数据的访问方式和分析手段 会不同, 对数据的响应要求也会改变, 这样就会利用 ETL 或其他应用程序来处理。 整合区整合区 的数据是在对交互区中的数据通过 ETL 层处理后收集得到的。 在进行 ETL 处理时

      4、, 同时进行数据的质量处理。 简单的数据质量处理就是域检查和范围检查。 访问整合区中数据事务处理仅限于读取数据。这不像交互区中,删除,修改,整 合区中的数据只能访问,不能更新。整合区中的数据不能添加,删除,修改意味 着不溶于数据的更改,而是可以以一种不同的方式完成对数据的更改。整合区对 于同一时间提出的问题保证了回答的一致性。 整合区中有两种相关的参照完整性。 第一张是区间参照完整性,区间参照完整性指的是交互区通过各区时的完整性。 就是说,当数据从交互区进入整合区时,数据必须有可辨别的源和目的以确保数 据不会丢失。整合区中另一种参照完整性是相同区内的参照完整性,这种完整性 意味着同一区内数据元素之间可能存在某种关系。 整合区的数据通常与使用它的某一特定版本的软件是兼容的。 到归档数据被从归 档环境中检索出来时,使用它们的这个版本的软件可能早已不存在了。因此,把 归档区的数据结构设计的与整合区一样是不明智的 。没有任何理由不允许数据 以两种格式存放在归档环境-一种是整合区中的源格式,另一种是更为简单通用 的格式。 近线区近线区 就像是整合区的一个缓存缓存 。 近线区基于非磁盘存储技术运行

      5、, 其中包含 了整合区中数据的镜像。 近线区通过人工或者一种跨媒介存储管理(CMSM)方法与 整合区连接。近线区的工作流主要是不频繁的数据读取。但是数据的读取都是集 中进行的。当数据的访问频率下降时就被放入近线区。 DW2.0 中的元数据 DW2.0 中的每个区中都有各自的元数据, 其中包括交互区元数据, 整合区元数据, 近线区元数据以及归档区元数据。归档区元数据不同于其他元数据,这是因为归 档区元数据直接置于归档数据中, 以确保元数据不会跟其所描述的基础数据分离 或丢失。 DW2.0 的方法与途径 成功实施 DW 不是一次性可以完成的,存在需求不明确,开发周期长等问题。所 以企业需要采用一种螺旋型的开发方法, 以快速多次迭代的方式完成数据仓库的 开发。每次迭代的开发周期不应超过 3 个月 。引入 螺旋式方法 时第二代数据 仓库迈向成功的关键一步,其被证明是建立数据仓库最为行之有效的方法。螺旋 式方法因为“ 七流法 ”的实施,其功能更为强大。数据仓库/商业智能项目方 法的七种流的每一种都侧重于企业数据结构的不同方面, 并且都采用不同的和相 应合适得工作方法: 1,企业参考模型流:以对象

      6、为单位建立的企业参考模型 2,企业知识协调流:以工作为单位建立的企业知识协调 3,信息工厂开发流:以主题为单位建立的信息工厂开发 4,数据归档定位流:以源为单位建立的数据归档和定位 5,数据纠正流:以属性为单位建立的数据校正 6,基础设施流:以组件为单位建立的基础设施管理 7,整体信息质量管理流:以工序为单位建立的整体信息质量管理 以上的每一事件流是根据不同的步调进行的。 每一个流是同步开始和并发驱动的, 并且需要监控和协调。 数据模型与 DW2.0 建立数据模型的第一步是定义整合范围。数据模型建立在企业的数据基础之上, 但是大多数机构有大量的数据,这样即使定义了整合范围,仍然可能导致数据模 型的建立永无休止。在这种情况下,要明确的区分粒状型数据和概括型数据。 区别粒状型数据和概括型数据: 粒状型数据是指体现最底层意义的数据。一个人的姓名是粒状型数据,生日也是 粒状型数据,薪水在一个时段内也可以看成是粒状型数据。概括型数据则是诸如 一天的交易量,一个月的收入,一年企业的员工数,一个季度内的国民生产总值 之类的数据。 关于为什么要区别 粒状型数据和概括型数据 主要有以下几个原因: 1,概

      7、括型数据远远多于粒状型数据 2,概括型数据变化速度比对其建模过程要快 3,概括型数据自身携带描述其是如何形成的算法。 如果数据模型中包含概括型数据,那么该模型肯定不能完成。 数据模型包括三个 层次 -ERD 层,中间层以及底层。 交互区的形成由应用模型决定,整合区的形成由企业数据模型决定。 一些数据模型可以被用在非结构数据中。 特别是外部分类可以有为它们建立的数 据模型。另外,内部数据模型可以根据主题建立模型,这些主题是根据文本产生 的。 监视机制: 数据仓库在大部分情况下,就像是一个黑盒,随着时间的变化,数据仓库会出现这样或那样的问题,所以要有相应的监视机制,在发生问题时能够提前通知,而 不是我们被动的去做。在 DW2.0 环境中至少需要三种监视 :事务监视(包含响应 时间,高峰期处理的资源使用情况,检测工作力量,队列长度等),数据质量监 视(包含 ETL 数据质量,转化数据的完整一致性),数据仓库监视(检测数据的使 用频度,休眠情况,通过嗅探 sql 可以做到) ETL 与 DW2.0 ETL 是用于转换数据状态的过程。数据通过 ETL 处理后由应用状态转换为企业状 态。ETL 处

      8、理发生在数据进入交互区时,在数据由交互区向整合区过渡时会再次 发生。ETL 可以以在线模式或批处理模式运行。以在线模式运行时强调的是数据 的移动,而以批处理模式运行时强调的是数据的转换。 在大量的数据需要进入 目的地时,ETL 处理可以以一种并行的方式运行。ETL 的一个副产品是用于描述 数据移动的元数据,它的另一个副产品是审核记录。除了数据转换之后,ETL 处 理还包含了简单的数据质量检查。 DW2.0 的性能问题 有两种类型的性能:事务型和分析型。当事务型处理的性能出现问题时,公司的 操作型活动会受到影响,而当分析型处理的性能出现问题时,公司的分析能力就 会受到影响。 提升性能 可以采用以下方法: 1,选择合适的索引 2,尽快移除休眠数据 3,培训终端用户怎样识别好的和差的代码 4,监控事务和数据仓库环境,以便当性能变差时,可以有一个用于判断到底出 现什么错误的起点 5,规划容量以便组织可以预见资源将要被用完 6,升级,保证正在使用的是最新版本的硬件和软件 7,元数据,以便利用重用性,最小化所需的工作量 8,批处理,减少消耗的时间 9,事务并行,有效的处理大的工作负荷量 10,工作负荷量管理,保证一项工作不会因为大小而合其他工作冲突 11,数据集市,完成从中央数据仓库中转出的主要的分析型处理 12,探索工具,将统计型处理移动到其他位置进行 13,基于事务所要使用的资源将事务分为不同的类 14,服务标准协议,建立量化的指标来衡量性能 15,保护交互区来最小化资源的争夺 16,将数据分成不同类别来分别管理 17,选择合适的硬件和软件来实现性能 18,区别农民和探索者的工作 19,非正规化数据,将经常会被同时访问的数据物理的放到一起 20,检查由工具(如商业智能工具)自动产生的代码 数据集市 包含了用于做决策的部门数据。有若干理由支持建立数据集市: 1,机器周期成本低 2,终端用户拥有控制权 3,DW2.0 的性能得以提升

      《dw2.0下一代数据仓库的架构读书笔记》由会员wt****50分享,可在线阅读,更多相关《dw2.0下一代数据仓库的架构读书笔记》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2 2022年小学体育教师学期工作总结
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.