dw2.0下一代数据仓库的架构读书笔记
5页1、DW2.0DW2.0-下一代数据仓库的架构读书笔记下一代数据仓库的架构读书笔记 在公司花了一天时间把这本书翻完了, 这本书是 PM 借我看的, 之前一直忙项目, 没有时间看,在国庆期间就想把它看完早点还了。书不厚,才 218 页,所以比较 快的看完了,总算完成了既定目标。这本书是老外写的,但是翻译的不错。至少 我从头读到尾没感觉很不顺畅的地方。看封面上写的主要四个人翻译的,看来多 点人翻译校对,翻译质量还是能够上去的嘛。这本书写的挺好,介绍了数据仓库 的一些基本知识,虽然多是概念上的东西,没有什么实际案例,但是对于我入门 还是挺有帮助的。 书的章节后都会有一个总结,整理的很好,有时候我会先看总结,然后再针对性 的看详细内容,这样看起来效率蛮高,效果也不错。主要内容是介绍了 DW2.0 只区别于之前的数据仓库的变化,以及 DW2.0 中采用的一些方案,从数据的生命 周期, 谈到数据模型, 如何应对不断变化的业务需求, ETL 在数据仓库中的角色, 以及后面的性能,成本考虑以及对非结构化数据的处理。感觉有些概念是需要记 下的,大部分内容就摘录总结的内容了。 DW2.0 是新一代数据仓库的构
2、架 。DW2.0 和第一代数据仓库有很大的差别。四个 最大的差别如下: 1,随着数据进入并存储于数据仓库,产生了对数据生命周期的认识。 2,数据仓库中包含非结构化数据。 3,DW2.0 环境包含元数据。 4,DW2.0 的技术基础能够随着时间而变化。 DW2.0 的四个主要的生命周期区: 1,交互区,数据仓库一更新模式在交易响应时间水平下完成构建 2,整合去,数据在这里经过整合并完成分析处理 3,近线区,作为整合区数据的一个缓存区域 4,归档区,存放访问概率显著下降但仍有可能访问的数据 以上的四个区,按照数据的时间进行划分,交互区的数据非常新,比如刚 2 秒的 数据。 整合区大概有 24 小时或一个月之久的数据。 而近线区存放 34 年的数据, 作为整合区的一个缓存,如果有些数据不被频繁的访问到,则可能会将数据从整 合区放到近线区,反之也有可能移回整合区,在很多方面,近线区就是整合区的 延伸,近线区时可选择的,亦即数据不一定需要经过这一区。但是当数据量非常 大并且数据间的访问概率差别很大时,就可以利用近线区来处理。后面提到近线 区的存储成本比整合区要低很多。归档区存放超过 5 年甚至
3、10 年的数据,这些 数据一般不会被查询到,但是不排除专门的数据分析师会用到,所以还是需要存 储的。 设置不同区的原因: 由于数据的访问概率和访问模式差别很大。比如交互区的数据被频繁访问,并且 其访问模式是随机访问。这样就有必要将数据进行划分,区别对待,不同区的数 据采用的技术会有所不同。在经典的数据仓库中,所有的数据都被存放在磁盘存 储器上,好像所有的数据都有平等的访问机会。这样其实会导致数据越聚越多, 造成经常被访问的数据的访问效率下降, 对不同的数据要求的响应时间也会不同, 比如历史很久的数据, 查询很少, 可以忍受等几个小时或一天的时间等数据出来。 而最近的数据会被经常访问到,希望是秒杀级的速度。所以要将数据进行分区, 集中性的处理。这样层次上也比较清晰。 数据是会会随着时间流动的,慢慢的从交互区,最终移动到归档区。数据的结构 在不同的区之间可能会做些改变。不同的生命周期,数据的访问方式和分析手段 会不同, 对数据的响应要求也会改变, 这样就会利用 ETL 或其他应用程序来处理。 整合区整合区 的数据是在对交互区中的数据通过 ETL 层处理后收集得到的。 在进行 ETL 处理时
4、, 同时进行数据的质量处理。 简单的数据质量处理就是域检查和范围检查。 访问整合区中数据事务处理仅限于读取数据。这不像交互区中,删除,修改,整 合区中的数据只能访问,不能更新。整合区中的数据不能添加,删除,修改意味 着不溶于数据的更改,而是可以以一种不同的方式完成对数据的更改。整合区对 于同一时间提出的问题保证了回答的一致性。 整合区中有两种相关的参照完整性。 第一张是区间参照完整性,区间参照完整性指的是交互区通过各区时的完整性。 就是说,当数据从交互区进入整合区时,数据必须有可辨别的源和目的以确保数 据不会丢失。整合区中另一种参照完整性是相同区内的参照完整性,这种完整性 意味着同一区内数据元素之间可能存在某种关系。 整合区的数据通常与使用它的某一特定版本的软件是兼容的。 到归档数据被从归 档环境中检索出来时,使用它们的这个版本的软件可能早已不存在了。因此,把 归档区的数据结构设计的与整合区一样是不明智的 。没有任何理由不允许数据 以两种格式存放在归档环境-一种是整合区中的源格式,另一种是更为简单通用 的格式。 近线区近线区 就像是整合区的一个缓存缓存 。 近线区基于非磁盘存储技术运行
《dw2.0下一代数据仓库的架构读书笔记》由会员wt****50分享,可在线阅读,更多相关《dw2.0下一代数据仓库的架构读书笔记》请在金锄头文库上搜索。
高电压技术 第一章第四节 起始电压与气压的关系
风湿免疫病的新认识与新进展
频数分布表与频数分布直方图1
青岛版九上1.1《平行四边形及其性质》(1)
集团整体业务群的战略安排
金钱_共同面对的话题71171
重要有机物的制备
重性精神疾病的防治培训
酵母醇脱氢酶的提取及专一性测定
高二选修(溶液的酸碱性)2010hy
高二生物必修3《生态系统的物质循环》课件
高一数学集合的基本关系
陈-从梯子的倾斜程度谈起(2)
阿卡宁衍生物合成产物中乙酰胆碱酯酶抑制剂的筛选 -
课题1 海带中碘元素的分离及检验
说不尽的桥课件1
语法--英语词性分类及用法
记忆与知识的储存
解读“引起近视的其它原因”
计算机算法设计与分析(第3版)第2章
2023-07-24 59页
2023-03-30 2页
2023-03-10 10页
2022-07-11 1页
2022-07-11 1页
2022-07-11 2页
2022-07-11 2页
2022-07-11 1页
2022-07-11 2页
2022-07-11 1页