硬件是如何影响数据库的发展_光环大数据数据库培训.docx
8页光环大数据光环大数据--大数据培训知名品牌大数据培训知名品牌 光环大数据光环大数据 硬件是如何影响数据库的发展硬件是如何影响数据库的发展_ _光环大数据数据库培训光环大数据数据库培训光环大数据培训机构,这是数据库权威,图灵奖获得者 Michael Stonebraker 的一次访谈 在这篇访谈里,他主要讨论了硬件的发展是如何影响的数据库的读完的感受是私货不少,有为其新公司 Tamr 打广告的嫌疑,但是作为数据库 鼻祖,他的一些观点还是很值得讨论和回味的所以花了几个小时翻译出来, 以飨读者 匆匆翻译,谬误肯定不少欢迎大家在评论里指出在 20 世纪 70 年代和 80 年代,加州大学伯克利分校成为软件技术的温床的原因 之一是 Michael Stonebraker 他是关系数据库技术的先驱之一,也是业界最 大和最具声望的行动派之一 也是最连续多产的企业家之一和其他数据库开发者一样,Stonebraker 也读了 IBMer Edgar Codd 的早期关 系数据模型论文。
从 1973 年开始,在 IBM System R 数据库的基础上 Stonebraker 开始了 Ingres 数据库的工作这项工作最终成了后来的 DB2 在进入这个领域数年之后,Stonebraker 也开始了 Oracle 的同名数据库开始工作在早期数据库耕耘数十年之后,Stonebreaker 帮助创建了现在常用的 Postgres Postgres 是 Ingres 下一代产品 同时, 他也是关系数据库制 造商 Informix 的首席技术官 Informix 在多年前被 IBM 收购;也最近刚刚 被淘汰的数据库产品 更重要的是,他是共享数据仓库的 C-store 的研究人 员之一 这个数据库最终被商业化为 Vertica 几年之后,Stonebraker 和 朋友们开始了 H-Store 的工作 这是一个分布式,基于内存的 OLTP 系统, 最终也被商业化为 VoltDB Stonebraker 从来没有一个人静静坐着,他一直 努力创建一个基于数组名为 SciDB 的的数据库 这个数据库是针对技术应用 程序的需求进行了明确优化调整的 这个数据库是跟数组相关的,而不是传统 关系模型中的表格。
光环大数据光环大数据--大数据培训知名品牌大数据培训知名品牌 光环大数据光环大数据 这是作为麻省理工学院计算机科学的兼职教授的,并一直在数据库世界里贡献自己力量的 Stonebraker 的一个非常简短和过于简单的历史有了如此多的新的计算,存储和网络技术进入该领域以及如今可用的许多不同的数据库和数据存储技术,我们认为与 Stonebraker 接触将是一个好主意,以 了解这些可能对未来数据库的影响TimothyTimothy PrickettPrickett MorganMorgan::在数据和存储方面,某种程度上,你熟知一切,所 以我想要深入了解,了解新的计算和存储硬件(特别是持久的内存)上市,将 如何影响近期和远期数据库的 与现在截然不同的是,让我们假设 DRAM 和闪 存再次变得更便宜,像 3D XPoint 这样的技术在 SSD 和 DIMM 形状因素中都会上 市 这些硬件上的进步使内存更大,更便宜,并且闪存获得比磁盘驱动器更接 近需要被计算的数据 我们是否需要重新考虑把所有东西都塞进内存的想法吗?毕竟新技术开辟了很多可能性。
MichaelMichael StonebrakerStonebraker::问题是不断变化的存储结构以及它与数据库的关系我们 OLTP 开始吧在我看来,这是一个主要的内存系统,现在有一大堆新兴的 公司正在处理这个市场1 TB 的大小的 OLTP 数据库是一个非常大的数据库, 但是 1 TB 的内存已经不是什么大不了的事情了所以我认为将 OLTP 完全放 在内存中是任何关心性能的人的选择如果您不关心性能,估计在手表上运行 数据库也是个不错选择在数据仓库领域,所有的驱动力都来自于有着千万亿次计算( petascale) 的数 据仓库 这个市场也将将无限期地成为一个基于磁盘的市场业务分析师和数 据科学家一直想要将越来越多的数据关联的想法存储与数据仓库的数据大小 的增速远远超过磁盘驱动器越来越便宜的速度光环大数据光环大数据--大数据培训知名品牌大数据培训知名品牌 光环大数据光环大数据 当然,这个反例就是 Facebook 这样的公司 如果你公司足够大,你可能会有不同的策略 Facebook 一直在 SSD 上一投资了很多钱。
SSD 是用于存储热数 据冷数据将永远在磁盘上,或者直到一些其他真正便宜的存储技术如果您拥有 1 TB 的数据仓库,那么 Vertica 社区版可以免费使用低端系统软件将基本上免费如果你关心性能,它将在内存中;如果你不关心性能,它 将在磁盘上看看数据仓库供应商是否投入更多的多层次存储层次结构是非常 有趣的TPMTPM::当这些持久化内存技术(如 3D XPoint 或 ReRAM)进入组合时会发生什么?MichaelMichael StonebrakerStonebraker::我没有看到这些是威胁力的因为这些所谓的持久化存 储是不够快而去取代内存的而且它们不够便宜,无法替代磁盘, 也不足以替 代闪存现在还有待观察:3D XPoint 将会如何快速发展以及多么便宜我预见在两级 store 和三级 stroe 上运行的数据库,但我怀疑他们将能够管 理四级 store,因为这样做的话对于软件工程而言太困难了但是存储层次结 构将会在存储层次结构中确定什么样的内容主内存将在顶部,磁盘将在底部, 我们知道,并将有通用的系统之间的东西对于 OLTP 系统,将会在主内存, 故事结尾,像 VoltDB 和 MemSQL 这样的公司是主要的内存 SQL 引擎。
对我来说,有趣的是,一旦我们可以训练足够的数据科学家去做,商业智能将 被数据科学所取代商业智能是 SQL 聚合友好的面孔数据科学是预测分析, 回归,K 均值聚类等等,它们都是数组上的线性代数数据科学如何整合到数 据库系统中是关键光环大数据光环大数据--大数据培训知名品牌大数据培训知名品牌 光环大数据光环大数据 现在,这是蛮荒的西部(美国历史上的西部拓荒运动)现在流行的是Spark,但它完全与数据存储断开连接因此,一个选择是数据科学只是数据库 系统外部的应用程序另外一个选择是基于数组的数据库系统将变得流行,SciDB,TileDB 和 Rasdaman 是三种这样的可能性不清楚数组数据库的广泛应用,但是在基因组 学中肯定会受到欢迎,这些都是使用数组数据除此之外的选择是,目前的数据仓库供应商将允许用户采用数据科学功能他 们已经在 R 中允许用户定义的功能尚待观察 Spark 将会发生什么 – 无论 今天如何,明天都会有所不同所以在数据科学中,这是未开垦的处女地TPMTPM::我们讨论了不同的技术,以及它们如何插入存储结构。
但是计算结构呢?我正在考虑 GPU 加速的数据库,如 MapD,Kinetica,BlazingDB 和 SqreamMichaelMichael StonebrakerStonebraker::这是我更感兴趣的事情之一,如果要进行顺序扫描或浮 点计算,GPU 会非常快速 GPU 的问题是如果您将所有数据都存储在 GPU 内 存中,那么它们的速度非常快,否则您必须从其他地方加载数据,而加载是瓶 颈在你可以加载到 GPU 内存的小数据上,他们肯定会在低端获得您想要超高 性能的应用程序数据库空间的其余部分,还有待观察 GPU 会如何流行对我来说最有趣的是,网络速度越来越快,CPU 的速度越来越高,内存越来越 快基本上目前所有的多节点数据库系统都是在网络瓶颈的前提下设计的原 来,没有人可以全部利用 40 Gb/s 以太网事实上,在过去五年中,我们已经 从 1 Gb/s 升级到 40Gb/s 以太网,而同时,虽然 8 个节点的集群已经变得更 快一些,但是几乎不到 40 倍,内存也是这样所以网络可能不再是瓶颈了光环大数据光环大数据--大数据培训知名品牌大数据培训知名品牌 光环大数据光环大数据 TPMTPM::当然没有 100 Gb/s 以太网有魅力,供应商们表示可以提供可在未来一两年内驱动 200 Gb/s 甚至 400 Gb/s 的 ASICs。
MichaelMichael StonebrakerStonebraker::这意味着每个人必须要都重新考虑他们的基本分区架构,我认为这将是一件大事TPMTPM::那个拐点什么时候到呢,多少带宽就够了?当您可以执行 400 Gb/s 甚至 800 Gb/s 的时候,选择一个的具有 300 纳秒延迟的协议?MichaelMichael StonebrakerStonebraker::我们来看看 Amazon Web Services 的例子机架顶部 的连接通常为 10 Gb/s图形为 1 GB/s通过比较,节点之间的交叉点是无限 快的但是网络那么快,磁盘能这么快的把数据拿出来吗?如果数据是从磁盘 读取的,每个驱动器是 100 MB/s,RAID 配置为十个并行的磁盘才勉强跟上网 络的数独所以真正的问题是相对于网络,存储有多快我的一般怀疑是,网络进步将至少与存储系统一样强大,数据库系统在这一点上将不会受到网络的约束,同时也会有一些瓶颈如果你在做跟数据科学相关 的工作,则瓶颈是 CPU 因为你的工作需要进行奇异值分解,这是相对于查看 的单元格数量的三倍运算如果你正在做传统的商业智能的工作,那么存储可 能是限制;如果你做 OLTP,内存则会成为局限。
使用 OLTP,每秒执行 100 万次交易是小事情这些操作可以在 VoltDB 和 MemSQL 等上进行 Oracle,DB2,MySQL,SQL Server 和其他人每秒无法做 100 万次事务,这些软件开销太大了我们在 2009 年写了一大堆文章,我们配置了一个开源数据库系统,并对其进行 了详细的测量,我们假设所有的数据都适合主内存所以基本上一切都在缓存光环大数据光环大数据--大数据培训知名品牌大数据培训知名品牌 光环大数据光环大数据 中我们想衡量不同数据库功能的成本在数量上,管理缓冲池是个大问题一分钟你有一个缓冲池,那么你必须从中获取数据,将其转换为主内存格式, 对其进行操作,然后将其放回来,如果它是一个更新,并找出哪些块是脏的并 保持 LRU 列表和所有这些东西所以这是大约三分之一的开销多线程是开销 的三分之一,数据库系统有很多关键部。

卡西欧5800p使用说明书资料.ppt
锂金属电池界面稳定化-全面剖析.docx
SG3525斩控式单相交流调压电路设计要点.doc
话剧《枕头人》剧本.docx
重视家风建设全面从严治党治家应成为领导干部必修课PPT模板.pptx
黄渤海区拖网渔具综合调查分析.docx
2024年一级造价工程师考试《建设工程技术与计量(交通运输工程)-公路篇》真题及答案.docx
【课件】Unit+3+Reading+and+Thinking公开课课件人教版(2019)必修第一册.pptx
嵌入式软件开发流程566841551.doc
生命密码PPT课件.ppt
爱与责任-师德之魂.ppt
制冷空调装置自动控制技术讲义.ppt


