电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

BI基础知识测试

12页
  • 卖家[上传人]:s9****2
  • 文档编号:507384738
  • 上传时间:2023-03-05
  • 文档格式:DOCX
  • 文档大小:18KB
  • / 12 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、BI 基 础 知 识 测 试一、填空题:每空1 分,共 40 分1、 商业智能技术(Business Intelligence), 以、为核心技术,同时融合了和技术。2、 数据抽取在技术上主要涉及互连、监控以及等方面。3、 业界主要的数据抽取工具有、DataStage和Sagent等4、 业界主要的OLAP Server有: 、等5、 业界主要的前端工具:、BI.Office等6、 是OLAP的核心,其组织形式包括模型,模型。7、 维度分类包括:、。8、 数据仓库基本元素包括:、数据源、9、 多维模型设计基本元素:维度(、成员)、和安全机制10、项目的具 体的实施步骤 : 1) . 项目前期准备; 2) . 需求分析 ;3) . 逻辑数 据模型设计 ;4).; 5).物理数据库设计;6).; 7).;8)、; 9)、解决方案集成(测试验收与试运行)11、数据挖掘的模式,按功能可分有两大类:预测型(Predictive)模式和描述型(Descriptive)模式。在实际应用中,往往根据模式的实际作用细分为以下6种:1)、2)、3)、4)、5)、关联模式6)、序列模式二、问答题:共60 分

      2、。12、(6分)请说明BI技术体系之间是如何实现互补的?13、(9 分)请简述一下数据仓库系统的显著特征。14、(8 分)数据仓库设计的原则是什么?15、(12分)在ETL阶段,应注意一些什么问题?16、(10 分)常用的增量抽取方法有哪些?每种方法都有些什么样的问题?17、(10 分)请简述一下三种 OLAP 存储方式的优缺点各是什么?18、(5 分)在项目实施过程中,逻辑模型设计和物理模型设计各自的任务是什么?参考答案(每空 1 分)1、数据仓库、在线分析、数据挖掘、关系数据库、在线事务处2、复制、增量、转换、调度、数据安全性3、Microsoft DTS、PowerCenter4、IBM OLAP Server、SQL Server Analysis 20005、Cognos、Brio、BO6、关系型数据库、事实表、维表、索引7、多维数据结构、星型、雪花8、普通维、雪花维、父子维9、级别、度量值(指标)、计算值(计算成员)、存储方式、角色权限10、系统体系结构设计、数据转换加载ETL、前端应用开发、数据仓库管理(处理流程与操作)11、分类模式、回归模式、时间序列模式、聚类模式12

      3、 、互补性(每点 2 分,共 6 分)数据仓库技术:数据整合 集成各系统的历史数据,建立面向主题的企业数据中心在线分析处理技术:数据分析灵活、动态、快速的多维分析、随机查询、即席报表数据挖掘技术:知识发现通过数学模型发现隐藏的、潜在的规律,以辅助决策13、数据仓库系统的显著特征一、频繁的变化( 3 分,以下每点 1 分)数据仓库系统在任何企业信息系统中都是最不稳定的环节,对数据仓库各个部分的调整和修 改十分频繁。这是由数据仓库系统的功能和结构决定的。数据仓库系统的目的是为企业中不同的用户提供信息支持,用户的信息需求随着市场的变化 随时可能发生变化,所以数据仓库系统也必须不断变化适应新的需求。从技术层面看,数据仓库的数据不是由自身产生,而是由业务系统数据库获得,因此数据仓 库系统必须随着业务系统的变化进行修改和调整,这也是造成数据仓库经常变化的重要原因二、面向企业中不同业务和用户(2 分)大规模企业信息系统通常由多种应用系统负责处理不同的业务,但数据仓库系统是企业信息 的提供平台,它存在的主要目的之一是为企业提供统一的、正确的信息,所以它必须支持不同的 业务、不同部门、不同用户的需求三、

      4、少量大事务处理 vs 大量小事务处理(2 分)从技术层面考虑,业务系统的应用特点是大量用户产生大量的事务,每一个事务占用的资源 和运行的时间都很少。而数据仓库系统经常需要对庞大的历史信息进行查询和分析,每个事务都 涉及大量的数据,事务的数量相对业务系统要小得多。这样的特点要求数据仓库系统和业务处理 系统采用不一样的设计方法和处理技术四、独立的系统(2 分)由于数据仓库系统与普通业务处理系统存在的显著区别,出于性能和运行的考虑,通常它会 采用完全独立的主机、数据库和应用服务器,而成为一个独立的系统14、数据仓库设计的原则(每点1 分,共 8 分)模型构架 尽量使用星型架构,使用雪花架构的目的是使事实表第一级的维表数量达到最小。 设计方法 将常识规范化方法应用于维度表设计。例如,不相关的数据不应组合到单一维度表中,而且在 多个维度表中数据不应重复。 维表设计 设计维表应包含需要分析的有关事实的有意义信息,例如产品的颜色和大小。 事实表设计 不要在事实数据表中进行过度的汇总,以保证在必要时可以进行所需粒度的数据访问。 数据存储方式 在必要时可以把要在同一个多维数据集中使用的数据存储在多个事实

      5、数据表中,条件是这些事 实数据表必须具有相同的结构。 索引在关键字段上创建索引,以提高处理多维数据集的性能。 特殊要求根据所选的 OLAP 引擎特殊需要,确保数据诸如完整性等的特殊要求。 增量更新必须考虑数据增量和更新的策略,以保证多维数据集中有所需的数据。15、在 ETL 阶段,有几个重要的问题是非常值得注意的:一. 数据的有效性检查(2 分) 为避免数据冗余,要认识到数据装入数据仓库之前,应该对数据进行有效性检查,这是很重要 的。如果没有进行数据的有效性检查,就有可能破坏依赖于数据仓库的商务分析的完整性,帮 助检查数据的有效性的最好方法是源系统专家。源系统专家包括具有技术专业知识和非技术知 识的人士。二. 数据的清洗和转换(4 分)由于数据抽取中的数据是来源于业务系统中的业务数据,难免会存在各种原因所导致的脏数据, 例如数据不在给定的界限之内或对于实际业务来说毫无意义的数据。这些数据就是数据清洗的 对象。清除数据包括对那些在给定范围之外的数据采取纠正和舍去等措施。同样,由于数据仓库中的数据来自于多种业务数据源,这些数据源可能是在不同的硬件平台上, 使用不同的操作系统的,又或者是属于

      6、不同的业务系统。因而这些数据的存储格式各不相同, 或者相同的数据具有不同业务含义。而数据的转换正是为了解决这一问题而必须进行的数据抽 取步骤。三. 数据的聚合与分割(4 分)粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就 越小;相反,细化程度越低,粒度级就越大。粒度是对数据仓库中的数据的综合程度高低的一 个度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。由于数据仓库中数据的来源是不同的业务系统数据,而各个系统对数据存储的粒度各不相同。 而数据仓库中同一分析主题中数据的粒度必须是统一的,所以,为了保证数据粒度的一致性, 必须对原有数据进行聚合(汇总)或分割(细化)。四. 数据安全性(2 分)在数据抽取中还会涉及的一个重要问题就是数据的安全性。数据的抽取必非一个完全的技术问 题,往往牵涉整个企业中各个不同部门中数据的共享。那么数据共享中的权限等安全问题也就 是数据抽取中必须要认真对待的问题。如何保证数据抽取中和数据集中后的限制与共享往往需 要业务人员的配合和介入,不能将该问题当作单纯的技术问题来对待,而必须进行周密的考虑 和计划

      7、。16、常用的增量抽取方法有(每个2 分,共 10 分):一. 时间戳 如果在原始数据中含有时标,对新插入或更新的数据有标记或是数据在更新时有时间戳,那么只 需根据时标进行判断即可。但并非所有的数据源中都会含有时标设计。二. 增量文件 它是由应用生成的,记录了应用所改变的所有内容。利用增量文件效率很高,它避免了扫描整个数 据库,但同样的问题是生成 DELTA 文件的应用并不普遍。此外,还有更改应用代码的方法,使 得应用在生成新数据时可以自动将其记录下来。但应用成千上万,且修改代码十分繁琐,同时涉 及业务应用,所以这种方法很难实现。三. 数据快照 在抽取数据前后对数据库各作一次快照,然后比较两幅快照的不同从而确定新数据。它占用大量 资源,对性能影响极大,因此并无多大实际意义。四. 日志文件最可取的技术大概是利用日志文件了,因为它是DB的固有机制,不会影响O LTP的性能。同时, 它还具有DELTA文件的优越性质,提取数据只要局限日志文件即可,不用扫描整个数据库。当 然,原来日志文件的格式是依据DB系统的要求而确定的,它包含的数据对于数据仓库而言可能有 许多冗余。比如,对一个记录的多次更新

      8、,日志文件将全部变化过程都记录下来;而对于数据仓 库,只需要最终结果。但比较而言,日志文件仍然是最可行的一种选择。五. 业务逻辑 在进行增量抽取时也可以利用实际业务应用中提供的逻辑来进行增量抽取,但是使用该方法必须 对应用逻辑十分了解,并且受应用的牵制较多,并非最佳选择。由于数据增量抽取的复杂性,以上各种方法的应用往往是结合使用的,并且在必要的时候可能需要人 工的干预,而怎样才能使增量抽取达到最大的自动化也仍然是一个正在摸索中的难题。17、存储方式优缺点一. 多维存储方式(MOLAP)(4分)MOLAP 在服务器上对数据立方体数组及其管理技术的实现,可以所有的信息查询都从 MOLAP 服务器上获得。优势口性能好、响应速度快;口支持高性能的决策支持计算;口 复杂的跨维计算;口 多用户的读写操作。 缺点口 占用的存储空间较大口 难以达到 TB 级数据量;口 需要进行预计算,可能导致数据爆炸;口 无法支持维的动态变化;口 缺乏数据模型和数据访问的标准。二. 关系数据库存储方式(ROLAP)(4分)ROLAP充分利用关系数据库技术将明细数据和聚合数据存储在一个关系型结构中的存储方式。 优势口 没有大小限制;现有的关系数据库的技术可以沿用;口可以通过SQL实现详细数据与概要数据的储存;口现有关系型数据库已经对OLAP做了很多优化,包括并行存储、并行查询、位图索引、SQ1的OLAP扩展等大大提高了 ROALP的速度;口 查询性能较不如MOLAP方式。口 占用的存储空间较少 缺点口 一般比MDD响应速度慢;口 SQL无法完成部分计算,主要是无法完成多行的计算,无法完成维之间的计算。三. 混合存储方式(HOLAP)(2分) 将聚合存储到分析服务器计算机上的多维结构中,并将分区的源数据保留在它现有的关系型结构 中的存储方式。 特点口查询性能介于以上两种方式之间口占用的存储空间介于以上两种方式之间口 适用于在对基于大量基本数据的汇总进行查询时需要快速响应的多维数据集18、逻辑模型设计(2.5 分,每个0.5 分)主要任务:-进行原始数据分析-建立实体模型-建立实体间依赖关系-完善并填入所有属性-建立数据库逻辑模型物理模型设计(2.5 分,每个0.5 分)主要任务:-转换逻辑数据模型(LDM)为物理数据模型-定义主索引、次索引-数据库建立-设计优化-数据库功能测试

      《BI基础知识测试》由会员s9****2分享,可在线阅读,更多相关《BI基础知识测试》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.