好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

《数据科学与大数据通识导论》题库及答案-2019年温州市工程技术系列专业技术人员继续教育.docx

10页
  • 卖家[上传人]:m****
  • 文档编号:382596441
  • 上传时间:2023-10-02
  • 文档格式:DOCX
  • 文档大小:62.72KB
  • / 10 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1. 数据科学的三大支柱与五大要素是什么? 答:数据科学的三大主要支柱为:Datalogy (数据学):对应数据管理(Data management)Analytics (分析学):对应统计方法(Statistical method)Algorithmics (算法学):对应算法方法(Algorithmic method)数据科学的五大要素:A-SATA 模 型分析思维(An alytical Thin ki ng)统计模型(Statistical Model)算法计算(Algorithmic Computi ng)数据技术(Data Tech no logy)综合应用(Application)2. 如何辨证看待“大数据”中的“大”和“数据”的关系? 字面理解Large、vast和big都可以用于形容大小Big更强调的是相对大小的大,是抽象意义上的大大数据是抽象的大,是思维方式上的转变量变带来 质变,思维方式,方法论都应该和以往不同 计算机并不能很好解决人工智能中的诸多问题,利用大数 据突破性解决了,其核心问题变成 了数据问题3. 怎么理解科学的范式?今天如何利用这些科学范式? 科学的范式指的是常规科学所赖以运作的理论基础和实践规范,是从事某一科学的科学家 群体所共同遵从的世界观和行为方式。

      第一范式:经验科学第二范式:理论科学第三范式:计算科学 第四范式:数据密集型科学 今天,是数据科学,统一于理论、实验和模拟4. 从人类整个文明的尺度上看,IT和DT对人类的发展有些什么样的影响和冲击?以控制为出发点的IT时代正在走向激活生产力为目的的 D( Data Technology )数据时代大数据驱动的DT时代由数据驱动的世界观 大数据重新定义商业新模式大数据重新定义研发新路径 大数据重新定义企业新思维5. 大数据时代的思维方式有哪些?“大数据时代”和“智能时代”告诉我们:数据思维:讲故事 数据说话 总体思维:样本数据 全局数据容错思维:精确性 相关 混杂性、不确定性 思维:因果关系 相关关系智能思维:人 人机协同(人+人工智能)6 请列举出六大典型思维方式; 直线思维、逆向思维、跳跃思维、归纳思维、并行思维、科学思维 《数据科学与大数据通识导论》题库及答案7・大数据时代的思维方式有哪些?同58. 二进制系统是如何实现的?计算机用 0和 1来表示和存储所有的数据,它的基数为 2,进位规则是“逢二进一”,用1表 示开,0 表示关9. 解释比特、字节和十六进制表示比特:一位0、1 ;字节:8比特,从000到111,十六进制:0000到1111十六个数分别用 0,1,2,3,4,5,6,7,8,9 ,A,B, C,D,E,F 来表示10. 请辨析现象、数据、信息和知识这几个概念。

      信息是关于世界、人和事的描述,它比数据来得抽象;而数据则是信息的载体 知识比信息更高一个层次,也更加抽象,它具有系统性的特征比如通过测量星球的位置和对应的时间,就得到数据;通过这些数据得到星球运转的轨迹, 这就是信 息;通过信息总结出开普勒三定律,就是知识从现象、数据到信息、知识,抽象层次是越来越高的 人类的进步就是靠使用知识不断地改变我 们的生活和周围的世界,而数据是知识的基础11. 简述冯诺依曼计算机工作原理存储程序控制程序和数据都用二进制数表示机器以CPU为中心12. 简述GB2312编码和Unicode编码原理;GB2312 编码适用于汉字处理、汉字通信等系统之间的信息交换,通行于中国大陆 ;新加坡等地也采用此编码中国大陆几乎所有的中文系统和国际化的软件都支持 GB 2312基本集共收入汉字6763 个和非汉字图形字符682 个整个字符集分成94个区,每区有 94个 位每 个区位上只有一个字符,因此可用所在的区和位来对汉字进行编码,称为区位码Unicode (统一码、万国码、单一码)是计算机科学领域里的一项业界标准,包括字符集、编 码方案等Uni code是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设 定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的 要求。

      13. 简述摩尔定律摩尔定律是由英特尔(In tel )创始人之一戈登摩尔(Gordon Moore )提出来的其内 容为: 当价格不变时,集成电路上可容纳的元器件的数目,约每隔18-24个月便会增加一倍, 性能也将提升一 倍换言之,每一美元所能买到的电脑性能,将每隔18-24个月翻一倍以上 这一定律揭示了信息技术 进步的速度14. 为什么计算机系统要往并行与异构的方向发展?单核CPI已经走到尽头,不能承载更多的晶体,所以采用多核和GPU及FPGA等并行与异构,多 台计算机一起工作,进一步提升计算性能15. 什么是云计算?云计算的定义:云计算是一个模型,这个模型可以方便地按需通过网络访问一个可配置的计算资源(例如, 网络、服务 器、存储设备、应用程序以及服务)的公共及这额资源可以迅速提供并发布, 同时最小化管理成本或 服务提供商的干涉16. 为什么说数据上云是一种趋势? 大数据上云,数据上云,分析上云,人工智能上云,数据上云是一种趋势17. 从技术体系和资源结构两方面谈一下云计算的逻辑平台组成 云平台的逻辑组成技术体系:laaS, PaaS, SaaS (Technically )资源结构:计算、存储、网络18. 数据获取过程可分为哪几个步骤?数据获取阶段的任务是以数字形式将信息聚合, 以待存储和分析处理,数据获取过程可分为 三个步骤: 数据米集数据传输数据预处理19. 数据预处理需要做哪些工作? 数据预处理 由于数据源的多样性,数据集由于干扰、冗余和一致性因素的影响具有不同的质量。

      一些数据分析工具和应用对数据质量有着严格的要求因此在大数据系统中需要数据预处理 技术提高数 据的质量数据集成(Data integration )数据清洗(Data cleansing )冗余消除(Redundancy elimination20. 数据的存储方式有哪些? 数据的存储方式:纸带 磁带数字存储随机存取存储器(Random access memory RAM磁盘(HDD和磁盘阵列存储级存储器:闪存、SSD21 什么是大数据的计算模式? 所谓大数据计算模式,即根据大数据的不同数据特征和计算特征,从多样性的大数据计算问 题和需求中 提炼并建立的各种高层抽象(abstraction )或模型(model)22. 简述大数据的四种主要分析技术 大数据的四种主要分析技术(1) 统计分析(2) 机器学习 是一门研究机器获取新知识和新技能, 并识别现有知识的学问3) 数据挖掘从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人 们事先不知 道的、但又是潜在有用的信息和知识的过程4) 可视化分析 统计学主要是通过机器学习来对数据挖掘发挥影响,而机器学习和数据库则是数据挖掘的两 大支撑技 术。

      23. 简述数据库的事务ACID性质 数据库的事务处理(ACID)性质: 原子性(Atomicity):不可分割—致性(Consistency):前后一致隔离性(Isolation):并发持久性(Durability):永久24. 关系代数的五种基本运算分别是什么? 关系代数的五种基本运算分别是并、差、投影、选择、笛卡尔积25. 简述数据仓库的四种类型 数据仓库的四种类型: 传统数据仓库 实时处理数据仓库 关联发现数据仓库 数据集市26. 什么是 GFS 请简述 GFS 的特点?GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用它运行 于廉价的普通硬件上,将服务器故障视为正常现象,通过软件的方式自动容错,在保 证系统可靠性和可 用性的同时,大大减少了系统的成本系统分为三类角色:Master (主服务器)Chunk Server (数据块服务器)Clie nt (客户端)27. 请简述 HDFS 的特点Hadoop 是一个分布式系统基础架构,由 Apache 基金会开发用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力高速运算和存储。

      Hadoop 实现了一个分布式文件系统(Hadoop Distributed File System ),简称 HDFSHDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上HDFS集群包含:—个主节点(NameNode)多个从属节点(DataNodes)多个客户端访问28. 大数据系统为什么要采用分布式的架构? 大数据是数据库的自然延伸:分布式由于大数据要处理大量、非结构化的数据,所以在各处理环节中都可以采用并行处理目前,Hadoop Map Reduce和Spark等分布式处理方式已经成为大数据处理各环节的通用处理方 法29. 什么是有向图、邻接矩阵、超链接矩阵—个有向图D是指一个有序三元组(V (D) , A (D),书D),其中书D)为关联函数,它使A (D) 中的每一个元素(称为有向边或弧)对应于V (D)中的一个有序元素(称为顶点或点)为研究需要,我们定义邻接矩阵G = (gij)i 其中 g 舒=L如果存在从J到i的弧进—步,如果将邻接矩阵中的元素除以对应节点的出度,可以得到该图的超链接矩阵30・如何计算PageRank的值?PageRa nk 算法第—步:将互联网作为—个有向图,并用邻接矩阵进行表示;第二步:将该邻接矩阵转换为超链接矩阵;第三步:求解该超链接矩阵的最大特征向量(如幕迭代法); 第四步:求得的特征向量中的值即为对应 网页的 PageRa nk值。

      31. 典型的数据挖掘技术有哪些? 典型的数据挖掘技术:关联分析、序列模式、分类(预言)、聚集、异常检测32. 数据挖掘的标准流程分为那几个步骤?请分别简述它们商业理解:找问题-确定商业目标、 对现有资源的评估, 确定问题是否能够通过数据挖掘来解决,确定数据挖掘的目标, 制定数据挖掘计划 数据理解:数据准备:确定数据挖掘所需要的数据, 对数据进行描述, 数据的初步探索, 检查数据 的质量建立模型:对各个模型进行评价, 选择数据挖掘模型, 建立模型 模型评估:评估数据挖掘的结果, 对整个数据挖掘过程的前面步骤进行评估,确定下一步 怎么办?是发布模型?还是对数据挖掘过程进行进一步的调整,产生新的模型模型发布:把数据挖掘模型的结果送到相应的管理人员手中, 对模型进行日常的监测和维 护,定期更新数据挖掘模型33. 典型的分类方法有哪些?典型分类方法:判定树归纳分类,贝叶斯分类,后向传播分类, k-最临近分类,基于案例的推理,遗传算法,粗糙集方法,模糊集方法34. 典型的预测方法有哪些?典型预测方法:回归方法,线性回归,多元回归,非线性回35. 请简述分类过程 数据分类:两步过程 第一步,建立一个模型,描述预定数据类集和概念集 假定每个元组属于一个预定义的类,由一个类标号 属性确定 基本概念 训练数据集:由为建立模型而被分析的数据元组形成 训练样本:训练数据集中的单 个样本(元组) 学习模型可以用分类规则、判定树或数学公式的形式提供 第二步,使用模型,对将来 的或未知的对象进行分类 首先评估模型的预测准确率 对每个测试样本,将已知的类标号和该样本的学 习模型类预测比较。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.