好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

《Power-BI-数据分析与可视化》教学课件第3章-M语言数据建模与处理(1).ppt

62页
  • 卖家[上传人]:sat****105
  • 文档编号:280661567
  • 上传时间:2022-04-22
  • 文档格式:PPT
  • 文档大小:14.07MB
  • / 62 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 大数据,成就未来大数据,成就未来M语言数据预处理2022/4/21 2大数据挖掘专家1集成数据目目录录认识Power Query和M语言2清洗数据3 3大数据挖掘专家Power Query是一种用于数据抽取(Data Extraction)、数据转换(Data Transformation)和数据加载(Data Loading)的数据预处理工具数据抽取、数据转换和数据加载这3种操作在数据分析可以简称为ETL通常情况下,在整个数据分析项目中,ETL会占据约三分之一的时间在数据抽取阶段,经常会处理不同数据源的数据,这时需要完成集成数据任务在数据转换阶段,需要处理不完整数据、含噪声的数据和不一致的数据,同时将数据转换成方便后期分析的格式,这时需要完成清洗数据、变换数据和归约数据等任务了解了解Power Query和和M语言语言 4大数据挖掘专家最后这些处理好的数据加载到数据仓库各数据任务并没有固定的先后顺序了解了解Power Query和和M语言语言 5大数据挖掘专家Power Query适用于Excel 2010以上版本,在Excel 2010以及Excel 2013中需要下载插件安装加载后使用,在Excel 2016版本中,Power Query被内置在“数据”选项卡的“新建查询”命令中(Power Query在Excel 2016中称为“获取和转换”),如左下图所示。

      而在Power BI中则通过“开始”选项卡的“外部数据”组中的“编辑查询”命令实现Power Query的所有功能,如右下图所示了解了解Power Query和和M语言语言 6大数据挖掘专家Excel在处理百万行级别以上数据的情况下,会产生内存问题导致频繁死机在Power Query中,数据分析的数据量不再受限于数据的行数,而是由内存决定Power Query既可以快速关联并整合多种来自不同数据源的数据信息,还可以像数据库管理操作一样对表结构及其中的数据进行加工整理了解了解Power Query和和M语言语言 7大数据挖掘专家Power Query编辑器里的每一个操作步骤叫一个“查询”查询”的代码可以通过单击Power Query编辑器的“开始”选项卡中“查询”组中的“高级编辑器”命令实现每个“查询”以“let”开始,以“in”结束,“高级编辑器”对话框的每一行代码对应“查询设置”窗格的“应用的步骤”的每一个步骤,如下图所示in”下一行的“删除的列”对应“应用的步骤”的最后一个步骤的名称使用使用M语言获取网络分页数据语言获取网络分页数据 8大数据挖掘专家Power Query的赋值表达式形如Page=(x as number),意思将数值类型(用number表示)“x”的值赋值给Page。

      而Power Query的所有“查询”均通过Power Query函数实现,例如,Text.From(x)是将参数x变为文本型,Text.From(1)相当于文本型的“1”使用使用M语言获取网络分页数据语言获取网络分页数据 9大数据挖掘专家中国财经信息网是一家提供全球股票与基金走势数据的大型网站以国内的A股股票为例(网址为http:/ BI中的股票数据表中存放,“字段”窗格显示各字段的效果如右下图所示,实现步骤如下使用使用M语言获取网络分页数据语言获取网络分页数据 10大数据挖掘专家(1) 分析网址该数据的网址http:/ 11大数据挖掘专家(2) 获取数据在“开始”选项卡的“外部数据”组中,依次单击“获取数据”“Web”命令在弹出的“从Web”对话框中,勾选“高级”单选框,“URL部分”的设置通过单击“添加部件”按钮增加至3个部件后,根据步骤(1)中网址的3个部分依次填入,如下图所示,其它参数保持默认值,最后单击“确定”按钮使用使用M语言获取网络分页数据语言获取网络分页数据 12大数据挖掘专家(3) 编辑类型有误的数据在“导航器”对话框中,勾选“显示选项”的Table0,如左下图所示,发现Tabel0表格“代码”字段的格式显示不正确,所以需要进行编辑。

      单击图 3 8中的“编辑”按钮,在弹出的Power Query编辑器中,右键单击“代码”字段,依次选择“更换类型”“文本”命令,得到的效果如右下图所示使用使用M语言获取网络分页数据语言获取网络分页数据 13大数据挖掘专家(4) 编辑代码能查询各页的数据在Power Query编辑器中,在“开始”选项卡的“查询”组中,单击“高级编辑器”命令在第一行的前面添加一行代码,即let Page=(x as number)=;第3行代码中,控制页码的文本型“1”替换为Text.From(x);最后的部分添加两行代码,即in和Page,Page前空4格仅起格式规范作用,如左下图所示单击“完成”按钮后,得到的效果如右下图所示使用使用M语言获取网络分页数据语言获取网络分页数据 14大数据挖掘专家(5) 重命名该“查询”右键单击左边“查询”窗格下的“Table 0”,选择“重命名”,将其重命名为“股票”,得到的效果如下图所示使用使用M语言获取网络分页数据语言获取网络分页数据 15大数据挖掘专家(6) 将页码的存储在新的“查询”中右键单击左边“查询”窗格的空白处,依次选择“新建查询”“空查询”命令,如左下图所示。

      在公式栏中输入:=1.36,然后按回车键,如右下图所示使用使用M语言获取网络分页数据语言获取网络分页数据 16大数据挖掘专家(7) 将页码的存储格式由“查询”变成“表”在“转换”选项卡的“转换”组中,单击“到表”命令,在弹出的对话框中直接单击“确定”按钮,得到的效果如下图所示使用使用M语言获取网络分页数据语言获取网络分页数据 17大数据挖掘专家(8) 将页码与对应页码的股票数据关联起来,进行如下操作在“添加列”选项卡的“常规”组中,单击“调用自定义函数”命令弹出“调用自定义函数”对话框后,将“功能查询”设为“股票”,此时“新列名”也自动设为“股票”,如下图所示使用使用M语言获取网络分页数据语言获取网络分页数据 18大数据挖掘专家单击“确定”按钮,得到的效果如左下图所示注意:此时导入的数据比较多,等待时间较长单击左下图中的“股票”字段右边的双方向箭头图标,在弹出的对话框中单击“加载更多”超链接,取消勾选“使用原始列名作为前缀”,如右下图所示使用使用M语言获取网络分页数据语言获取网络分页数据 19大数据挖掘专家单击“确定”按钮,得到的效果如下图所示使用使用M语言获取网络分页数据语言获取网络分页数据 20大数据挖掘专家(9) 查阅加载错误。

      单击“文件”选项卡并选择“关闭并应用”命令,此时在“应用查询更改”对话框中提示“已加载3541行5个错误如图左下所示,单击对话框中的“查看错误”按钮即可查看错误注意:股票的市盈率是会变化的,所以错误数也会变化的打开Power Query编辑器可以发现,“市盈率”字段中均显示为“Error”,单击“Error”后提示右下图所示的错误详细信息,其意思是,原始数据是文本类型“正无穷大”,与任务中设置“市盈率”字段为数值型冲突使用使用M语言获取网络分页数据语言获取网络分页数据 21大数据挖掘专家(10) 处理加载错误在左边的“查询”窗格中,依次单击“查询1”,右键单击“市盈率”字段选择“替换错误”命令,在弹出的左下图所示的“替换错误”对话框中输入“值”为9999,单击“确定”按钮删除“Column1”字段,此时Power BI获取了所有的网页数据11) 单击“文件”选项卡并选择“关闭并应用”命令,切换至视图将“字段”窗格的“查询1”重命名为“股票数据表”,得到的效果如右下图所示使用使用M语言获取网络分页数据语言获取网络分页数据 22大数据挖掘专家1集成数据目目录录认识Power Query和M语言2清洗数据3 23大数据挖掘专家数据集成是指通过应用间的数据交换从而达到集成,主要解决数据的分布性和异构性的问题,数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。

      在数据集成时,有许多问题需要考虑的,常见的问题如下1) 实体识别问题例如,某个数据表有“姓名”字段,另一个数据表有“名字”字段,是否指的是同一个实体?通常,数据库或数据仓库会有这些字段含义的描述,帮助避免数据集成时发生错误,这些相关的描述称之为元数据(Metadata)元数据的定义是数据及信息资源的描述性信息2) 数据冗余问题如果一个字段可以由其它一个或多个字段导出,那么这个字段就是冗余字段例如“销售额”字段,它可以由每条记录的销售商品单价乘以数量,然后求和而得到两个数据源分别收集了同一条数据,在数据集成后,需要检测与处理这些重复的数据,这种检测与处理的操作叫“去重”操作了解数据集成了解数据集成 24大数据挖掘专家(3) 数据值冲突的检测与处理对于现实世界的同一实体,不同数据源的字段可能不同例如调查人员的拼音名时,可能是姓在前,也可能是名在前;而有些拼音是首字母大写,也有些是全部大写或全部小写又例如,重量也可能以千克数为单位,也有些可能以斤为单位,甚至国外的以磅为单位另外,各国的货币价值也不一致处理这种度量上的差异,是数据集成的重要工作了解数据集成了解数据集成 25大数据挖掘专家在进行线下数据调查时,没有计算机进行必要的数据校验,数据填写经常会出现不规范的情况。

      主要原因可能是组织者没有对调查员进行必要的填写培训,也可能是调查员由于调查工作的枯燥而疏于指导被调查对象左下表与右下表是两名调查员填写的信息表实现两个数据来源的数据集成实现两个数据来源的数据集成姓名姓名出生年份出生年份拼音名拼音名姚泳姚泳仪仪1988YAOYONGyi林林祺祺茵茵1985LinQiYin叶晓钰叶晓钰1983YeXiaoYu林林柔柔1996Linrou王莹王莹1982Wangying姓名姓名出生年份出生年份拼音名拼音名钟智强钟智强1990年zhiQiangZhong欧阳欧阳双喜双喜1982年ShuangxiOuYang司徒司徒健健彬彬1991年JianbinSiTu吴吴文伟文伟1987年wenweiWu王王莹莹1982年Wangying 26大数据挖掘专家经过数据集成处理后,最终Power Query编辑器中数据表的效果如左下图所示,“字段”窗格中客户信息表的效果如右下图所示,实现步骤如下实现两个数据来源的数据集成实现两个数据来源的数据集成 27大数据挖掘专家(1) 获取数据在“开始”选项卡的“外部数据”组中,依次单击“获取数据”“Excel”命令,获取“客户信息表1.xlsx”。

      在“导航器”对话框的显示选项中,勾选“客户信息表1.xlsx”中的“Sheet 1”,如下图所示,单击“编辑”按钮实现两个数据来源的数据集成实现两个数据来源的数据集成 28大数据挖掘专家(2) 清除“客户信息表1”的“姓名”空格,进行如下操作在“Power Query编辑器”中,右键单击“姓名”字段,依次选择“拆分列”“按分隔符”命令弹出“按分隔符拆分列”对话框后,将“选择或输入分隔符”设为“空格”,勾选“每次出现分隔符”单选框,如下图所示实现两个数据来源的数据集成实现两个数据来源的数据集成 29大数据挖掘专家单击“确定”按钮,此时“Power Query编辑器”中的“姓名”字段分为3个字段,按住Ctrl键选中“姓名.1”“姓名.2”“姓名.3”这3个字段,右键单击选中区域,选择“合并列”命令弹出“合并列”对话框后,将“新列名”设为“姓名”,如下图所示实现两个数据来源的数据集成实现两个数据来源的数据集成 30大数据挖掘专家单击“确定”按钮,合并后的姓名列的效果如下图所示实现两个数据来源的数据集成实现两个数据来源的数据集成 31大数据挖掘专家(3) 处理“客户信息表1”“拼音名”字段的首字母大写问题。

      右键单击“拼音名”字段,依次选择“转换”“每个字词首字母大写”命令,得到的效果如下图所示。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.