
《大数据专业英语》课件—08Data-Processing.ppt
22页大数据专业英语教程大数据专业英语教程Data ProcessingData Processing Unit 8ContentsContents New Words Abbreviations Phrases参考译文参考译文New WordsNew WordsNew WordsNew WordsNew WordsNew WordsNew WordsNew WordsNew WordsNew WordsNew WordsNew WordsNew WordsNew WordsPhrasesPhrasesPhrasesPhrasesAbbreviationsAbbreviationsListening to Text AListening to Text A数据处理1.数据预处理数据预处理是数据挖掘过程中的重要一步短语“垃圾入,垃圾出”特别适用于数据挖掘和机器学习项目数据收集方法通常是松散控制的,导致出现超出范围的值(例如,收入:-100)、不可能的数据组合(例如,性别:男性,怀孕:是)、缺失值等对此类问题的数据未经过仔细筛选就分析可能会产生误导性结果因此,在进行分析之前,最重要的是数据的表示和质量。
通常,数据预处理是机器学习项目中最重要的阶段,特别是在计算生物学中如果存在许多不相关和冗余的信息或者噪声和不可靠的数据,则在训练阶段的知识发现更加困难数据准备和过滤步骤可能需要相当长的处理时间数据预处理包括清理、实例选择、规范化、转换、特征提取和选择等数据预处理的产品是最终的训练集参考译文参考译文参考译文参考译文2.数据编辑数据编辑被定义为对收集的调查数据进行审查和调整的过程目的是控制收集数据的质量可以手动、在计算机的帮助下或两者相结合来执行数据编辑2.1编辑方法2.1.1交互式编辑术语交互式编辑通常用于现代计算机辅助手动编辑国家统计局(NSI)应用的大多数交互式数据编辑工具允许用户在数据输入期间或之后检查特定的编辑,并在必要时立即纠正错误数据可以遵循几种方法来纠正错误数据:重新联系回答者将回答者的数据与上一年的数据进行比较将回答者的数据与来自类似回答者的数据进行比较使用人类编辑的主题知识参考译文参考译文参考译文参考译文交互式编辑是编辑数据的标准方法它可用于编辑分类和连续的数据交互式编辑缩短了完成审核和调整周期过程所需的时间2.1.2选择性编辑选择性编辑是识别有影响的错误和异常值的几种方法的总称。
选择性编辑技术旨在将交互式编辑应用于精心选择的记录子集,以便将可用于交互式编辑的有限时间和资源分配给那些对发布数字的最终估计质量影响最大的记录在选择性编辑中,数据分为两个流:关键流非关键流关键流由更有可能包含有影响的错误的记录组成这些关键记录以传统的交互方式进行编辑在非关键流中,不太可能包含有影响的错误的记录这些记录不以计算机辅助方式编辑参考译文参考译文参考译文参考译文2.1.3宏编辑宏编辑有两种方法:聚合方法在发布之前,几乎每个统计机构都遵循这种方法:验证要公布的数字是否合理这是通过将发布表中的数量与先前发布的相同数量进行比较来实现如果观察到异常值,则对导致可疑数量的各个记录和字段应用宏编辑程序分布方法可用数据用于表征变量的分布然后将所有单个值与分布进行比较包含可能被视为不常见的值(给定分布)的记录是进一步检查和可能编辑的候选者2.1.4自动编辑在自动编辑中,记录由计算机编辑而无需人为干预可以把单个变量或变量组合值的先验知识制定成一组编辑规则,用于指定或约束允许值参考译文参考译文参考译文参考译文3.数据精简数据精简是将根据经验或实验得出的数字或字母数字信息转换为校正的、有序的和简化的形式。
基本概念是将大量数据减少到有意义的部分当信息来自仪器读数时,也可能存在从模拟到数字形式的转换当数据已经是数字形式时,数据的“精简”通常涉及一些编辑、规模调整、编码、排序、整理和生成表格摘要当观察是离散的但是潜在的现象是连续的时,通常需要平滑和插值通常,在出现读数或测量误差时,要进行数据精简在确定最可能的值之前,需要对这些误差的性质有所了解这些是用于数据缩减的常用技术:按规模的某些方面排序表对角化,从而重新排列表的行和列以使模式更易于查看大幅度地舍入到一个或最多两个有效数字使用平均值提供视觉焦点和摘要参考译文参考译文参考译文参考译文使用布局和标签来引导眼球删除图表废物,例如图片和线条提供简短的口头总结4.数据整理数据整理(有时称为数据调整)是将数据从一种“原始”数据形式转换和映射到另一种格式的过程,目的是使其更适合于各种下游目的(如分析)数据整理者是执行这些转换操作的人这可能包括进一步调整、数据可视化、数据聚合、训练统计模型以及许多其他潜在用法数据调整过程通常有一系列步骤:开始从数据源以原始形式提取数据,再使用算法(例如排序)“整理”原始数据或将数据解析成预定义的数据结构,最后将生成的内容存入数据接收器以供存储和将来使用。
参考译文参考译文参考译文参考译文4.1典型用途数据转换通常应用于数据集内的不同实体(例如,字段、行、列、数据值等),并且可以包括诸如提取、解析、加入、标准化、扩充、清理、合并和过滤操作期望整理后的数据可供下游使用接收整理结果数据的可以是个人,例如将进一步调查数据的数据架构师或数据科学家、将直接在报告中使用数据的业务用户或者进一步处理数据并将其写入目标(如数据仓库、数据湖或下游应用程序)的系统4.2工作方法根据输入数据的数量和格式,传统上数据整理是手动执行的(例如通过Excel等电子表格)或通过Python或SQL等语言编写的手写脚本R语言是一种常用于数据挖掘和统计数据分析的语言,现在也经常用于数据整理这些流程的其他术语包括数据特许权、数据准备和数据调整参考译文参考译文参考译文参考译文Thank You!Thank You!。
