
2022工业互联网标识数据处理 质量规范.docx
10页工业互联网标识数据处理 质量规范 目 次 前言 1 引言 2 1 术语和定义 3 1.1 定义 3 1.2 术语 3 2 采集与预处理技术 4 2.1 采集与预处理流程 4 2.2 采集与预处理系统功能 5 3 存储与管理技术 6 3.1 存储与管理流程 6 3.2 存储与管理系统功能 7 4 分析与挖掘技术 7 4.1 分析与挖掘流程 7 4.2 分析与挖掘系统功能 8 5 展现与应用技术 8 5.1 展现与应用技术流程 8 5.2 展现与应用系统功能 8 I 前 言 本标准分为5个部分: ——术语和定义 ——采集与预处理技术 ——储存与管理技术 ——分析与挖掘技术 ——展现与应用技术 1工业互联网标识数据处理 质量规范 1 术语与定义 下列术语和定义适用于本文件1.1 定 义 互联网协议:互联网协议指的是网络中互相通信的对等实体之间交换信息时所必须遵守的规则的集合 身份标识号码:身份标识号码,也称为序列号或帐号,是某个体系中相对唯一的编码一般而言,这个规则根据具体的使用环境在设计上有一定的主观性 用户数据报协议: 用户数据报协议是一个简单的面向无连接的,不可靠的数据报的传输层协议,IETF RFC 768 是用户数据报协议的正式规范。
传输控制协议: 传输控制协议是一种面向连接的、可靠的、基于字节流的传输层通信协议,由 IETF 的RFC 793 定义 消息队列遥测传输: MQTT(消息队列遥测传输)是 ISO 标准(ISO/IEC PRF 20922)下基于发布/订阅范式的消息协议它工作在 TCP/IP 协议族上,是为硬件性能低下的远程设备以及网络状况糟糕的情况下而设计的发布/订阅型消息协议 受限应用协议: 受限应用协议是简化了 HTTP 协议的协议,受限应用协议是协议栈中的应用层协议,它适用于在资源受限的通信的IP 网络设备: 终端工作站,桥接终端工作站,桥,访问点 1.2 术 语 工业互联网:工业互联网(Industrial Internet)是新一代信息通信技术与工业经济深度融合的新型基础设施、应用模式和工业生态,通过对人、机、物、系统等的全面连接,构建起覆盖全产业链、全价值链的全新制造和服9 务体系,为工业乃至产业数字化、网络化、智能化发展提供了实现途径,是第四次工业革命的重要基石 采集与预处理技术 采集与预处理技术从管理系统、生产系统、外部数据三大方面的数据来源采集信息,并通过预处理系统生成时间序列模块。
存储与管理技术 存储与管理技术,是用储存器把采集并清洗过的数据存储起来,建立相应的数据库,并进行管理和调用重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术难题主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题 分析与挖掘技术 分析与挖掘技术就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程分析与挖掘技术主要有两条技术路线, 一是凭借先验知识人工建立数学模型来分析数据,二是通过建立人工智能系统,使用大量样本数据进行训练,让机器代替人工获得从数据中提取知识的能力 展现与应用技术 展现与应用技术指的是一些较为高级的技术方法,而这些技术方法允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释目前,展现与应用技术已经提出了许多方法,这些方法根据其可视化的原理不同可以划分为,基于几何的技术、面向像素的技术、基于图标的技术、基于层次的技术、基于图像的技术和分布式技术等 2 采集与预处理技术2.1 采集与预处理流程 时间序列数据的采集流程包含采集、预处理和数据传输三个阶段,见图 1。
其中,采集和传输应至 少采用实时、近实时和文件批处理等三种方式中的一种 图 1 — 时间序列数据采集流程2.2 采集与预处理模块功能 采集模块应具有以下功能: a) 能设置系统时间; GB/T XXXXX—XXXX 3 b) 具有通过网络传输数据的能力,支持本地缓存数据和传出数据,支持按照存储容量或存储时长 等策略设置本地缓存和持久存储,支持周期性滚动存储; c) 能设置配置信息,包括设备唯一编号、可支持采集的时间序列数据、采样间隔等,支持配置参 数本地设置和云端下发以及设置网络地址、端口号、权限验证、传输时间间隔、域名和备用网 络地址等; d) 能支持信息敏感设备数字证书的导入和认证; e) 采集系统上部署的采集程序应具备以下功能: 1) 按照采集系统配置设置信息进行数据采集; 2) 数据采集应支持整型、浮点型、布尔型、字符串型数据类型和用户自定义数据类型; 3) 所支持的本地缓存数据的功能应覆盖缓存大小、缓存时长的设置; 4) 所采集的时间序列包含时间序列 ID(可以由设备编号和传感器或工况编号组成)、时间 戳和值 预处理模块应具有以下功能: a) 对于支持实时采集传输的采集程序,能对采集的时间序列数据附加时间戳,支持将采集的时间 序列数据点序列化; b) 对于支持近实时采集传输的采集程序,除具备 a)中功能外,还能对采集的时间序列数据组包 压缩; c) 具备数据脱敏及加密传输功能; d) 对于支持文件批处理传输的采集程序,除具备 b)中功能外,还能运行于高级语言环境,如 Java; e) 具备将时间序列数据压缩编码成目标存储管理系统可直接序列化的格式。
采集系统可能具有也可能不具有网络传输能力,不同情况下的时间序列传输功能要求如下 a) 采集系统具有网络传输能力时,应具有以下时间序列传输功能: 1) 能通过有线或无线网络,将采集到的数据按照实时、近实时和文件批处理等三种方式之一 上传,采集间隔和传输间隔可以分别设置; 2) 支持 UDP、TCP 等通信协议; 3) 支持 MQTT、CoAP 等传输应用协议; 4) 支持选用加密功能和加密算法; 5) 核心数据传输能支持设备端和云端双向鉴别; 6) 传输数据包具有完整性校验功能,支持时间窗口和丢包检测; 7) 传输数据包支持断点续传和重复上传校验; 8) 数据传输具有流控机制,根据设备端采集频率和云端消费速率动态调整上传速率 b) 采集系统不具有网络传输能力时,应具有以下时间序列传输功能: 1) 能通过离线提取工具,将缓存的数据提取到其他装置; 2) 支持对提取到缓存的数据进行清理 3 存储与管理技术 3.1 存储与管理流程 时间序列数据在存储管理系统中的生存周期可分为定义周期和运行周期在时间序列数据存储管理 定义周期内,根据数据定义实现时间序列数据元数据的长期存储,流程见图 2。
在时间序列数据存储管理运行周期内,通过数据写入实现时间序列数据的长期存储;数据读取发送 查询请求,存储管理系统返回符合查询条件的结果数据;当需要针对数据质量等问题进行数据修正时执 行数据更新;当需要针对数据过期等情况将数据从存储设备中删除时执行数据删除, 流程见图 3 图 2 — 时间序列数据存储管理定义周期 图 3 — 时间序列数据存储管理运行周期 3.2 存储和管理系统功能 存储管理系统应具有以下时间序列数据定义功能:a) 能提供针对时间序列的结构定义功能,包括:1) 时间序列的唯一标识;2) 时间序列的数据类型;3) 时间序列的编码方式;4) 时序序列的压缩和解压缩方式;5) 其他可扩展的用户自定义字段b) 能提供针对时序数据的元数据识别功能 4 分析与挖掘技术 4.1 分析与挖掘流程 数据分析与挖掘主要由以下 7 步组成a) 定义问题在开始知识发现之前最先的也是最重要的要求就是了解数据和业务问题必须要对目标有一个清晰明确的定义,即决定到底想干什么b) 建立数据挖掘库建立数据挖掘库包括以下几个步骤:数据收集,数据描述,选择,数据质量评估和数据清理,合并与整合,构建元数据,加载数据挖掘库,维护数据挖掘库。
c) 分析数据分析的目的是找到对预测输出影响最大的数据字段,和决定是否需要定义导出字段d) 准备数据这是建立模型之前的最后一步数据准备工作可以把此步骤分为四个部分:选择变量,选择记录,创建新变量,转换变量e) 建立模型建立模型是一个反复的过程需要仔细考察不同的模型以判断哪个模型对面对的问题最有用先用一部分数据建立模型,然后再用剩下的数据来测试和验证这个得到的模型有时还有第三个数据集,称为验证集,因为测试集可能受模型的特性的影响,这时需要一个独立的数据集来验证模型的准确性训练和测试数据挖掘模型需要把数据至少分成两个部分,一个用于模型训练,另一个用于模型测试f) 评价模型模型建立好之后,必须评价得到的结果、解释模型的价值从测试集中得到的准确率只对用于建立模型的数据有意义g) 实施模型建立并经验证之后,可以有两种主要的使用方法第一种是提供给分析人员做参考;另一种是把此模型应用到不同的数据集上4.2 分析与挖掘系统功能 分析与挖掘系统应具有以下时间序列数据定义功能:a) 能够预测未来趋势和行为的功能b) 完成对于聚类和概念的描述:工业互联网数据可以划分成一系列有意义的集合,也就是聚类它增强了人们对客观事实的认识,是概念描述的前提。
概念描述就是描述某一类物体的本质,概括了这类物体的相关特性c) 关联分析和偏差检测:关联分析就是要找出隐匿在数据库中的有彼此相关和联系的网络偏差检测用来发现与正常情况不同的异常和变化,并进一步分析这种变化是有意的诈骗行为,还是正常的变化如果是异常行为,则需提示采取预防措施,尽早防范5 展现与应用技术 5.1 展现与应用技术流程 数据展现与应用技术主要由以下 3 步组成a) 明确需求数据展现与应用技术是为了解决问题而制作出来的,所以实际制作分析的过程中必须紧贴问题,了解问题指标、属于什么专业方向的内容,最大程度地提升数据分析的准确性,提高图表展现信息的质量b) 分析与处理数据数据决定了你图表可以展现的信息,也决定了你要进行的分析流程,我们要对数据进行查漏补缺清洗、去噪等处理并且还要明确数据指标和数据之间的关系c) 选择图表图表的选择直接关系到可视化的呈现效果,一个合适的图表能够把数据之间的联系转化为直观的信息,相反错误的图表可能会将需求对象引向错误的方向 5.2 展现与应用系统功能 展现与应用系统应具有以下时间序列数据定义功能:a) 通过合理的排版布局,把重要的数据指标放到最重要的区域或者通过大区域的展示,让其突然出来,让观看者能迅速的获取到重要信息。
b) 要合理的利用可视化的设计空间,在确保重要信息位于可视化空间视觉中心的情况下,保证整个页面的不同元素在空间位置上处于平衡,提升设计美感c) 要有轻重之分,不要为了展现更多的数据导致画面过于臃肿,反而让观看者感到混乱。
