
数据挖掘技术提高民营经济质量研究.docx
15页数据挖掘技术提高民营经济质量研究 随着大数据概念的出现,数据的价值越来越受重视数据挖掘就是从大量的数据中挖掘出有用的信息,所以数据自身的质量对挖掘出来的信息有重要的决定作用统计数据的质量是政府统计工作的生命线,关系着政府统计部门的形象和公信力随着经济的发展,政府经济统计数据被使用的频率越来越高,人们也越来越关注统计数据自身的质量问题然而,我国的一些官方统计数据常常受到诸多媒体和社会公众的质疑,认为数据中水分太高,失真现象很严重事实上,我国政府统计部门在提高我国统计数据质量方面已经做了很多努力,由于其面对的统计对象广泛且复杂,导致数据质量提高的难度不断增大要提高政府统计数据质量仅仅依靠目前已有的方法和技术是不够的,必须要引进新的技术手段,所以本文尝试将数据挖掘技术引入到提高民营经济统计数据质量研究中,以期能够改善政府统计数据不能满足使用者需求的现状 一、民营经济和统计数据质量的内涵 (一)民营经济的内涵 关于民营经济的定义,尚未形成一致的观点一种较为认可的定义是,民营经济是指除了国有及国有控股、集体经济、外商和港澳台商独资及其控股的经济组织,其主要成分是私营企业、个体工商户和农民专业合作社。
其中,私营企业和个体工商户在民营经济中占据了绝大部分在当前有关民营经济的统计资料和研究文献中,基本上也是按照如上的构成成分加以统计和分析研究的 (二)统计数据质量的内涵 关于统计数据质量的涵义,不同统计机构和学者对此有不同的定义例如,加拿大统计局确定了衡量数据质量的6个方面标准:即实用性、准确性、及时性、可取得性、衔接性、可解释性;英国统计局提出的数据质量的标准是准确性、及时性、有效性和客观性厦门大学博导曾五一教授在他的研究中认为,统计数据的质量并不限于通常人们理解的准确性,它的完整内涵应当包括:准确性、适用性、时效性、可比性与可获得性等五个方面的要求本文就借用曾教授的观点,依照这五个标准来提高统计数据的质量 二、民营经济统计数据质量的现状 政府对外公布的民营经济相关数据颇多,比如民营经济增加值、民营经济的营业收入、民营经济规模以上企业数、民营经济对GDP的贡献率等民营经济数据的质量高低对以其为依据所做的有关决策和结论的科学性有重大影响,所以提高民营经济统计数据的质量具有重要意义从总体上看,目前的统计数据可以反映我国经济发展的大体趋势由于民营经济统计的对象复杂多变且分布广泛,使得民营经济统计数据的质量还存在诸多问题,不能满足使用者的需求。
(一)民营经济统计数据失真的现象很严重 统计数据失真的现象早已被社会公众所熟知,例如东北多个GDP造假县域经济规模超香港,地方GDP“增速高于全国、总量大于全国”等统计数据失真主要是由统计制度不够完善造成的通过对福建省某市统计局的走访,了解到目前民营经济统计没有专门的部门负责,而是将民营经济中的不同行业分给不同的部门负责统计,在统计人员中也分出了调查队和统计组两个队伍,数据的收集主要是由各级政府层层上报有的政府上报的数据完全是虚假数据,这样的统计制度难免会出现数据失真的现象统计数据虚假是最常见的统计数据质量问题,也是危害最为严重的统计数据质量问题这些统计数据完全是虚构杜撰的,根本就没有事实依据 (二)民营经济统计指标不统一造成各地统计数据难以衔接 目前,从国家层面看,全国没有统一的民营经济定义,也没有统一的民营经济统计口径和统计指标,也没有明确一个部门牵头负责民营经济工作各省对民营经济统计工作没有参照的标准,只能自成一体各级政府部门都是根据自身的统计需要来制定各自的统计指标和统计口径,这使得不同省份的民营经济统计数据不具有可比性,相互间难以衔接以山东省为例,工商联、工商局、中小企业局三个部门都在抓民营经济,而市一级多数由中小企业主管部门负责。
从统计口径上看,省工商局所统计的民营经济指标实际上只是个体工商户和私营企业,省中小企业局执行的是以前乡镇企业的指标体系,基本不用民营经济这个概念,但到了市一级,中小企业、民营经济用的都是这个数据,而概念和标准都十分清楚的中小企业从上到下都没有专门的统计概念界定不清、统计口径不统一、统计体系不健全,给基层工作带来很大不便对此,山东省宏观经济研究院经济研究所所长高福一认为,面对大数据时代,统计体系不完备,会对政府的科学决策造成一定影响 (三)民营经济配合统计工作的积极性不高,申报的数据较随意 民营经济的统计工作,仅仅依靠统计部门及其他政府部门远远不够,需要各民营经济实体的积极配合从当前情况来看,由于缺乏相应的法律约束,民营经济实体在这种“纯义务”的统计工作上,很少采取主动配合的态度,对统计部门需要的统计资料也是敷衍了事,甚至有时要统计人员再三催促,才随意地报上一组数据应付这种不准确的数据严重影响统计报表的准确性,不利于我国民营经济的统计工作同时,民营经济体对于涉及企业销售总额与营业利润等企业的敏感性数据,抵触心理严重,这主要是其“怕征税、怕露富、怕泄密”的心理造成的,如此一来,在对待民营经济统计工作的态度上,民营经济体本身就不愿意参与,也不会主动配合,大大降低了民营经济统计工作的效率。
由此可见,缺乏相应的法律约束,使民营经济提供的数据与报表资料随意性很大,给我国民营经济的统计工作带来非常大的困扰,这也是我国民营经济统计数据质量不高的重要原因 三、数据挖掘技术在提高民营经济统计数据质量中的应用 数据挖掘的正式研究开始于11019年举行的第十一届国际联合人工智能学术会议,从数据库中发现知识(KDD)一词首次在该会议中被提出数据挖掘技术从一开始就是面向应用的,在国外很多领域,如金融、生物、电信、保险、交通、零售等领域,数据挖掘的应用都起到了明显的效果世界上研究数据挖掘的组织、机构和大学有很多,比如卡内基梅隆大学、斯坦福大学和麻省理工学院等与国外相比,国内对数据挖掘的研究稍晚,没有形成整体力量,直到11013年国家自然科学基金才首次支持该领域的研究项目,到上世纪90年代中后期,初步形成了知识发现和数据挖掘的基本框架此后一批研究学术论文逐渐发表,但是基本上还是以学术研究为主,实际应用上处于起步阶段在大数据时代,利用数据挖掘提升竞争力已成为各行各业都在追逐和挑战的目标,数据挖掘被认为是大数据中最关键和最有价值的工作目前有研究者提出将数据挖掘技术应用于统计中,为相应的部门提供服务。
比如,将数据挖掘应用在政府统计、人口普查、经济普查中民营经济作为我国的一大经济支柱,其中包含了大量复杂的信息,数据质量高低不容忽视因此,有必要对数据挖掘技术在民营经济统计数据质量控制方面进行研究 (一)微观层面 我国民营经济包含的对象复杂多样,各单位的规模大小不一,其分布又十分广泛面对如此庞大的群体,民营经济统计工作的难度可想而知我国没有统一的民营经济统计,都是各省各部门根据自身的需要进行相关统计据某统计局工作人员介绍,在收集民营经济统计数据时,按照企业规模的大小分为两种渠道,规模以上的企业通过网络直报提交数据,规模以下的通过调查队或者当地基层政府提交相关数据在收集数据时,根据行业不同又分工为不同科室负责,比如有的科室负责钢铁行业,有点科室负责文化产业行业等,这样容易导致重复统计或者遗漏统计目前我国对于民营经济申报的统计数据没有任何法律约束,导致上报的数据很随意,常常与实际值偏离巨大在初始环节严把数据的质量,对后期的数据加工具有重要的意义1.孤立点的识别孤立点指的是在数据集合中与大多数数据的特征不一致的数据孤立点挖掘可以描述为,给定一个n个数据点或对象的集合,以及预期的孤立点的数目k,发现与剩余的数据相比是显著不一致的头k个对象就是孤立点。
目前挖掘孤立点的算法主要包括七类:基于统计的方法、基于距离的方法、基于密度的方法、基于偏离的方法、基于聚类的方法、基于粗糙集的方法和基于人工神经网络的方法在民营经济统计数据采集过程中,由于采集的对象庞大,政府统计工作人员无法做到对每次收集的数据一一核实,只能对采集的数据进行一次筛选,将其中可能存在显著差异的数据找出来,然后对这些数据进行核实,剔除一些无效的数据,以保证原始数据的真实性对于民营经济各个单位上报的统计数据,无论是故意的还是无意的都会出现一些孤立点,这些孤立点的存在无疑会影响数据的质量我们可以通过基于聚类的方法来找到这些孤立点,首先将民营经济统计数据集利用已经成熟的模型进行聚类分析,使数据集形成簇,而那些不在簇中的数据即被视为异常点,然后对这些异常点进行一一核实,这样工作量就大大缩小了2.缺失数据的替代缺失数据是指数据集中某些记录的属性值丢失或空缺,一般缺失的属性值代表了缺失的信息民营经济统计指标体系涵盖的内容广泛,而民营企业大部分规模较小,数据记录的制度不健全,面对政府部门收集数据的任务,有时是提交空白数据,有时是随便填报个数据敷衍了事统计部门收集到的空白数据,最简单的办法是直接去掉,这样势必会影响到最终统计结果的真实性。
为了提高数据的质量,必须要对这些缺失值找到一个合理的替代值缺失数据的替代方法有单值替代、类均值替代和回归替代,这些方法都可以解决缺失数据的替代问题单值替代是使用一个常量代替所有的缺失值,常量的选择由应用的目的而定,可选择平均值、最大值、最小值等统计指标类均值替代是用缺失数据记录所在类别的属性平均值代替缺失数据回归替代是应用回归分析技术,对包含有缺失属性值的属性和相关的其他属性建立预测模型,并用相应的预测值代替缺失属性值3.虚假数据的修正在民营经济统计中,会收集很多不可避免的虚假数据造成统计数据虚假的因素多种多样,如一些经济主体受经济利益驱使,捏造虚假数据,在财务报表上大做文章比如,一些效益好的企业为了偷税漏税故意少报利润和销售收入,而一些效益不好的企业少报亏损或者高账面盈利,以骗取银行贷款并树立企业形象还有一些企业长期搞多本账,报给财税部门的是“苦账”,报给银行获得贷款的是“喜账”,报给上级主管部门的是应付账,留给自己的才是真实账虚假数据俗称为含水分的数据,如果这些数据水分不大,可以不去理会,因为统计数据是反映一个大体概况和趋势的,不需要毫厘不差如果这些数据水分较大,汇总在一起的高水分的数据容易放大或者缩小实际经济状况,这时就必须在初始数据采集时严控数据中的水分。
这些数据一般不会像孤立点那样容易被发现,具有一定的隐蔽性,必须要借助于数据挖掘方法才能识别其中的水分,比如数据挖掘中的聚类分析聚类分析是将一个数据集划分为若干聚类,并使得同一个聚类内的数据对象具有较高的相似度,而不同聚类中的数据对象的相似度尽可能低在民营经济统计数据库中将具有相似属性的企业归为同一个聚类,对于同一个聚类中某个企业的某项属性明显存在巨大差异,则可以判断此属性数据可能存在严重虚假,然后再进一步调查核实和修正 (二)宏观层面 大部分地方统计部门在处理和分析统计数据时还处于手工操作或半手工操作,计算机的使用仅限于做一些简单的汇总和指标计算,统计分析也主要是事后分析,没能利用发达的计算机技术通过信息共享等方式进行事前分析和预测1.关联规则的应用关联规则是近几年研究较多的数据挖掘方法,具有高度的灵活性和重要性,应用也是最为广泛的关联规则挖掘的主要对象是事务数据库,在事务数据库中,事务1中出现了属性项甲,事务2中出现了属性项乙,事务3中则同时出现属性甲和乙那么属性甲和乙在事务中的出现互相之间是否有规律可循就是关联规则要挖掘的隐含信息,以查找容易被忽略或与人们熟知相背离的事件。
经济统计中运用关联规则能够挖掘出汇总数据中联系密切的行业,这些关系密切的行业有已知的,也有未知的尤其在民营经济的统计数据中,有些内部信息汇报人不愿如实填写数据,导致汇总后的数据与实际数据相差甚远,此时可以通过已经。
