
大数据相关分析综述梁吉业.pdf
20页第 38 卷 计 算 机 学 报 Vol.38 2015 论文出版号 No.94 CHINESE JOURNAL OF COMPUTERS Online Publishing No.94 ——————————————— 本课题得到国家自然科学基金(61432011, U1435212, 71301090)、国家重点基础研究发展计划(973计划)(2013CB329404) 、山西省高等学校创新人才支持计划(2013052006)资助. 梁吉业, 男, 1962年生, 博士, 教授, 中国计算机学会理事, 主要研究领域为粒计算、数据挖掘与机器学习, E-mail: ljy@. 冯晨娇, 女, 1977年生, 博士研究生, 讲师, 主要研究领域为数据挖掘、统计学习方法、大数据相关分析, E-mail: fcjsp@. 宋鹏, 男, 1979年生, 博士, 副教授, 主要研究领域为智能决策、数据挖掘, E-mail: songpeng@. 大数据相关分析综述 梁吉业1), 冯晨娇1),2), 宋鹏1,3) 1)(山西大学计算智能与中文信息处理教育部重点实验室 太原 030006) 2)(山西财经大学应用数学学院 太原 030006) 3)(山西大学经济与管理学院 太原 030006) 摘 要 大数据时代, 相关分析因其具有可以快捷、高效地发现事物间内在关联的优势而受到广泛的关注, 并有效地应用于推荐系统、商业分析、公共管理、医疗诊断等领域. 面向非线性、高维性等大数据的复杂特征, 结合现有相关分析方法的语义分析, 本文从统计相关分析、互信息、矩阵计算、距离四个方面对大数据相关分析的现有研究成果进行了梳理. 在对统计学中的经典相关分析理论进行归纳、总结的基础上, 文中从大规模数据的通用性和均等性视角阐述了基于互信息的两个变量间非线性相关分析理论, 从高维数据可计算的角度分析了基于矩阵计算的相关系数, 从非线性、 高维性数据的复杂结构方面解析了基于距离的相关系数. 进一步地, 本文在对已有相关分析方法进行分析与比较的基础上, 围绕高维数据、 多变量数据、大规模数据、增长性数据及其可计算方面探讨了大数据相关分析的研究挑战. 关键词 大数据; 相关分析; 相关系数; 信息熵 中图法分类号 TP18 论文引用格式 梁吉业,冯晨娇,宋鹏,大数据相关分析综述,2015,Vol.38:出版号 No.94 LIANG Ji-Ye ,FENG Chen-Jiao ,SONG Peng, A Survey on Correlation Analysis of Big Data, Chinese Journal of Computers,2015, Vol.38: Online Publishing No.94 A Survey on Correlation Analysis of Big Data LIANG Ji-Ye1), FENG Chen-Jiao1),2), SONG Peng1),3) 1)(Key Laboratory of Computational Intelligence and Chinese Information Processing of Ministry of Education, Shanxi University, Taiyuan 030006) 2)(School of Applied Mathematics , Shanxi University of Finance and the distance correlation is analyzed from the point of complicated formation of nonlinear and high-dimensional data. Furthermore, on the account of analyzing and comparing existing correlation analysis approaches, challenges of correlation analysis for big data are studied, namely high dimensional data, multivariable data, large-scale data, incremental data and its computability. Key words big data; correlation analysis; correlation coefficient; information entropy 1 引言 随着信息与通信技术的迅猛发展, 全球数据量 呈现爆炸式增长. 面对海量、复杂的数据, 人们日 益发现其是人类发展的重要经济资产, 有效的数据 分析与挖掘将推动国家、企业乃至整个社会的高 效、可持续发展. 自 2008 年 9 月《Nature》出版“Big Data”专 刊以来[1], 大数据更是成为政府、学术界、实务界 共同关注的焦点, 如 2011 年《Science》 出版的专刊 “Dealing with Data”[2]和麦肯锡公司发布的报告 “ Big data: The next frontier for innovation, competition, and productivity”[3], 2012 年达沃斯世界经济论坛上发布的报告“Big data, big impact: New possibilities for international development”[4]等. 大 数据分析与挖掘的研究成果也被广泛应用于物联 网、舆情分析、电子商务、健康医疗、生物技术和 金融等各个领域. 从国内研究进展来看, 大数据研究也日益受到 重视. 李国杰院士和程学旗教授围绕大数据的研究 现状、科学问题、主要挑战以及发展战略进行了全 面的分析与展望[5], 为大数据的进一步深入研究提 供了重要的研究思路; 从具体研究进展来看, 围绕 大数据环境下的数据仓库架构[6]、大数据降维[7]、 相关性分析[8]、海量数据应用[9]等方面的研究工作 不断涌现, 形成了一批重要的研究成果[10,11]. 同时, 中国计算机学会于 2013 年出版了《中国大数据技 术与产业发展白皮书》[12] , 2014 年出版了《中国大 数据技术与产业发展报告》[13], 并在大数据的发展 背景、典型应用、技术进展、IT 产业链与生态环境 以及发展趋势等方面进行了详细的阐述、分析与论 证. 毋庸置疑, 大数据研究之所以备受关注, 本质 原因在于其具有潜在的巨大价值[14]. 因此, 可以肯 定, 大数据分析与挖掘技术, 作为探测数据价值的 关键手段, 在大数据研究中具有极其重要的位置. 值得强调的是, 在大数据分析与挖掘任务中, 相关分析的研究受到更为广泛的关注和重视. 事实 上, 相关分析的研究从 1888 年 Galton 关注人类身 高与前臂长度的关系开始, 就已经引起了人们的注 意[15]. 然而, 从人类的思维方式来看, 人们并不仅 仅满足于发现相关关系, 而是在相关关系的基础上 进一步探索因果关系, 即在发现两个相关事物的基 础上进一步探究哪一事物为因哪一事物为果. 尽管 因果关系的准确发现仍然非常困难, 但人们可以通 过设立假设、实验验证等反复尝试的繁琐手段探索 这一难题[16]. 显然, 在传统的统计抽样背景下, 这 一繁琐的任务是可以接受的. 但是, 大数据时代, 人们更加关注数据总体, 并试图从数据总体中直接 获取有价值的信息, 而用于发现因果关系的传统的 反复尝试方法就变得异常困难. 与此相反, 从亚马 逊的推荐系统[17]、 谷歌的流感预测[18]等诸多现实案 例中, 人们日益发现, 与以往相比, 大数据时代相 关关系的探索具有更加重要的价值. 特别是, 近年来大数据相关分析的应用成果不 断涌现, 使得相关分析的研究成为学界、实务界关 注的热点问题. 在大数据相关分析的诸多应用领域 中, 最为引人注目的是推荐系统[19]. 基于相关系数 给出用户相似性、物品相似性的度量, 进而进行产 品推荐; 进一步地, 相关系数还是推荐系统的一类 重要评价指标. 2009 年发表在 PNAS 的文献 “Predicting Social Security Numbers from public data”[20], 则以美国公众数据为研究对象, 研究发现公民的社会安全号码(Social Security Number)与其 出生时间、出生地具有显著的相关关系, 研究成果论文出版号 No.94 梁吉业等:大数据相关分析综述 3 揭示了个人隐私泄露的可能诱因. 文献[21]则面向 药物基因组大数据, 基于协方差矩阵的稀疏建模与 奇异值分解, 探测与癌症相关的重要基因组. 此外, 大数据相关分析在灾害应急管理[22]、医疗诊断[23] 等领域也有着广泛的应用. 当然, 大数据研究中, “相关关系”与“因果关 系”的争论从未停止, 李国杰院士和程学旗教授在 文献[5]中也进行了详细的分析. 文中指出“因果关 系本质上是一种相互纠缠的相关性”, 并进一步强 调“大数据的关联分析是不是‘知其然而不知其所 以然’, 其中可能包含深奥的哲理, 不能贸然下结 论” . 需要进一步说明的是, 尽管争论还将存在, 但 是不可否认的是, 大数据的相关分析能够满足人类 的众多决策需求, 因此, 有效的发现与度量相关关 系具有重要的研究价值. 从科学层面来看, 面对混 杂的大数据, 相关分析可以帮助人们更快捷、更高 效地发现事物间的内在关联[16], 其本身不仅仅是一 项重要的数据分析与挖掘任务, 同时也为数据的深 度分析与挖掘进而发现事物内在规律提供“导航” 功能; 因此, 尽管大数据分析中有“相关关系”与 “因果关系”之争论, 但不可否认的是, 大数据相 关分析必然是大数据分析与挖掘的关键科学问题 之一. 从应用层面来看, 商业企业作为大数据应用 的重要领域, 其核心目标是实现利润的增长, 因此, 其在数据分析与挖掘中的核心任务是探测何种经 营策略与利润增长具有相关性, 而并不必然要求探 究经营策略与利润增长之间的因果关系, 即“从数 据到价值”的商业范式, 而非“从数据到信息再到 知识”的科学范式[5]. 综合来看, 可以肯定, 大数据 相关分析已经成为大数据分析与挖掘的核心科学 问题与关键应用技术. 所谓相关关系, 是指 2 个或 2 个以上变量取值 之间在某种意义下所存在的规律性, 其目的在于探 寻数据集里所隐藏的相关关系网[5]. 从统计学角度 看, 变量之间的关系大体可分两种类型: 函数关系 和相关关系.一般情况下, 数据很难满足严格的函 数关系, 而相关关系要求宽松, 所以被人们广泛接 受. 需要进一步说明的是, 研究变量之间的相关关 系主要从两个方向进行: 一是相关分析, 即通过引 入一定的统计指标量化变量之间的相关程度; 另一 个是回归分析. 由于回归分析不仅仅刻画相关关 系, 更重要的是刻画因果关系, 因此本篇文章讨论 的相关关系为前者. 相关分析的研究成果中, 最具影响力的是早在1895年由Pearson提出的积矩相关系数(也称皮尔逊 相关系数)[24]. 在长达 100 多年的时间里, 相关分析 得到实践的检验, 并广泛地应用于机器学习、生物 信息、信息检索、医学、经济学与社会统计学等众 多领域和学科. 进入大数据时代, 作为度量事物之 间协同、关联关系的有效方法, 大数据相关分析由 于其计算简捷、高效, 必将具有更强的生命力. 但 是, 由于大数据具有数据规模大、数据类型复杂、 价值密度低等特征, 因此, 如何找到有效且高效的 相关。












