电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

大数据隐私保护技术综述

23页
  • 卖家[上传人]:小**
  • 文档编号:34134789
  • 上传时间:2018-02-21
  • 文档格式:DOC
  • 文档大小:215KB
  • / 23 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、大数据隐私保护技术综述 方滨兴 贾焰 李爱平 江荣 北京邮电大学 国防科学技术大学计算机学院 摘 要: 大数据分析带来的隐私泄露问题日趋严重, 如何在利用大数据为各行各业服务的同时, 保护隐私数据和防止敏感信息泄露成为新的挑战。大数据具有规模大、来源多、动态更新等特点, 传统的隐私保护技术大都已不再适用。为此, 给出了大数据时代的隐私概念和生命周期保护模型;从大数据生命周期的发布、存储、分析和使用 4 个阶段出发, 对大数据隐私保护中的技术现状进行了分类阐述, 并对各技术的优缺点、适用范围等进行分析;对大数据隐私保护技术发展的方向和趋势进行了阐述。关键词: 大数据; 隐私保护; 数据发布; 数据挖掘; 数据访问; 作者简介:方滨兴 (1960-) , 男, 博士, 中国工程院院士, 主要研究方向为大数据、计算机网络和信息安全。作者简介:贾焰 (1960-) , 女, 博士, 国防科学技术大学教授, 主要研究方向为大数据、网络信息安全和社交网络。作者简介:李爱平 (1974-) , 男, 博士, 国防科学技术大学研究员, 主要研究方向为大数据分析、数据挖掘和网络信息安全。作者简介:江荣

      2、(1984-) , 男, 博士, 国防科学技术大学助理研究员, 主要研究方向为隐私保护和网络信息安全。收稿日期:2015-12-24Privacy preservation in big data:a surveyFANG Binxing JIA Yan LI Aiping JIANG Rong Beijing University of Posts and Telecommunications; School of Computer, National University of Defense Technology; Abstract: Privacy disclosure issue becomes more and more serious due to big data analysis. Privacy-preserving techniques should be conductive to the big data applications while preserving data privacy. Since big data has the characteris

      3、tics of huge scale, numerous sources and dynamic update, most traditional privacy preserving technologies are not suitable any more. Therefore, the concept of privacy and life cycle protection model of big data era were introduced firstly. Technical state of big data privacy preservation was elaborated from the points of view of four stages in big data life cycle, i.e. data publishing, storage, analysis and use. The relative merits and scope of application of each technology were investigated as

      4、 well. Finally, some important direction and tendency of privacy preservation technologies for big data were suggested.Keyword: big data; privacy preservation; data dissemination; data mining; data access; Received: 2015-12-241 引言随着智慧城市、智慧交通、智能家居、智能电网、智慧医疗、在线社交网络、Web 3.0 等数字化技术的发展, 人们的衣食住行、健康医疗等信息被数字化, 可以随时随地通过海量的传感器、智能处理设备等终端进行收集和使用, 实现物与物、物与人、人与人等之间在任何时候、任何地点的有效连接, 也促成了大数据时代的到来1。大数据蕴含着巨大的商业价值, 目前各行各业都在做大数据分析和挖掘, 企业、运营商等在各自拥有的数据或互联网上发布的数据中发掘潜在价值, 为提高自己的利润或达到其他目的服务。然而, 在享受大数据挖掘得到的各种各样有价值的信息给生产、生

      5、活带来便利的同时, 也不可避免地泄露了人们的隐私。例如, 亚马逊公司推出了“未下单先调货”计划, 利用大数据分析技术, 基于对网购数据的关联挖掘分析, 在用户尚未下单前预测其购物内容, 提前发出包裹至转运中心, 缩短配送时间, 但如果处理不好, 很可能会泄露大量用户的隐私;医院在给疾病控制中心等研究部门提供大数据, 进行疾病预防和决策时, 如果不进行数据处理, 则会泄露病人的隐私信息;上市公司在发布自己财务年报或其他新产品信息时, 如果不对发布的数据进行适当处理, 就会给商业上的竞争者以可乘之机。如何在不泄露用户隐私的前提下, 提高大数据的利用率, 挖掘大数据的价值, 是目前大数据研究领域的关键问题, 将直接关系到大数据的民众接受程度和进一步发展趋势。具体而言, 实施大数据环境下的隐私保护, 需要在大数据产生的整个生命周期中考虑两个方面:如何从大数据中分析挖掘出更多的价值;如何保证在大数据的分析使用过程中, 用户的隐私不被泄露。有时数据发布者恶意挖掘大数据中的隐私信息, 此种情况下, 更需要加强对数据发布时的隐私保护, 以达到数据利用和隐私保护二者之间的折中。本文的主要贡献为:首先,

      6、给出了大数据隐私的概念及隐私保护的生命周期模型;然后, 从大数据生命周期的 4 个阶段 (即数据的发布、存储、分析和使用) 出发, 对大数据隐私保护中的技术现状和发展趋势进行了分类阐述, 并对该技术的优缺点、适用范围等进行分析;最后, 对大数据隐私保护技术发展的方向和趋势进行了阐述。2 大数据隐私概念与表示模型2.1 隐私的概念及量化在维基百科中, 隐私的定义是个人或团体将自己或自己的属性隐藏起来的能力, 从而可以选择性地表达自己。具体什么被界定为隐私, 不同的文化或个体可能有不同的理解, 但主体思想是一致的, 即某些数据是某人 (或团体) 的隐私时, 通常意味着这些数据对他们而言是特殊的或敏感的。综上所述认为, 隐私是可确认特定个人 (或团体) 身份或其特征, 但个人 (或团体) 不愿被暴露的敏感信息。在具体应用中, 隐私即用户不愿意泄露的敏感信息, 包括用户和用户的敏感数据。例如, 病人的患病数据、个人的位置轨迹信息、公司的财务信息等敏感数据都属于隐私。但当针对不同的数据以及数据所有者时, 隐私的定义也会存在差别2。例如, 保守的病人会视疾病信息为隐私, 而开放的病人却不视之为隐私

      7、;小孩子的定位信息对于父母而言不是隐私, 对于其他人而言却是隐私;有些用户的数据现在是隐私, 可能几十年后就不是隐私。从隐私的类型划分, 隐私可划分为五大类。 财务隐私:与银行和金融机构相关的隐私。 互联网隐私:使某用户在互联网上暴露该用户自己的信息以及谁能访问这些信息的能力。 医疗隐私:患者患病和治疗信息的保护。 政治隐私:用户在投票或投票表决时的保密权。 信息隐私:数据和信息的保护。在隐私数据的整个生命周期中, 都必须对隐私数据进行准确描述和量化, 才能全面地保护隐私数据。隐私可简单描述为:隐私= (信息本体+属性) 时间地点使用对象。可以看出, 信息本体就是拥有隐私的用户, 隐私以信息本体和属性为基础, 包含时间、地点、来源和使用对象等多个因素。为了更好地管理隐私以及进行隐私计算, 明确在何种情况下数据发布者、数据存储方以及数据使用者对哪些隐私数据进行保护, 需要对隐私数据进行量化。在隐私数据的量化过程中, 需要综合考虑用户的属性、行为、数据的属性、传播途径、利用方式等因素, 并对隐私数据的计算和变更有很好的支撑。2.2 大数据生命周期的隐私保护模型在大数据发布、存储、挖掘和使用

      8、的整个生命周期过程中, 涉及数据发布者、数据存储方、数据挖掘者和数据使用者等多个数据的用户, 如图 1 所示。在大数据生命周期的各个阶段, 大数据隐私保护模型各部分的风险和技术如下所述。(1) 数据发布数据发布者即采集数据和发布数据的实体, 包括政府部门、数据公司、网站或者用户等。与传统针对隐私保护进行的数据发布手段相比, 大数据发布面临的风险是大数据的发布是动态的, 且针对同一用户的数据来源众多, 总量巨大, 如何在数据发布时, 保证用户数据可用的情况下, 高效、可靠地去掉可能泄露用户隐私的内容, 是亟待解决的问题。传统针对数据的匿名发布技术, 包括 k-匿名、l-diversity 匿名、t-closeness 匿名、个性化匿名、m-invariance 匿名、基于“角色构成”的匿名等方法, 可以实现对发布数据时的匿名保护。在大数据的环境下, 如何对这些技术进行改进和发展, 以满足大数据发布的隐私保护需求, 是需要着重研究的内容。(2) 数据存储在大数据时代, 数据存储方一般为云存储平台, 与传统数据的拥有者自己存储数据不同, 大数据的存储者和拥有者是分离的, 云存储服务提供商并不

      9、能保证是完全可信的。用户的数据面临着被不可信的第三方偷窥数据或者篡改数据的风险。加密方法是解决该问题的传统思路, 但是, 由于大数据的查询、统计、分析和计算等操作也需要在云端进行, 为传统加密技术带来了新的挑战。比如, 同态加密技术、混合加密技术、基于 BLS 短签名 POR 模型、DPDP、K nox 等方法, 是针对数据存储时防止隐私泄露而采取的一些方法。(3) 数据挖掘数据挖掘者即从发布的数据中挖掘知识的人或组织, 他们往往希望从发布的数据中尽可能多地分析挖掘出有价值的信息, 这很可能会分析出用户的隐私信息。在大数据环境下, 由于数据存在来源多样性和动态性等特点, 在经过匿名等处理后的数据, 经过大数据关联分析、聚类、分类等数据挖掘方法后, 依然可以分析出用户的隐私。针对数据挖掘的隐私保护技术, 就是在尽可能提高大数据可用性的前提下, 研究更加合适的数据隐藏技术, 以防范利用数据发掘方法引发的隐私泄露。现在的主要技术包括:基于数据失真和加密的方法, 比如数据变换、隐藏、随机扰动、平移、翻转等技术。(4) 数据使用数据使用者是访问和使用大数据以及从大数据中挖掘出信息的用户, 通常为企业和个人, 通过大数据的价值信息扩大企业利润或提供个人生活质量。在大数据的环境下, 如何确保合适的数据及属性能够在合适的时间和地点, 给合适的用户访问和利用, 是大数据访问和使用阶段面临的主要风险。为了解决大数据访问和使用时的隐私泄露问题, 现在的技术主要包括:时空融合的角色访问控制、基于属性集加密访问控制 (attribute-based encryption access control, ABE) 、基于密文策略属性集的加密 (ciphertext policy attribute set based encryption, CP-ASBE) 、基于层次式属性集的访问控制 (hierarchical attribute set based encryption, HASBE) 等技术。下面针对大数据生命周期中的发布、存储、挖掘和使用 4 个过程中的隐私保护技术进行阐述。3 大数据发布隐私保护技术为了从大数据中获益, 数据持有方有时需要公开发布己方数据, 这些数据通常会包含一定的用户信息, 服务方在数据发布之前

      《大数据隐私保护技术综述》由会员小**分享,可在线阅读,更多相关《大数据隐私保护技术综述》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.