• 学前教育
  • 小学学习
  • 初中学习
  • 高中学习
  • 语文学习
  • 数学学习
  • 英语学习
  • 作文范文
  • 文科资料
  • 理科资料
  • 文档大全
  • 当前位置: 雅意学习网 > 作文范文 > 正文

    数据隐私保护技术研究综述|大数据隐私保护技术

    时间:2019-04-22 03:25:06 来源:雅意学习网 本文已影响 雅意学习网手机站

      摘要:随着信息技术的发展,数据库系统的广泛应用,如何防止隐私数据和敏感信息不泄露成为当前面临的重大挑战。对数据隐私保护技术研究的现状进行了介绍,并着重介绍了几种主流隐私保护技术的特点。在此基础上对隐私保护技术进行了分析和总结,提出了数据隐私保护技术未来的研究方向。
      关键词:隐私保护;数据挖掘;数据库应用
      0、引言
      随着网络技术和通信技术的日益成熟以及网络通信带宽的不断增加,越来越多的数据在网上进行发布和交换,丰富的数据资源一方面加大了数据分析和数据挖掘的需求,另一方面,数据资源的隐私保护问题给数据挖掘提出了新的挑战。
      1 隐私保护中的关键问题
      1.1 隐私
      隐私是指个人、机构等实体不愿意被外部知晓的信息[1]。比如,个人的行为模式、兴趣爱好、健康状况、公司的财务状况等。个人隐私即为数据所有者不愿意被披露的敏感信息,如个人的收入水平、健康状况、兴趣爱好等。由于人们对隐私的限定标准不同,对隐私的定义也有所差异。一般来说,任何可以确认特定个人的,但个人不愿意披露的信息都可以称为个人隐私。
      1.2 数据挖掘
      数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database,KDD),就是从大量数据中获取有效地、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识[2]。数据挖掘可以对得到的数据库查询结果进行高效、智能化的处理,从中自动获取先前未知的模式和信息。但是,倘若毫无限制地进行挖掘,必然会对一些隐私数据造成侵犯。从本质上说,数据挖掘是研究如何利用数据库中现有的数据推导出未知的数据,而隐私保护则是防止用户推出敏感数据。形象地说,数据挖掘是进攻,而隐私保护则是防守。
      1.3 隐私保护度量标准
      隐私保护技术在保护隐私的同时,还要兼顾应用价值和计算开销。综合起来,隐私保护技术的度量标准有以下三个方面:
      (1)隐私保护度。 一般通过数据隐私的披露风险来反映,披露风险越小,隐私保护度越高[3]。
      (2)数据质量/服务质量。在数据发布中,数据质量是指发布数据的可用性,数据的可用性越高,数据质量越好。一般采用信息丢失率(即信息扭曲度)[4]来衡量数据质量的好坏。
      (3)算法性能。一般利用时间复杂度对算法性能进行度量。例如,时间复杂度为O(k)的近似k-匿名算法,显然优于复杂度为O(klogk)的近似算法。
      2 数据隐私保护技术
      在上述度量标准的基础上,下面开始对几种主流的数据隐私保护技术进行介绍和分析。
      2.1 基于匿名的隐私保护技术
      匿名技术是隐私保护中广泛使用的技术,通过隐藏或不收集用户的身份敏感信息,允许用户提交数据而且不暴露自己的身份[5]。因其处理简单,在数据库应用中较容易使用。然而通过匿名技术收集的数据难以保证质量,因为在没有身份确认的情况下大量用户会提交无用的随机数据。并且系统容易受到竞争对手的攻击。例如一个公司在数据库系统中输入大量的伪造数据来使自己生产的产品获得更多的推荐。因此在数据库应用中确认用户的身份是十分必要的。
      2.2 基于关联规则的隐私保护技术
      关联规则挖掘是一种典型的数据挖掘方法,最早由Agrawal等人提出。关联规则挖掘可以发现存在于数据库中的项目或属性间的有趣关系。这些关系是预先未知的和被隐藏的,也就是说不能通过数据库管理系统所提供的逻辑操作或统计的方法得出。现有的各种关联规则挖掘算法大致可分为搜索算法、层次算法、数据集划分算法、抽样算法等。关联规则挖掘作为数据挖掘中最重要的方法之一,已经也在隐私保护方面取得了一定的研究成果,可以利用到基于关联规则的数据服务中。关联规则中隐私保护的基本策略有数据干扰和查询限制两大类[6]。
      数据干扰策略就是对原始数据按照一定的规则进行预变换,然后在经过干扰的数据上运行数据挖掘算法,得到所需的模式和规则。
      查询限制策略则是通过数据隐藏等方式来改变特定规则的支持度和置信度,然后用概率统计的方法或者分布式计算的方法得到所需的挖掘结果。
      2.3 基于协同过滤的隐私保护技术
      协同过滤推荐技术基于相似用户群的兴趣向目标用户产生推荐,是当前数据库服务中最成功、使用最广泛的推荐技术之一。它只依赖于用户对项目的评分矩阵,因此对于各种特定应用都有很好的适应性,可提高数据应用系统的可扩展性和推荐质量。与其他数据挖掘技术一起,在协同过滤算法中加入隐私保护机制近年来引起了越来越多的学者的研究兴趣,是一个崭新的领域,需要得到更多的关注。目前协同过滤中隐私保护技术基本可以分为基于密码学的方法和数据变换两大类[7]。
      基于密码学的方法是通过对原始数据进行加密处理的方法。安全多方计算是分布式环境下的一种加密方法,是目前数据服务协同过滤中最行之有效的隐私保护方法。
      数据变换是对原始数据进行变换处理的方法。Clifton等人讨论了几种防止对数据过分挖掘的方法,主要包括对数据增加噪声、消除数据中的附加信息、故意增加错误数据等。数据变换在协同过滤的隐私保护中得到了广泛应用。
      3 数据隐私保护技术的发展
      在总结当前数据隐私保护现状的前提下,对于未来数据隐私保护技术的发展,可以从如下几点入手:
      (1)高准确度的方法。尽可能完整地生成相应规则,而不遗漏重要规则,并且所生成规则的准确度也不应有明显的降低。
      (2)高性能的方法。提出具有优良性能的相关方法,包括时间性能与空间开销,以及网络开销。
      (3)适用于分布环境的方法。随着网络技术的发展,如何在分布式环境下进行各种隐私保护的数据挖掘,也将是一个重要的研究方向。
      4 结束语
      本文综述了数据隐私保护技术研究的发展现状,并分别对当前主流的三类隐私保护技术进行了分析总结,还对未来数据隐私保护技术的发展提出了几点看法。然而数据隐私保护技术的研究仍然面临着许多挑战,需要更深入的研究使其在实际系统中得到更多应用,真正有效保护用户的信息和隐私安全。随着信息技术的发展,数据库系统的广泛应用,数据库服务中隐私保护技术也会得到更多的重视和研究。(作者单位:天津师范大学计算机与信息工程学院)
      参考文献:
      [1] 周水庚,李丰,陶宇飞,等.面向数据库应用的隐私保护研究综述[J].软件学报,2009,32(5):847-858.
      [2] 华蓓,钟诚.数据挖掘中的隐私保护技术进展分析[J].微电子学与计算机,2009,26(8):38-41.
      [3] 田秀霞,王晓玲,高明,等.数据库服务——安全与隐私保护[J].软件学报,2010,21(5):991-1006.
      [4] 朱勤,骆轶姝,乐嘉锦.数据库隐私保护技术研究[J].东华大学学报(自然科学版),2006,32(5):21-25.
      [5] 王平水,王建.匿名化隐私保护技术研究综述[J].小型微型计算机系统,2011,32(2):248-252.
      [6] 仲波.基于关联规则的隐私保护算法研究.兰州:兰州理工大学,2007.
      [7] 余永红,柏文阳.安全数据库隐私保护和访问控制集成研究[J].计算机应用研究,2010,27(10):3876-3879.

    推荐访问:技术研究 综述 隐私保护 数据

    • 文档大全
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章