• 学前教育
  • 小学学习
  • 初中学习
  • 高中学习
  • 语文学习
  • 数学学习
  • 英语学习
  • 作文范文
  • 文科资料
  • 理科资料
  • 文档大全
  • 当前位置: 雅意学习网 > 高中学习 > 正文

    【网络传输数据中基于序列模式的隐私保护数据挖掘】隐私保护数据挖掘

    时间:2019-04-18 03:17:30 来源:雅意学习网 本文已影响 雅意学习网手机站

      摘要    随着网络传输数据总量的急剧增加,现在有一种研究实体试图通过挖掘传输数据来得到有用的信息。例如,存在一些调查,所调查研究的内容涉及到网络蠕虫病毒的侦查和通过非正常的传输模式而进行的侵入。然而,因为网络传输数据包含了用户的网络使用模式的信息,因此网络用户的私有信息可能在挖掘过程中受到威胁。因此,我们提出了一种有效而实用的方法来保护隐私,这种保护是在网络传输数据的序列模式挖掘过程中实现的。为了在不侵犯隐私的情况下发现频繁序列模式,我们在方法中使用数据仓库服务器模型,这种模型作为一个单一的挖掘服务器和保持复位技术而运行,它有可能改变问题的答案。另外,我们的方法通过保持每一点的元数据表加速了全面的挖掘过程,从而快速确定候选序列是否在站点发生过。
      关键词:数据挖掘;序列模式;网络流量;隐私
      Abstract
      With the dramatic increase in the total network traffic, there is now a research entity is trying to tap the transmission of data to get useful information. For example, there is some research and investigation and research related to the network worm detection and intrusion of non-normal transmission mode. However, because the network transmission of data contains the information of the user"s network usage patterns, the network user"s private information may be in the mining process is threatened. So, we propose an effective and practical way to protect your privacy, this protection is implemented in the network transmission data sequence pattern mining. Frequent sequential patterns found in the case of non-infringement of privacy in the method we use the data warehouse server model, this model is run as a single mining server and keep the reset, it may change the answer to the question. In addition, our method by keeping at each point data table to accelerate the overall mining process, to quickly determine whether the candidate sequences occurred at the site.省略”正好是接到来自“amazon.com”的数据之后。
       网络传输数据包含因特网对每一用户用法的详细信息,这些信息表明了一个用户在某一特定时间访问一个站点。在这里,关于网络传输数据的数据挖掘自身存在着危及网络用户隐私的问题。因此,在数据聚集过程中,需要先进的技术来隐藏或重整用户的私有信息。此外,这些技术不应当以牺牲挖掘结果的正确性为代价。
       隐私保护数据挖掘是一个新的研究领域,可以在保护个人用户隐私的同时帮助挖掘数据信息。最近,在这个领域里已付出了许多的研究努力。然而,在先前的研究中提出的大部分方法,管理着一些站点中的数据或是处理小数量的独特类型的数据。因而,这些方法并不适合于挖掘网络传输数据,因为他们的错误和低性能。为此需要提出了一种有效的序列模式挖掘方法,它能够在解决前面方法中遇到的不正确性和低性能问题的同时保护隐私。为了发现频繁项集(例如,长度1模式)而不危及私有信息,提出的方法使用数据仓库服务器模型,这种模型作为一个单独的挖掘服务器运行。同样,它包含了在每一站点的元数据表来快速确定候选序列是否在站点发生过,从而使得整个挖掘过程具有高效性。
       利用数据仓库服务器模型来寻找频繁项集的程序如下:首先,每一站点通过哈希函数将它自己的网络传输数据分割成N个组,并且把每一个组利用唯一的加密算法加密,把钥匙赋值给每一组。然后它将每一加密过的组发送给N服务器中的一个。注意这个服务器不能将组解密,因为它没有相应的密钥。服务器通过统计每一接收项的出现情况来确定频繁项集。为了解密每一发现的频繁项集,服务器将项集发送到另一台具有相应密钥的服务器上。N服务器为接收项执行解密过程,然后让一个协调服务器统计每一候选频繁项集的出现情况,以此来寻找真实的频繁项集。
       协调服务器通过将那些发现的频繁项集结合在一起而产生候选模式,并查询每一站点来判断每一个候选模式是否在站点中出现。为了快速识别出候选模式的事件,每一站点主张元数据表,这些表存储两件事情:(1)一对频繁项集在指定之前的间隔内一同发生(2)频繁模式在站点内发生。在元数据表中,1和0表示频繁模式是否分别发生。同样,每一站点发送给协调服务器这些由肯可能性P影响的值。对每一候选模式,服务器总结1和0的出现情况,然后使用频率和概率P计算现实中1和0的分配情况,从而确定候选频繁模式。
       对于网络传输数据中的序列模式挖掘,我们提出了一个实用的方法。提出的方法保护了站点的隐私,并提供了挖掘结果的高准确度。通过提出的方法,我们可以通过分析网络传输数据,将侵入状态从正规状态中区别出来。这就使得确定序列模式成为可能,该模式只在闯入状态下频繁发生,因此帮助阻止入侵。特别地,大量的被感染的个人电脑,因特网的蠕虫能够影响相同模式入侵传输。因此,提出的方法对于自动检测这些入侵种类会相当有帮助的。
       提出的方法可以应用到网页的挖掘序列访问模式,该模式频繁发生。结果能够使用在网页预取技术和网络服务器的负载平衡中。通过使用网页的高频序列挖掘模式,该服务器能够预测网页为一起访问,因而预取这些页来减少它们的访问时间。同样,通过分布这些网页到多样网络服务器。服务器过程信息更快的取决于负载平衡效果。
       此外,为了提高我们所提方法的适用性,我们考虑将其延伸到动态环境中,这样在线网络传输数据便在实时挖掘过程中反射出来了。
      
      参考文献
      [1]肖仁财 序列模式挖掘算法研究与实现【D】 江苏大学 2007年
      [2]李玉华 面向服务的数据挖掘关键技术研究【D】 华中科技大学 2006年
      [3]张长海 胡孔法 陈凌 序列模式挖掘算法综述【J】 扬州大学学报(自然科学版)2007年01期
      [4]段丹青 入侵检测算法及关键技术研究【D】中南大学 2007年

    推荐访问:序列 隐私保护 网络传输 数据挖掘

    • 文档大全
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章