• 学前教育
  • 小学学习
  • 初中学习
  • 高中学习
  • 语文学习
  • 数学学习
  • 英语学习
  • 作文范文
  • 文科资料
  • 理科资料
  • 文档大全
  • 当前位置: 雅意学习网 > 初中学习 > 正文

    【动态关联规则的趋势度挖掘方法】关联规则挖掘

    时间:2020-03-11 07:40:50 来源:雅意学习网 本文已影响 雅意学习网手机站

       文章编号:1001-9081(2012)01-0196-03 doi:10.3724/SP.J.1087.2012.00196   �   �   �摘 要: 针对规则随着时间变化的特点,在分析原有定义和对支持度向量(SV)和置信度向量分类的基础上,提出了动态关联规则趋势度的挖掘方法。首先,利用趋势度阈值消除无价值的规则,减小候选项集;其次,产生动态关联规则的趋势度元规则,找出具有价值的规则,提高挖掘质量;最后,通过对具有增减和周期趋势是否应该为“周期型”或“周期趋势”,或别的什么,请明确。的事物数据库分析,证明了所提方法的有效性。
      �关键词: 数据挖掘;动态关联规则;趋势度;元关联规则
      �中图分类号: TP311.13 文献标志码:A
       �
      Abstract: Based on the original definition and classification of Support Vector (SV) and confidence vector, this paper put forward a method of data tendency measure mining in dynamic association rules, according to the characteristic of rules with time changing. First, taking advantage of tendency measure threshold to eliminate useless rules, the item sets candidates can be reduced. Second, producing the dynamic association rule, this method found out valuable rules and improved the mining quality. Finally, by analyzing a transaction database that is characterized by the tendency of changes and cycles, the analytical results verify the validity of the proposed method.
      
      
      
       Key words: data mining; dynamic association rule; tendency measure; meta-association rule
      
      0 引言�
      关联规则挖掘的研究是近几年研究较多的数据挖掘方法,是一个重要的数据挖掘研究课题。传统的关联规则算法都是基于规则的支持度、置信度[1-2]两个重要指标,但经过实践应用证明存在很多问题,引入兴趣度作为关联规则的新指标[3-4],并认为发现的关联规则在数据库中是永恒有效的,没有考虑到规则的变化,而由于事务数据通常具有时间特性,规则会随着时间的推移可能会有很大的变化,Agrawal等首次提出了考虑时间因素的序列模式挖掘[5]。为了描述在关联规则中时间变化特点,Liu等[6]提出了支持度和置信度两个向量来描述规则的动态性,同时也考虑规则的变化;荣冈等提出了数据库中动态关联规则定义[7];沈斌等进一步改进了动态关联规则的定义及挖掘算法[8],更好地反映规则随时间变化的动态信息。对动态关联规则元规则进行挖掘[9-10],可以预测规则的潜在变化,但是有时挖掘规则本身的潜在趋势对决策者更有价值。此句不通顺,请作相应调整。并请仔细核实本文的其他各处。�
      为了提高动态关联规则的规则挖掘质量,本文提出了一种基于趋势度的动态关联规则挖掘方法,该方法在对支持度向量(Support Vector, SV)或置信度分类的基础上提出了动态关联规则趋势度的概念,通过趋势度阈值修剪无价值的规则,可避免生成无用的动态关联规则,从而使挖掘出的动态关联规则更加实用。�
      
      1 动态关联规则趋势度描述�
      动态关联规则引入支持度向量和置信度向量后,可以分别建立基于支持度向量的动态关联规则趋势度评价体系和基于置信度向量的动态关联规则趋势度评价体系,其中前面一种评价体系是以规则支持度向量的数据序列特性为标准来判定动态关联规则的趋势度,后一种评价体系是以规则置信度向量的数据序列特性为标准来确定动态关联规则趋势度,本文以前一种评价体系为例来描述趋势度模型。�
      挖掘感兴趣的动态关联规则就是寻找有某种趋势变化的规则,摈弃一些毫无规律的随机变化的规则。为了可以针对感兴趣的动态关联规则进行挖掘,首先分析一下趋势变化的种类[11-12]。�
      1)稳定趋势变化。随着时间的变化某种模式或者现象没有发生明显的改变。�
      2)增强趋势变化。随着时间的发展某种模式有明显上升的趋势。�
      3)减弱趋势变化。随着时间的发展某种模式有明显下降的趋势。�
      4)周期性或季节性变化。同一种模式在等时间间隔的情况下重复出现。�
      5)随机变化。某种模式由于偶然现象造成的没有明显规律的变化。�
      分析动态关联规则相关定义,有以下引理及其推论。�
      �引理1 如果一个项集X在数据集D�0满足sup(X)�0≥min_sup,则至少�i(1≤i≤n)使得sup(X)�i≥s×d�i。�
      该引理用反证法很容易证明,故从略。�
      推论1 如果一个项集X对所有的i(1≤i≤n)均有sup(X)�imin_sup,则A�B是为支持度强稳定型动态关联规则;同理,如果CV中每一个元素都满足Conf��(A∪B)�i�>min_conf,则A�B为置信度强稳定型动态关联规则。�
      定义2 若动态关联规则A�B不满足强稳定型动态关联规则的定义,但SV中的元素满足Sup��(A∪B)�i�≤Sup��(A∪B)��i+1��,则动态关联规则A�B为支持度上升型动态关联规则;同理,如果CV中每一个元素都满足Conf��(A∪B)�i�≤Conf��(A∪B)��i+1��,则A�B为置信度上升型动态关联规则。�
      
      定义3 如果动态关联规则A�B不满足强稳定性动态关联规则的定义,但是支持度向量SV中的每一个元素都有Sup��(A∪B)�i�≥Sup��(A∪B)��i+1��,则A�B为支持度下降型动态关联规则;同理,如果CV中每一个元素都满足Conf��(A∪B)�i�≥Conf��(A∪B)��i+1��,则A�B为置信度下降型动态关联规则。�
      定义4 如果动态关联规则A�B的支持度向量SV中的每一个元素不满足定义1至定义3,但是在时间段t={t�1,t�2,…,t�n}内满足SV中相邻的项或项的集合中元素的值的大小具有交替出现的规律则称A�B为支持度周期型动态关联规则。同理,置信度向量中的元素也满足这种规律的为置信度周期型动态关联规则。�
      
      定义5 如果动态关联规则A�B不满足定义1至定义4,若时间段序列长度为n,支持度向量为SV,对于任意一个按时间先后顺序排列的长度为m的子时间支持度向量序列U={Sup��(A∪B)�����k��,Sup��(A∪B)�����p��,…,Sup��(A∪B)�����q��}(1≤k   �第三步 根据支持度向量计算趋势度值。SRI��(�I�2,�I�4)�=1,属于支持度上升型频繁向量;由于频繁项集{�I�2,�I�5}的支持度向量中的每个元素的支持度的值均大于等于最小支持度�0.2,�故它属于支持度稳定型频繁向量,SRI��(�I�2,�I�5)�=1;频繁项集{�I�4,�I�5}的支持度向量不满足定义1至4,其最大上升子时间支持度序列向量长度为3,最大下降子时间支持度序列向量长度也为3,因此根据式(1)得:SRI��(�I�4,�I�5)�=0.5。��
      第四步 生成规则阶段。分析频繁项集{I2,I4},它的非空子集有{I2}和{I4}。I2�I4的置信度为0.5,I4�I2的置信度为0.6,趋势度值为1,所以它们都是强动态关联规则。频繁项集{I2,I5}的非空子集有{I2}和{I5}。I2�I5的置信度为0.56,I5�I2的置信度为0.59,趋势度值为1,所以它们也都是强动态关联规则。分析频繁项集{I4,I5},它的非空子集有{I4}和{I5}。I4�I5的置信度为0.6,I5�I4的置信度为�0.53,�虽然它们的置信度都满足要求,但是它们的趋势度值为�0.5

    推荐访问:关联 挖掘 规则 动态关联规则的趋势度挖掘方法 关联规则挖掘算法 数据挖掘关联规则

    • 文档大全
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章