• 学前教育
  • 小学学习
  • 初中学习
  • 高中学习
  • 语文学习
  • 数学学习
  • 英语学习
  • 作文范文
  • 文科资料
  • 理科资料
  • 文档大全
  • 当前位置: 雅意学习网 > 作文范文 > 正文

    浅谈数据挖掘技术在公安领域方面的应用

    时间:2021-05-01 20:03:37 来源:雅意学习网 本文已影响 雅意学习网手机站


      摘 要:智能科学是现代科学的前沿和热点,是计算机应用的高新技术。当前在人工智能方向,最火无疑是数据挖掘技术,本文通过对人工智能有关理论的简介,论述了人工智能在公安等领域中的应用,同时也反映了智能技术的最新成果与发展方向。
      关键词:人工智能;数据挖掘;Apriori算法
      数据挖掘技术 数据挖掘(Data Mining),也称 数据库中的知识发现(KDD:Knowledge Discovery in Database),是指从大型数据库或数据仓库中提取人们感兴趣的知识,这些知识是隐含的、事 先未知而又潜在有用的信息,提取的知识一般可表示为概念(Concepts)、规则(Rules)、规律(Regularities)、模式(Patterns)等 形式。根据任务,可将数据挖掘技术分为五种:关联、序列、分类、聚类和数据总结。挖掘的一般过程为:a. 选择数据源;b. 采集数据;c. 计算统计变量,利用图表进行直观描述,从中发 现数据间的关系;d. 选定算法,建立预测模型;e. 验证模型的 合理性、准确性,对模型加以完善;f. 通过模型指导决策。整 个过程反复进行和优化。数据挖掘是面向应用的、深层次的数据信息分析方法,最常用的技术方法有:规则归纳:通过统计方法归纳、提取有价值的 if-then 规 则,例如关联规则挖掘算法。决策树方法:用树形结构表示决策集合,这些决策集合 通过对数据集的分类产生规则。国际上最有影响的决策树 方法是由Quiulan 研制的 ID3方法,典型的应用是分类规则挖 掘。人工神经网络:这种方法模拟人脑神经元结构,是一种 通过训练来学习的非线性预测模型,它可以完成分类、聚类、 特征规则等多种数据挖掘任务。它以MP 模型和 HEBB 学习 规则为基础,建立三类神经网络模型:前馈式网络、反馈式网 络、自组织网络。遗传算法:这是一种模拟生物进化过程的算法,最早由 Holland 于20世纪 70 年代提出,它是基于群体的、具有随机 和定向搜索特征的迭代过程,这些过程有基因组合、交叉、变 异和自然选择四种典型算法。遗传算法作用于一个有问题 的多个潜在解(个体)组成的群体上,每个个体都有一个编码 表示,同时每个个体依据问题的目标函数被赋于一个适应 值。模糊技术:利用模糊集合理论对实际问题进行模糊评 判、模糊决策、模糊模式识别和模糊聚类分析。它为数据挖 掘提供了概念和知识表达、定性定量转换、概念的综合和分 解的新方法。粗(Rough)集方法:它是 1982 年波蘭逻辑学家 Z.Pawlak 提出的一种全新的数据分析方法,近年来在机器学习和 KDD 等领域获得广泛的重视和应用。粗集方法是一种研究信息系统中不确定、不精确问题的有效手段。3 关联规则在刑侦工作的应用中存在的问题 关联规则是数据挖掘中应用较多的一种技术。对关联 规则需求的产生来自于超级市场,关联规则是发现交易数据 库中不同商品(项)之间的联系,这些规则找出顾客购买行为 模式。发现这样的规则可以应用于商品货架设计、货存安排 以及根据购买模式对用户进行分类。在作出这些安排之后,超级市场就有可能提高销售量,这也就是关联规则提出和发 展的原动力。Agrawal在 1993年提出了挖掘关联规则的一个重要方法 ———Apriori 算法,这是一个基于两阶段频集思想的方法,将 关联规则挖掘算法的设计分解为两个子问题:a.找到所有支持度大于最小支持度的项集(Itemset),这 些项集称为频集(Frequent Itemset)。b.使用第 1 步找到的频集产生期望的规则。其中,设 I={ i1,i2 . .. . im}是文字的集合,其中的元素称 为项(item). 记 D 为交易(transaction)T 的集合,这里交易 T 是项的集 合,并且 T I。对应每一个交易有唯一的标识,如交易号,一记作 TID。X 是一个 I 中项的集合,如果 X T,那么称交易 T 包含 X。关联规则是形如 X Y 的蕴涵式,这里 X I,Y I,并且 X∩Y=。规则 X Y 在交易数据库 D 中的支持度(support)是交易 集中包含X 和Y 的交易数与所有交易数之比,记为 support(X Y),即 support(X Y)= { T:X∪Y T,T∈D} D。规则 X Y 在交易集中的置信度(confidence)是指包含 X 和Y 的交易数与包含 X 的交易数之比,记为 confidence(X Y),即:confidence(X Y)= { T:X∪Y T,T∈D} { T:X T,T∈D} 给定一个交易集 D,挖掘关联规则问题就是产生支持度 和置信度分别大于用户给定的最小支持度(minsupp)和最小 置信度(minconf)的关联规则。由于刑侦业务的特殊性,使 Apriori 方法在犯罪行为分析 中存在的一些固有的缺陷无法克服,无法有效满足公安执法 理念和警务创新的新要求,主要表现在以下两方面:a.传统 Apriori 算法对新项目的敏感性问题。犯罪行为记录总是在不断地更新,一些原始的犯罪行为 会消失,而一些新型的犯罪行为会不断的出现,所以犯罪行 为数据库中的项目就会不断地更新,减少或增加项目会使项 目间的关联发生变化,从而产生新的关联规则。但是传统的 Apriori 算法并没考虑到这个问题,也就是说即使增加新的项 目,在求各个项目集的支持度时,它们都是以整个数据库的 犯罪行为记录总数作为基数,这显然不符合关联规则挖掘的 目的,即它们不能发现最新出现的频繁项目集,所以也不能 产生最新的关联规则。b. 传统 Apriori 算法忽略了不同项的重要性问题。
      算法中仅仅考虑了被分析的项在数据库中的出现频率,而没有考虑不同的项具有不同的重要性—这些项只是简单 地被视为具有等同价值。这个问题的存在就常常会导致那 些具有重要价值但是出现频率却相对较小的项被忽略了。采用传统 Apriori 算法进行公安犯罪行为分析时,往往很容易 忽略了那些情节特别严重,社会危害特别大的恶性犯罪行 为。下面针对传统Apriori 算法在刑侦工作中存在的问题进 行了算法的改进。
      利用犯罪信息网络侦查破案已成为现代刑事侦查工作中不可缺少的手段,在公安工作中发挥着越来越显著的作 用,数据挖掘技术作为一门新兴科学,将其有效应用于刑侦 工作中是大势所趋,更是公安工作现实斗争的需要,本文对 数据挖掘技术中的分类规则算法在刑侦工作中的应用所存 在的问题进行了分析和算法改进,利用模型证明了其算法的 有效性,但公安工作是项很复杂的工作,算法在实际中应用 还有一定的困难,有待于进一步深入研究。
      参考文献
      [1]胡宏银等. 从数据库中获取信息的几种方法的比较.1999 年中国智能自动化学术会议论文集,北京:清华大学出版社.1999:812-817
      [2]金光等,基于数据挖掘决策树的犯罪风险预测模型。计算机工程与应用,2003. 2
      [3]金光等,数据挖掘技术在犯罪行为分析中的应用。宁波大学学报,2002. 3
      [4]张蕾华,试论公安工作信息化的必然性。山西警官高等专科学校学报,2003. 12
      作者简介
      王昱恒,(1996-),男,汉族,安徽合肥人,现为中国人民公安大学刑事科学技术学院2015级本科生。
      韩喜渊,(1997-),男,汉族,陕西宝鸡人,现为中国人民公安大学刑事科学技术学院2015级本科生。

    推荐访问:浅谈 数据挖掘 公安 领域 技术

    • 文档大全
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章