基于LightGBM的犯罪类型预测模型研究

时间：2023-06-24 11:55:04　来源：雅意学习网本文已影响人

钱芳慧，蔡竞

(1. 浙江警察学院刑事科学技术系，浙江杭州 310053；
2. 浙江警察学院教务处，浙江杭州 310053；
3. 基于大数据架构的公安信息化应用公安部重点实验室，浙江杭州 310053)

犯罪类型的准确预测是精准快速打击犯罪行为的前提，为预防犯罪提供有效决策信息，实现警力资源配置优化，提高警务工作效率。当前，我国犯罪数量呈爆炸式增长[1]，犯罪形势愈发复杂多变，但警方对于犯罪数据的应用大多局限于一般定性和宏观分析，缺乏实务性的定量及微观分析[2]，无法满足公安业务部门尤其是警务指挥与情报研判对犯罪预测的巨大需求[3]。而机器学习算法在不同领域展现出了良好的预测分析能力[4]，为犯罪数据的微观预测分析提供了有力支撑。

研究表明，犯罪类型的发生很大程度上与犯罪时间、地点等特征相关，这些特征对于犯罪类型预测具有重大意义。随着机器学习性能得到普遍认可，国内外众多学者以机器学习算法为基础，将犯罪数据诸多特征联系起来，进行犯罪类型预测。Alves等[5]利用随机森林(RandomForest，RF)，选取童工人数，国内生产总值，文盲人数，家庭收入，人口，卫生设施和失业率为特征值对巴西城市凶杀案的发生进行分析预测，准确率高达97%；
Babakura等[6]分别利用朴素贝叶斯算法(NaiveBayes，NB)和反向传播算法(Back Propagation，BP)对美国不同州的犯罪类别进行分析，发现NB效果优于BP最优准确率为94%；
Almanie等[7]利用关联规则算法(Apriori)、NB、决策树(Decision Tree，DT)等对美国丹佛及旧金山犯罪数据进行分析并预测特定时间特定区域未来的犯罪类型，发现NB效果更好并取得54%的准确率；
Nitta等[8]利用NB和支持向量机(SupportVectorMachine，SVM)算法对芝加哥门户网站犯罪数据进行分析，预测了某一地可能发生的犯罪类型，发现NB效果优于SVM，最优准确率为90%。Wang等[9]利用套索算法(Least Absolute Shrinkage and Selection Operator，LASSO)，极度随机树算法(Extremely Randomized Trees，Extra-tree)及RF算法对中国某地级市犯罪风险进行分析研究发现地理，经济，教育，住房，城市化和人口结构及生活用地面积，手机用户数量，就业人口对犯罪发生具有一定影响，发现就犯罪类型预测而言，Extra-tree效果优于LASSO回归但不如RF。Kang[10]等利用基于DNN的特征级数据融合预测模型对芝加哥犯罪数据进行了给定日期和位置犯罪发生的可能性预测，准确率为84%。

综上，现有研究大多集中于随机森林及朴素贝叶斯算法，且少有关于国内犯罪数据研究。轻量级梯度提升机(Light Gradient Boosting Machine，LightGBM)是微软2015年提出的新的Boosting框架模型[11]，作为梯度提升数(GradientBoostingDecisionTree，GBDT)的改进模型，具有更高运算效率及准确性优点，在多类分类[12]、单击预测[13]、学习排序[14]等方面展现较优性能，已被用于交通[15]、电力[16]、医学[17]、媒体[18]、金融[19]等领域。

本文基于LightGBM算法，利用中国某市110接处警数据及美国旧金山开源犯罪数据，建立犯罪类型预测模型。LightGBM模型在犯罪预测中的应用较之随机森林、朴素贝叶斯、逻辑回归、支持向量机等模型表现出更好准确性。

LightGBM在传统的GBDT基础上引入了两个新技术：
梯度单边采样(Gradient-based One-Side Sampling，GOSS)和独立特征合并(Exclusive Feature Bundling，EFB)。GOSS对小梯度样本点进行随机采样，保留对信息增益影响更大的梯度大的样本，在保持信息增益评估的精度前提下，大大提高了模型学习速率，且在采样率相同情况下，梯度单边采样的结果比随机采样准确率更高。EFR则实现了互斥特征的捆绑，达到减少特征维度的目的，提高了模型运算效率。另外，相较于传统GBDT算法使用pre-sorted算法以精确分割数据，LightGBM使用了直方图算法，即将连续浮动的特征离散成k个离散值，并构造宽度为k的直方图，大大降低了内存消耗以及数据分割复杂度。对于给定数据集：D={(Χi，Yi)，i=1，2，…，n，Χi∈Rp，Yi∈R}，其中n为样本个数，每个样本有P个特征。给定损失函数L(y，(x))，输出回归树(x)，具体算法步骤如下

(1)

计算损失函数的负梯度作为残差估计，即

(2)

拟合残差树，计算损失函数最小值，即

(3)

更新回归树，即

(4)

3.1 中国某市犯罪数据集

该数据表示某市现实犯罪情况，某市位于中国长江三角洲地区某市，市区面积700.5km2。截至2018年末，该市户籍人口69.77万人，常住人口85.85万人，城市现代化及警务信息化程度较高，犯罪数据较全面，能较好反应新形势下犯罪新趋势，具有良好代表性。研究区选择该市15个派出所下辖的8个镇、4个街道区域。

该数据集为2013年1月至2016年3月该市各派出所以及刑侦支队等部门在内的35个部门110接处警数据。案件数据由10个属性和369930个实例组成，提供的关键属性有报警时间、案件类型、案发具体地点以及所属管辖机构等，具体关键属性及其内容值如下表所示。

表1 中国某市数据集关键属性表

3.2 美国旧金山犯罪数据集

该数据集表示旧金山真实犯罪情况，旧金山位于美国加利福尼亚州太平洋沿岸，总面积600.6平方千米，截止2018年7月，全市人口约88万。数据集包括2003年-2015年共10个警区内犯罪数据，共9个属性约88万条实例，提供的关键属性有报警时间、案件类型、案发具体地点以及所属管辖机构等，具体关键属性及其内容值如下表所示。

表2 旧金山数据集关键属性值

4.1 特征分析

相关分析发现，案发时间、所属部门、案发地址均与案件发生类型具有相关性，因此在构建预测模型时，需要将所有特征参与模型训练。

4.1.1 犯罪类型时间分布规律

将2013-2015年中国某市及2012-2014年美国旧金山犯罪数据分别按照每年12个月、每周7天、每天24小时的时间维度进行统计分析，发现犯罪类型在每天时段内、每年月份上具有明显规律。中国某市以交通类犯罪为例，图1可以看出每年12月是一年中案件数量的最高峰，该时段为传统节日春节前夕，人口流动量大，犯罪风险增加。每年2月犯罪量最少，除受春节影响外，2月天数本身比另外月少也是一个影响因素。图2显示不同时刻与案件发生的关系，可以看出每日凌晨4-5时左右案件数量最少，此时人们大多处于休息状态，犯罪概率较小；
早晨7-8时、傍晚17-18时案件数量最多，此时正处上下班高峰期，人员流动，犯罪概率增加。

图1 某市不同年份间月份与案件数量的关系

图3、4以旧金山暴力类犯罪为例，显示了旧金山犯罪发生类型在时间段内也呈现了一定的规律性且区别于某市犯罪发生类型规律：每年3月份案件发生类型最少，10月份最多，区别于某市受传统节日影响旧金山犯罪数量主要受天气影响，10月天气怡人，人们户外活动增加，犯罪数量也随之增加；
每日犯罪趋势与中国某市大同小异，凌晨5时左右案件数量最少，傍晚17-18时案件数量最多。由此可见，不同区域犯罪趋势有相近点但受风俗习惯、地域特征等影响也有所不同，所以在犯罪类型预测中要结合实际情况。

图2 某市不同星期间时刻与案件发生的关系

图3 旧金山不同年份间月份与案件数量的关系

4.1.2 犯罪类型空间分布规律

图4 旧金山不同星期间时刻与案件发生的关系

犯罪发生类型在空间上同样具有一定聚集性，通过实验分析发现案件空间重复性高，主要以市中心、城镇、交通要道为中心呈现一定的聚集性。图7为2013-2015年某市交通类犯罪数量热力图，图8为2012-2014年旧金山暴力类犯罪数量热力图，从两图中可以看出三年中犯罪热点地区几乎无太大的空间转移，证明案件高发与所处地理位置高度相关。

图5 某市案件发生空间热力图

图6 旧金山案件发生空间热力图

4.2 数据预处理

在浏览数据时，可以发现某些属性存在属性值缺失问题。针对不同特征属性值缺失，对案件类型缺失的根据案件描述判断案件类型进行填补处理；
对管辖派出所缺失的根据案发地点推出管辖派出所进行填补处理；
对案发时间及地点等无法进行填补的特征属性值缺失的进行删除数据条处理。删除案件编号、处警时间等与犯罪类型关联性较小的非关键属性以及经纬度明显超出某市地域的数据条。原数据集犯罪类型分类较细导致犯罪类型较多且有交叉分类情况，为获得更高频率的数据提高模型准确率，实验对犯罪类型进行重新组合分类，例如，将盗窃、抢夺、抢劫、获得了新的较少的大类以便模型运算。

4.3 特征编码

在选取原有报警时间、案件类型、经纬度、派出所等特征基础上对特征进行重新编辑以便用做模型输入计算。原犯罪数据集中报警时间、案件类型、处警派出所等特征列为文本格式，首先对报警时间进行时间格式化处理，提取年、月、日、星期单独作为特征项，对其中文本格式的星期进行特征标签数字化编码。案件类型作为模型的输出项，也对其进行标签数字化编码。处警派出所是为定类类型数据，数据间无逻辑关系所以对其进行独热编码。原数据集经纬度特征虽为数值类型，但与编码数据非同一数量级所以对其进行归一化处理，并新增经纬度之差及经纬度之和两个特征向量。再者在前文数据分析基础上，新建特征列区分时间是否处于12-1月份及傍晚17-18时这些犯罪发生较为集中的时间段，分别以“0”、“1”表示。编码后特征属性值如表3所示。

4.4 模型训练及测试

本次实验利用python构建LightGBM、RF、NB、逻辑回归(Logistic Regression，LR)、SVM等模型进行特定地点特定时间的犯罪类型预测。设定目标输出项为犯罪类型，整合选取所有编码特征项为输入，从中国某市及旧金山数据集中分别随机选取百分之八十数据作为训练集，剩余百分之二十为测试集，进行模型训练并预测结果。LightGBM参数设置学习步长为0.9，学习速率为0.4，叶子数量20，最大树深为10；
随机森林参数设置树的树木为10，最大树深10，最小叶子数1；
支持向量机参数设置错误项惩罚参数为1，算法使用内核类型为“rbf”，概率估计为False。

5.1 模型评估指标

本次研究采用准确率(accuracy)、精确度(precision)、召回率(recall)及f1分数(f1＿score)对模型进行评估。将真实值为正确，模型预测为正确的数量记作TP；
真实值为正确，预测为错误的数量记作FN；
真实值为错误，预测为错误的数量记作TN；
真实值为错误，预测为正确的数量记作FP。准确率=(TP+TN)/(TP+TN+FN+FP)，指正确预测的样本数占总预测样本数的比值；
精确度=TP/(TP+FP)，指正确预测的正样本数占所有预测为正的样本数的比值；
召回率=TP/(TP+FN)，指正确预测的正样本数占真实为正样本数的比值；
f1分数=(2*precision*recall)/(precision+recall)，是精确度和召回率的调和平均值，介于0-1之间，最佳值为1。

5.2 算法对比

实验中，因SVM算法复杂度较高，当训练样本数量过多时，所消耗的时间过长，故在模型对比评估中忽略支持向量机评估。图7显示了不同预测模型对某市犯罪类型预测结果评估值的对比，从图中可以看出虽然RF及NB虽然在个别案件类别中有较高精度，但在召回率方面从图7(c)中可以看出LighGBM具有更高的召回率，说明对于犯罪类型的发生，LightGBM比之两三种模型具有更高的覆盖率。一般而言，精度与召回率呈负相关关系，但LightGBM在两方面都具有较为良好表现，从图9(a)中可以看出LightGBM模型取得的f1分数高于其余模型。

图8显示了不同模型旧金山预测结果的评估值对比，评估值对比情况与某市大致相同，但是具体来看，不同模型对于旧金山的预测结果并不如某市。

图7 某市预测结果对比图

表4显示了各模型总体预测准确率及精度、召回率和f1分数结果对比，可以看出不管在某市还是旧金山数据集中LightGBM的各项指标都是最高的，所以可以得出结论LightGBM在犯罪类型预测中具有较优性能。

图8 旧金山预测结果对比图

表4 预测结果准确率对比

本文针对中国某市及美国旧金山犯罪数据集，首先进行了犯罪数据的分析与预处理，然后选取特征向量并对特征向量进行编码，最终建立了基于LightGBM的犯罪类型预测模型，并利用准确率、精度、召回率、f1分数等进行评估，将评估参数与RF、NB、LR、SVM等模型进行对比，验证了LightGBM模型在给定时间、地点的犯罪类型预测方面具有一定的优势。随着警务数据质量的提高以及治理的推进，该算法预测结果将为未来警力提供有效的数据支撑。

猜你喜欢旧金山准确率犯罪乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析健康之家(2021年19期)2021-05-23不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨医学食疗与健康(2021年27期)2021-05-132015—2017 年宁夏各天气预报参考产品质量检验分析农业科技与信息(2021年2期)2021-03-27旧金山W酒店翻新，“老网红”怎样刷新设计房地产导刊(2020年7期)2020-08-24旧金山906 World文化中心现代装饰(2020年2期)2020-03-03Televisions学生导报·东方少年(2019年8期)2019-06-11高速公路车牌识别标识站准确率验证法中国交通信息化(2018年5期)2018-08-21环境犯罪的崛起中国慈善家(2017年6期)2017-07-29晚清民国时期粤剧在旧金山的流传与传播中华戏曲(2016年1期)2016-09-26西行旧金山空中之家(2016年1期)2016-05-17

推荐访问:模型犯罪预测