首页 理论教育 监狱大数据分析与挖掘技术:概率图模型应用

监狱大数据分析与挖掘技术:概率图模型应用

时间:2023-08-06 理论教育 版权反馈
【摘要】:采用基于概率图模型对应急指挥综合管理平台中收集到的监狱大数据进行分析与挖掘,对罪犯进行合理的聚类与分类,研究重点危险人员的行为表现,根据罪犯在狱中的表现预测其最终的矫治效果,并为可视化指挥平台提供重点危险人员数据库信息以及矫治预测的数据支持。基于概率图模型的监狱大数据分析与挖掘技术的总体研究方案如图7-6所示。

监狱大数据分析与挖掘技术:概率图模型应用

(1)研究内容。

采用基于概率图模型对应急指挥综合管理平台中收集到的监狱大数据进行分析与挖掘,对罪犯进行合理的聚类与分类,研究重点危险人员的行为表现,根据罪犯在狱中的表现预测其最终的矫治效果,并为可视化指挥平台提供重点危险人员数据库信息以及矫治预测的数据支持。

监狱信息化建设有两方面要求,一方面是对罪犯信息、监控录像等各项资源数字化,通过数据库管理,将各类信息集中起来,方便各种查询及管理服务。另一方面是管理模式的数字化,将管理的流程进行数字化处理,制定多种数字化应急预案等。传统的监狱管理系统分为六大部分:狱政管理、劳动改造、教育改造、刑罚执行、生活卫生、狱侦管理,涵盖了罪犯的各类情况,如物理特征(年龄、性别、外貌、身高、体重、血型等),心理特征(人格特征、性情特征等),生活环境(文化程度、婚姻状况、家庭关系等),技能特征(特长、被捕前职业等),是否需要特别关注(是否有吸毒史、涉枪、涉黑史等)等,事实上建立起了一个庞大的罪犯信息数据库。这个信息库涵盖了大量的罪犯内部相关性联系,对这个信息库进行分析与挖掘可以获得宝贵的监狱管理经验。

在应急管理平台的中心管理子系统中,要汇总罪犯的各项数据,并对其加以合理分类,使得在指挥调度、视频监控、门禁监控等多个子系统中能够对罪犯进行重点管理。在这个过程中最为基础也是最核心的问题就是对罪犯进行合理的聚类和分类。通过合理而高效的聚类和分类算法,对罪犯进行多个等级的分类,并对需要特别关注的罪犯展开重点监控与布防预警,这样可提高应急指挥平台对罪犯的监控效率

作为监狱的管理人员,始终希望能够让入狱的罪犯得到最好的矫治效果,这也是设立监狱管理最为根本的目的。因此在应急指挥平台中,如何提高罪犯的矫治效果也是工作的核心之一。如果在罪犯服刑期间能够对这个服刑期结束的评定给出合理的预测,就可及时的发现其中存在的问题,并进行合理的调整。因此对罪犯的行为表现建立概率图模型,通过对罪犯的历史表现记录进行模型的学习和修正,根据当前的罪犯表现来预测其将来的矫治效果。

(2)研究方案。

基于概率图模型的监狱大数据分析与挖掘技术的总体研究方案如图7-6所示。通过应急指挥综合管理平台建立监狱数据库,从中收集罪犯的各项信息,并根据历史信息种类对罪犯类型进行聚类分析,从而得到需要重点看管的罪犯分类。然后通过概率图模型建立罪犯静态信息与动态信息的相互联系,并通过优化LDA 主题模型获得罪犯的分类方法。该类别信息直接传送给可视化指挥系统以及其他应急指挥综合管理平台子系统,为其提供数据支持。

根据罪犯在服刑期间的表现以及最终的矫治评定,建立条件随机域模型用于罪犯矫治效果的预测。该模型可以通过监狱数据库获得罪犯的表现情况,并计算预测出其矫治效果。当罪犯的矫治效果低于临界值时会向可视化指挥系统传输警报信息,提醒监管人员对该罪犯的矫治方案进行适当的调整。

①罪犯的聚类与分类。

罪犯的各项数据由监狱多个系统分别监管,包括罪犯的档案信息、狱政管理、劳动改造、教育改造等七个部分。其中除了档案信息为静态信息之外,其他六个部分都是随着罪犯在狱中的表现而动态记录的。为了能够实现对罪犯更为有效的管理,首先需要对罪犯进行合理的分类。传统的监管方法通常是依据罪犯的犯罪事件、犯罪严重程度等对罪犯的类别判定。对那些有暴力倾向、严重违纪的罪犯要重点监控;对表现良好的罪犯要采用多种鼓励方式。本课题通过数据挖掘的方法,对罪犯按照其在狱中的表现分为非常消极、消极、一般、积极、非常积极五个类别,为罪犯的监管提供方便。对于档案数据这类静态信息,本课题推荐使用K-means 聚类算法。K-means 算法虽然较为古老,但是依然不失为一种非常高效的聚类算法。尤其对于静态的多维度数据采用K-means 聚类方法十分便捷,其最大的缺陷在于需要手工指定类别数量。对于服刑表现等动态信息,本课题提出了一种基于隐马尔科夫模型的聚类算法,对时序变化的罪犯在狱中的表现进行整体的观测与分析,从而得到更为精确的聚类结果。

图7-6 监狱大数据分析与挖掘技术的总体研究方案

在对各个属性特征及表现特征的聚类分析的基础之上,进一步挖掘罪犯静态属性与动态表现之间的关系,从而根据其静态属性特征直接对其将来的表现进行一定的预测。本项目引进了LDA 主题模型,根据历史数据对三层贝叶斯概率网络进行参数学习,从而得到罪犯的属性与类别的概率关系。根据这个模型的参数结果,对任何一个新的样本(没有历史记录的罪犯)进行有效的分类。有了聚类和分类的基础,就可以通过应急指挥平台对监狱罪犯进行重点监控。

②矫治效果的预测。

如果能够在“事前”就对罪犯之间的差异性,对矫治效果进行一定的预测,然后又将实际的情况和预测的情况进行比较,比如,利用一定的矫治效果算法对某个罪犯的日表现、周表现和月表现进行预测,设定一个评价标准。那么就可能会及时地发现矫治工作中的问题并加以解决和完善,也有助于找到最优效果的矫治手段,达到最优的矫治效果。比如,某个罪犯的矫治效果低于预期,表现不好,要找到背后的原因,是罪犯本身对于矫治方法抗拒,还是矫治方法存在某些漏洞和不完备的地方,是否这一种矫治方法因为罪犯个体的差异而降低了效率,通过这样的分析再结合传统的反馈激励,使矫治方法不断完善,甚至是达到矫治方法的“定制化”,也就是针对每一个罪犯找到其最适合的矫治方法,这大大提高了罪犯改造质量,促进了社会稳定和提高了监狱矫治工作水平,这应该是未来监狱信息化发展的一个重要方向。

要建立一套矫治预测机制,背后需要一套成熟的矫治效果预测算法。对于罪犯信息的分类存储方式,比较适用的算法有神经网络算法,它通过模拟人脑思维,通过交叉传递,拟合逼近的方法可以比较好的得到矫治预测信息。而如果要对矫治工作进行通盘考虑,需要将罪犯差异、狱政信息和矫治方法结合起来分析,条件随机场是一个好的选择,它可以生成矫治效果的观察序列,更好地提高矫治效果。

(3)研究方法与研究过程。

①K-means 模型。

K-means 是一种基于距离的迭代式算法。它将n 个观察实例分类到k 个聚类中,使得每个观察实例距离它所在的聚类中心点比其他的聚类中心点的距离更小。其中,距离的计算方式可以是欧式距离、曼哈顿距离或者其他。

K-means 算法首先选取罪犯的民族、政治面貌、捕前文化、捕前婚姻状况、捕前身份、捕前职级、捕前职称、参加过何党派团体、国家、籍贯所属地区、身高、体重等属性作为聚类特征,并将这些聚类特征数值化。具体方式是将各项目中的不同内容分配不同数值。例如,将“民族”条目中设定汉族为1,维吾尔族为2,哈萨克族为3,等等,这样就实现了“民族”条目的数值化表述。再例如对“捕前文化”条目而言,可以设定小学文化为1,初中文化为2,高中文化为3,等等,这样又实现了“捕前文化”的数值化。

在实现了属性特征的数值化之后,每一个罪犯被抽象成了一系列特征,且经过数值化之后,每一个特征都已通过数字来表示,将这一数字化后的特征列表称为特征向量

在获得了特征向量后,即可采用K-means 算法进行无监督的聚类,将罪犯划分为各个集合,分析不同集合的特点,寻找它们之间的内在关系。

K-means 算法的实现步骤如下。

步骤1:从罪犯中随机取k 个罪犯作为k 个簇的各自的中心,此时“罪犯”已经用其数字化后的特征向量来代表,作为“簇中心”的罪犯,也就是该罪犯所对应的数字化后的“簇中心特征向量”;

步骤2:分别计算剩下的罪犯(即其数字化后的特征向量)到k个簇中心向量的距离,把这些代表罪犯的特征向量分别划归到距离最小的簇;

步骤3:根据聚类结果,重新计算k 个簇各自的中心,计算方法是取簇中所有元素的算术平均数;

步骤4:D 中全部罪犯按照新的中心重新聚类;

步骤5:重复第4 步,直到聚类结果不再变化;

步骤6:结果输出。

②隐马尔科夫模型。

采用隐马尔科夫模型,把罪犯在狱中的表现等动态信息作为分类依据,从而对需要特别关注的消极罪犯有更准确的分类结果。隐马尔科夫模型将罪犯的类别作为聚类特征,将罪犯个体的表现数据作为隐马尔科夫模型的观察数据,以此生成连续的马尔科夫链用于模型的聚类。

在隐马尔科夫模型的观测图(见图7-7)中,在不同时刻的观测点O1、O2、O3观测罪犯的状态C1、C2、C3,由此确定其对应时刻下的表现数据并作为其状态值。其中罪犯的表现数据是由劳动改造、教育改造、生活卫生三个系统中的评分给出,罪犯的状态则分为非常消极、消极、一般、积极、非常积极五种,并且假定罪犯的状态最多只能跨一个等级跳转,例如从消极跳转到积极,但不能从消极跳转到非常积极。本课题采用KL 距离来衡量罪犯表现的时序数据的相似性。对于两个序列st,可以定义:

图7-7 隐马尔可夫模型的观测图

隐马尔科夫模型算法的实现步骤如下。

步骤1:初始化隐马尔科夫模型参数,设置转移概率矩阵和初始概率为平均分布,其中,转移概率矩阵的第i 行第j 列代表罪犯从第i 个状态跳转到第j 个状态的概率;

步骤2:根据各个时序数据拟合各隐马尔科夫模型的参数;

步骤3:构建后检验概率矩阵H(i,j)=P(Oj|Ci),并对其进行归一化处理,

步骤4:计算时间序列的相似度,此课题研究采用KL 距离,构建相似度矩阵,然后平均任意两个序列的距离

步骤5:有了归一化后的距离矩阵,就可以通过普通静态聚类的方法得到聚类结果。

隐马尔科夫模型聚类对罪犯矫治效果时间序列进行聚类,深入挖掘犯罪个体的内在关系,相比于静态的K-means 聚类方法能够更充分的反映出罪犯在服刑期间的表现变化。

③LDA 主题模型。

LDA 模型用来对监狱罪犯进行分类,将监狱罪犯看作是待分类的“文档”,罪犯的年龄、犯罪经历、文化程度等静态属性看做是待分类文档的“单词”,而其中监狱管理人员对罪犯的评价和描述可以视为待分类文档的类别信息,这里依然将其分为非常消极、消极、一般、积极、非常积极五个类别。这里以非常消极和非常积极为例,这两种类型的罪犯在年龄分布、文化程度等静态属性上的分布会有非常大的差异,因此根据一个罪犯的静态属性特征,可以在一定程度上对其归类。建立监狱罪犯到文档分类的对应关系,就可以应用文档分类模型,对罪犯进行分类,分析罪犯的哪些属性与其将来在狱中表现有关,为监狱的决策者制定管理策略提供帮助。LDA 模型的概率图如图7-8所示,其中K 表示罪犯类别数目,这里为五种,S 表示罪犯的个数,每个罪犯有N 个属性。Ws,n表示罪犯对应的每种经过数值化后的属性值,Zs,n表示有这种属性的罪犯类别。θs为一个K 维向量,对应罪犯s 的类别描述,用来生成Zs,n类别的多项式分布。βk是一个长度为属性种类数的向量,用来生成Ws,n的多项式分布。θi(i=1,…,S)服从狄利克雷分布,分布的参数为α,βi(i=1,…,K)符合狄利克雷分布,分布的参数为η。

图7-8 LDA 主题模型的概率图模型

LDA 主题模型分类算法的实现步骤如下。

步骤1:为每一个罪犯类别k,根据狄利克雷分布以及参数η,生成βk(i =1,…,K);

步骤2:为每一个罪犯s,根据狄利克雷分布以及参数α,生成θs(s =1,…,S);

步骤3:为罪犯s 的第d 个属性Ws,d,根据多项式分布以及参数θs,生成该属性对应的类别Zs,d,根据多项式分布以及参数βZs,n,生成属性Ws,d。(www.xing528.com)

步骤4:通过Gibbs Sampling 公式,重新采样每个W 的所属类别t,并在罪犯集合中更新直到Gibbs Sampling 收敛。收敛以后得到罪犯类别与其属性的概率矩阵,这个就是LDA 矩阵。用同样的方法可以得到罪犯类别的概率矩阵及其概率分布。

步骤5:罪犯的类别为c(xi),使θi(c(xi))=max (θi)。

④神经网络算法

反馈神经网络模型的输入特征为罪犯的基础信息数据,包括年龄、政治面貌、捕前文化程度、捕前婚姻状况、分押类型;动态表现数据包括教改表现、劳改表现、生活卫生等;模型的输出为罪犯在该状态下的矫治效果预测结果。神经网络算法模型的示意图如图7-9所示。该神经网络算法包括三层、分别为输入层,隐藏层和输出层,其中输入层为罪犯的数据,包含n 个特征{x1,x2,x3,…,xn} ;隐藏层用来连接输入层和输出层,传递模型的值,提高模型的泛化能力;输出层是罪犯各个项目的评分{y1,y2,…,ym},并且根据这些分项评分给出罪犯的预测矫治效果。

图7-9 神经网络算法示意图

神经网络算法的实现步骤如下。

步骤1:建立训练集,将所有罪犯的输入特征采集,并人工标定其矫治结果,训练集的数据越精确越好;

步骤2:初始化网络,将网络中所有的权重调整为随机数,数值介于0 到1 之间。

步骤3:训练神经网络,逐个输入罪犯的特征,在网络中按照权重向后传递,直到输出结果。

步骤4:调整权重,对比输出结果与人工标定的准确值的差值,按照预设的计算方法,调整网络中的权重。

步骤5:训练集训练完毕后,用另一组训练集作为测试集,测试网络的准确度。

步骤6:如果准确度高于目标,说明网络训练完毕,否则加大训练集。

利用训练好的神经网络,我们可以对罪犯甚至新入狱的罪犯进行分类,通过输入罪犯特征,并灵活地加入其在狱中表现数据,我们从而可以预测其在今后的矫治效果,并提供合适的矫治方案。

⑤条件随机域模型。

条件随机域模型可以发现罪犯属性间的关联关系,预测分析不同的矫治方法对不同类型的犯罪人员的矫治效果。CRF 模型通过对在给定输入序列X 下输出序列Y 的分布即p(y|x)进行建模,分析了输出序列与输入序列之间的关系以及输出序列自身之间关系。在本算法所使用的条件随机域模型中,模型的输出是犯罪个体的矫治效果,采用离散化的方法表示,生成矫治效果的观察序列Y={ y1,y2,…,yn};同时模型的输入是犯罪个体的犯罪属性和矫治方法,生成输入序列X={x1,x2,…,xn},其中输入变量x 包括犯罪个体的基本信息、狱政管理、劳改教改情况和矫正方法。本算法采用的CRF 模型的图解如图7-10所示。其中,n 表示模型选取的时间序列长度;m 表示输入序列选取的特征个数。

条件随机域模型算法的步骤如下。

步骤1:在模型中,引入联合势能函数gt(yt,x;α,β),当gt 的值越大时表明yt和x 之间的相关性越强。同时为了表示输出序列之间的相互影响,模型使用相互势能函数ft(yt,yt+1,x;λ)表示,当ft 的值越大时表明yt和yt+1之间的相关性越强;

图7-10 CRF 模型的图解

步骤2:在联合势能函数和相互势能函数的基础上,CRF 模型的条件概率p(y|x)的表达式为:

其中Z(x;α,β,λ)为归一化函数,它的表达式为:

步骤3:整理得到优化函数:

模型输入犯罪个体的基础数据和矫正方法预测犯罪个体的矫正效果序列:

步骤4:通过梯度下降算法学习目标参数,其中假设矫治效果预测符合多元高斯分布。

(4)研究结果。

本课题使用的实验数据为2014年4月到8月示范监狱局经过脱密处理后的罪犯数据,包含了罪犯的静态基本信息数据以及其在狱中的动态服刑表现数据。

①罪犯的聚类与分类。

图7-11、图7-12分别给出了K-means 模型、隐马尔科夫模型、LDA 主题模型等模型对需要特别关注的类别与积极罪犯的准确性比较。其中K-means 方法只考虑罪犯的基本信息,隐马尔科夫和LDA 方法则考虑了连续几个月的罪犯的表现。重新分配这五个数据集分别为前n 个月罪犯的基本信息及表现(即数据集1 包含前1个月的,数据集2 包含前2 个月,以此类推)。

图7-11 不同方法对需要特别关注罪犯的判别准确性比较

图7-12 不同方法对积极罪犯的判别准确性比较

实验结果表明,不论是对特别关注的罪犯的判别还是对积极罪犯的判别,聚类方法由于缺乏标签数据,准确性要普遍低于分类方法。考虑了动态信息的隐马尔科夫方法比只考虑静态信息的K-means 方法有更高的准确性。可见在没有训练集的前提下,应该使用更为可靠的隐马尔科夫模型对罪犯进行聚类,以便得到更为精确的结果;而在有训练数据的前提下,应该采用LDA 主题模型直接对罪犯进行分类处理。此外还有一个有趣的现象,在这三种方法中对于积极的罪犯的判断更为准确,这似乎说明了对需要特别关注的罪犯的判断更为困难。本研究成果向应急指挥平台及其子系统提供重点监管罪犯信息,为重点危险人员的监管提供准确的数据支持。

②矫治效果的预测。

表7-1给出了条件随机域模型与神经网络模型的数值预测误差统计。可以看出条件随机域模型能够更好地对矫治效果进行预测,其多项误差评价指标都明显低于神经网络模型。这是因为条件随机域模型是分多个阶段经过时序序列分析后得到的预测结果,会比神经网络模型单纯使用连续多次的狱中表现有更强的关联性

表7-1 条件随机域模型与神经网络模型对罪犯整体矫治效果的误差统计

监狱管理局最为棘手的问题是对有心理障碍或者严重暴力倾向等需要特别关注的罪犯的矫治。该类罪犯的表现较为怪异,一般较难预测,常给监狱管理人员带来很大的麻烦。本文也对该类罪犯进行了重点分析,表7-2给出了条件随机域模型与神经网络模型的对需要特别关注的罪犯矫治效果的数值预测误差统计。可以看出条件随机域模型对该特殊类型的罪犯有更为稳定的预测结果,而神经网络模型的预测结果误差更大。

表7-2 条件随机域模型与神经网络模型对需要特别关注罪犯矫治效果的误差统计

从图7-13中可以看到,当训练达到两个月以后的结果就近似收敛,两种预测方法的准确率都略低于90%。下方的虚线给出了神经网络训练结果的准确率,上方的虚线则给出了条件随机域模型对矫治效果的准确率,条件随机域模型的预测结果略高于神经网络的预测结果。可以看出条件随机域模型在长时间的训练中依然具有优势。

图7-13 条件随机域及神经网络训练性能

罪犯在狱中的矫治方案通常根据罪犯的表现而时常变化,而这也是警务人员最难以处理的。本课题提出的条件随机域的预测模型更适合用来分析当前矫治方案及罪犯表现,从而较为准确地预测出最终的罪犯矫治结果。在经过比较之后,本课题最终选用条件随机域模型对监狱罪犯的矫治效果进行预测,并根据监狱数据库信息预测各个罪犯的矫治效果。当系统发现异常值时会向可视化指挥系统发送警报信息。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈