首页 理论教育 基于大数据挖掘, 在服刑人员再犯罪预测中的应用

基于大数据挖掘, 在服刑人员再犯罪预测中的应用

时间:2023-07-31 理论教育 版权反馈
【摘要】:Bagging通过重新选取训练集增加了分量学习器集成的差异度,从而提高了泛化能力。对于像神经网络这样极为耗时的学习方法,Bagging可通过并行训练节省大量的时间开销。图5-23Bagging原理图从图5-23可以看出,Bagging的弱学习器之间没有联系,它的特点在“随机抽样”。Bagging的子采样是放回抽样。也就是说,在Bagging的每轮随机抽样中,训练集中大约有36.8%的数据没有被抽样集抽取中。Bagging对于弱学习器没有限制,但是最常用的一般也是决策树和神经网络。

基于大数据挖掘, 在服刑人员再犯罪预测中的应用

1.Bagging算法概述

Bagging是Bootstrap Aggregating的缩写,是Breiman于1996年提出的一种改进多个随机分类器性能的集成学习方法[29]。Bagging的基础是重复取样,它通过产生样本的重复实例作为训练集,每回运行都随机地从大小为n的原始训练集中抽取m个样本作为此回训练的集合。这种训练集被称作原始训练集合的复制,这种技术也叫Bootstrap[30],即Bagging。平均来说,每个Bootstrap复制包含原始训练集的63.2%,原始训练集中的某些样本可能在新的训练集中出现多次,而另外一些样本则可能一次也不出现。Bagging通过重新选取训练集增加了分量学习器集成的差异度,从而提高了泛化能力。

Breiman指出:稳定性是能否提高预测准确率的关键因素。Bagging对不稳定的学习算法能提高其预测的准确度,而对稳定的学习算法效果不明显,有时甚至使预测精度降低。学习算法的不稳定性是指如果训练集有较小的变化,学习算法产生的预测函数将发生较大的变化。

Bagging对训练集的选择是随机的,各轮训练集之间相互独立,Bagging的各个预测函数没有权重,各个预测函数可以并行生成。对于像神经网络这样极为耗时的学习方法,Bagging可通过并行训练节省大量的时间开销。Bagging原理图见图5-23所示。

图5-23 Bagging原理图

从图5-23可以看出,Bagging的弱学习器之间没有联系,它的特点在“随机抽样”。随机抽样(Bootsrap)就是从我们的训练集里面抽取固定个数的样本,但是每抽取一个样本后,都将样本放回。也就是说,之前抽取到的样本在放回后有可能继续被抽取到。对于Bagging算法,一般会随机抽取和训练集样本数m一样多个数的样本。这样得到的抽样集和训练集样本的个数相同,但是样本内容不同。如果我们对有m个样本训练集做T次的随机抽样,则由于随机性,T个抽样集各不相同。

Bagging的子采样是放回抽样。对于一个样本,它在某一次含m个样本的训练集的随机抽样中,每次被采集到的概率是1/m,不被采集到的概率为1-1/m,如果m次采样都没有被抽取中的概率是(1-1/m)m。当m→∞时,(1-1/m)m→1/e=0.368。也就是说,在Bagging的每轮随机抽样中,训练集中大约有36.8%的数据没有被抽样集抽取中。

对于这部分大约36.8%的没有被抽样到的数据,我们常常称之为袋外数据(Out Of Bag,简称OOB)。这些数据没有参与训练集模型的拟合,因此可以用来检测模型的泛化能力。Bagging对于弱学习器没有限制,但是最常用的一般也是决策树和神经网络。Bagging的集合策略也比较简单,对于分类问题,通常使用简单投票法,得到最多票数的类别或者类别之一为最终的模型输出。对于回归问题,通常使用简单平均法,对T个弱学习器得到的回归结果进行算术平均得到最终的模型输出。由于Bagging算法每次都进行采样来训练模型,因此泛化能力很强,对于降低模型的方差很有作用。当然对于训练集的拟合程度就会差一些,也就是模型的偏倚会大一些。

2.Bagging算法流程

Bagging即套袋法,其算法过程如下:

(1)从原始样本集中抽取训练集,每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本(在训练集中,有些样本可能被多次抽取到,而有些样本可能一次都没有被抽中),共进行k轮抽取,得到k个训练集(k个训练集相互独立)。(www.xing528.com)

(2)每次使用一个训练集得到一个模型,k个训练集共得到k个模型(注:根据具体问题采用不同的分类或回归方法,如决策树、神经网络等)。

(3)对分类问题:将上步得到的k个模型采用投票的方式得到分类结果;对回归问题,计算上述模型的均值作为最后的结果。

该算法的形式化描述如下:

3.Bagging算法特点

总结Bagging算法具有如下特点:

(1)Bagging使用最简单的组合策略来得到集成模型,特别适合用来提高那些方差大但偏差小的基模型的预测性能;

(2)Bagging通过降低基分类器的方差,改善了泛化误差;

(3)Bagging中的多个抽样数据的获取及基模型的训练互相没有关联,可以方便进行并行计算

(4)Bagging算法性能依赖于基分类器的稳定性;如果基分类器不稳定,Bagging有助于降低训练数据的随机波动导致的误差;如果稳定,则集成分类器的误差主要由基分类器的偏倚引起;

(5)由于每个样本被选中的概率相同,因此Bagging并不侧重于训练数据集中的任何特定实例。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈