基于大数据挖掘，在服刑人员再犯罪预测中的应用

时间：2023-07-31 理论教育版权反馈

【摘要】：Bagging通过重新选取训练集增加了分量学习器集成的差异度，从而提高了泛化能力。对于像神经网络这样极为耗时的学习方法，Bagging可通过并行训练节省大量的时间开销。图5-23Bagging原理图从图5-23可以看出，Bagging的弱学习器之间没有联系，它的特点在“随机抽样”。Bagging的子采样是放回抽样。也就是说，在Bagging的每轮随机抽样中，训练集中大约有36.8%的数据没有被抽样集抽取中。Bagging对于弱学习器没有限制，但是最常用的一般也是决策树和神经网络。

1.Bagging算法概述

Bagging是Bootstrap Aggregating的缩写，是Breiman于1996年提出的一种改进多个随机分类器性能的集成学习方法^[29]。Bagging的基础是重复取样，它通过产生样本的重复实例作为训练集，每回运行都随机地从大小为n的原始训练集中抽取m个样本作为此回训练的集合。这种训练集被称作原始训练集合的复制，这种技术也叫Bootstrap^[30]，即Bagging。平均来说，每个Bootstrap复制包含原始训练集的63.2%，原始训练集中的某些样本可能在新的训练集中出现多次，而另外一些样本则可能一次也不出现。Bagging通过重新选取训练集增加了分量学习器集成的差异度，从而提高了泛化能力。

Breiman指出：稳定性是能否提高预测准确率的关键因素。Bagging对不稳定的学习算法能提高其预测的准确度，而对稳定的学习算法效果不明显，有时甚至使预测精度降低。学习算法的不稳定性是指如果训练集有较小的变化，学习算法产生的预测函数将发生较大的变化。

Bagging对训练集的选择是随机的，各轮训练集之间相互独立，Bagging的各个预测函数没有权重，各个预测函数可以并行生成。对于像神经网络这样极为耗时的学习方法，Bagging可通过并行训练节省大量的时间开销。Bagging原理图见图5-23所示。

pagenumber_ebook=330,pagenumber_book=317

图5-23　Bagging原理图

从图5-23可以看出，Bagging的弱学习器之间没有联系，它的特点在“随机抽样”。随机抽样（Bootsrap）就是从我们的训练集里面抽取固定个数的样本，但是每抽取一个样本后，都将样本放回。也就是说，之前抽取到的样本在放回后有可能继续被抽取到。对于Bagging算法，一般会随机抽取和训练集样本数m一样多个数的样本。这样得到的抽样集和训练集样本的个数相同，但是样本内容不同。如果我们对有m个样本训练集做T次的随机抽样，则由于随机性，T个抽样集各不相同。

Bagging的子采样是放回抽样。对于一个样本，它在某一次含m个样本的训练集的随机抽样中，每次被采集到的概率是1/m，不被采集到的概率为1-1/m，如果m次采样都没有被抽取中的概率是（1-1/m）m。当m→∞时，（1-1/m）m→1/e＝0.368。也就是说，在Bagging的每轮随机抽样中，训练集中大约有36.8%的数据没有被抽样集抽取中。

对于这部分大约36.8%的没有被抽样到的数据，我们常常称之为袋外数据（Out Of Bag，简称OOB）。这些数据没有参与训练集模型的拟合，因此可以用来检测模型的泛化能力。Bagging对于弱学习器没有限制，但是最常用的一般也是决策树和神经网络。Bagging的集合策略也比较简单，对于分类问题，通常使用简单投票法，得到最多票数的类别或者类别之一为最终的模型输出。对于回归问题，通常使用简单平均法，对T个弱学习器得到的回归结果进行算术平均得到最终的模型输出。由于Bagging算法每次都进行采样来训练模型，因此泛化能力很强，对于降低模型的方差很有作用。当然对于训练集的拟合程度就会差一些，也就是模型的偏倚会大一些。

2.Bagging算法流程

Bagging即套袋法，其算法过程如下：

（1）从原始样本集中抽取训练集，每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本（在训练集中，有些样本可能被多次抽取到，而有些样本可能一次都没有被抽中），共进行k轮抽取，得到k个训练集（k个训练集相互独立）。(www.xing528.com)

（2）每次使用一个训练集得到一个模型，k个训练集共得到k个模型（注：根据具体问题采用不同的分类或回归方法，如决策树、神经网络等）。

（3）对分类问题：将上步得到的k个模型采用投票的方式得到分类结果；对回归问题，计算上述模型的均值作为最后的结果。

该算法的形式化描述如下：

pagenumber_ebook=332,pagenumber_book=319

3.Bagging算法特点

总结Bagging算法具有如下特点：

（1）Bagging使用最简单的组合策略来得到集成模型，特别适合用来提高那些方差大但偏差小的基模型的预测性能；

（2）Bagging通过降低基分类器的方差，改善了泛化误差；

（3）Bagging中的多个抽样数据的获取及基模型的训练互相没有关联，可以方便进行并行计算；

（4）Bagging算法性能依赖于基分类器的稳定性；如果基分类器不稳定，Bagging有助于降低训练数据的随机波动导致的误差；如果稳定，则集成分类器的误差主要由基分类器的偏倚引起；

（5）由于每个样本被选中的概率相同，因此Bagging并不侧重于训练数据集中的任何特定实例。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

研究成果

注意事项

解决方案

计算方法

发展趋势

中国古代

社会主义

心理健康

控制系统

建筑工程

经济发展

传统文化

民事诉讼

中国传统

程序设计

轨道交通

解决方法

工程施工

研究结果

建设工程

文史资料

持续发展

计算机网

使用方法

基于大数据挖掘，在服刑人员再犯罪预测中的应用

相关推荐

基于大数据挖掘， 在服刑人员再犯罪预测中的应用

有关基于大数据挖掘的服刑人员再犯罪预测的文章

相关推荐

基于大数据挖掘，在服刑人员再犯罪预测中的应用