首页 理论教育 缺失数据处理技巧-基于大数据挖掘的服刑人员再犯罪预测

缺失数据处理技巧-基于大数据挖掘的服刑人员再犯罪预测

时间:2023-07-31 理论教育 版权反馈
【摘要】:当某个特征缺失值较多时,且该特征对数据分析的目标影响不大时,可以将该特征删除。均值替换法也是一种简便、快速的缺失数据处理方法。对于离散型特征,如果存在缺失值,可以将缺失值作为一个单独的取值进行处理,这种方法称为哑变量方法。

缺失数据处理技巧-基于大数据挖掘的服刑人员再犯罪预测

对于缺失数据的处理,不同的情况处理方法不同,总的来说,缺失数据处理主要包括直接删除缺失数据记录或插补缺失的数据记录两种方法。

1.直接删除缺失的数据记录

直接删除数据记录适合缺失值数量较小(缺失数据占总数据量的比值<5%),并且是随机出现的,删除它们对整体数据影响不大的情况,则直接删除缺失数据记录是最有效的方法,也是很多统计软件(如SPSS和SAS)默认的缺失值处理方法。但强烈建议清洗每做一步都备份一下,或者在小规模数据上试验成功再处理全量数据,不然删错了会追悔莫及。上述属于直接删除缺失的数据记录(数据行),当某个变量维度或数据列)缺失值较多且对研究目标影响不大时,可以将整个变量整体删除。因此,直接删除数据既可以从样本的角度来进行,也可以从删除特征(属性)的角度来删除。

(1)删除样本。删除存在缺失数据的样本适合某些样本有多个特征存在缺失值,且存在缺失值的样本占整个数据集样本数量的比例不高的情形。

(2)删除特征(属性)。当某个特征缺失值较多时,且该特征对数据分析的目标影响不大时,可以将该特征删除。

这种方法简单且容易操作,但有很大的局限性。通过减少历史数据来换取信息的完整性,有可能丢弃了大量隐藏在这些数据记录中的信息。在一些实际场景下,数据采集的成本较高且缺失值无法避免,直接删除缺失数据记录可能会造成大量数据资源的浪费,甚至当数据集本来就包含很少的数据记录,而这个维度的信息还很重要的时候(因为缺失值如果占了95%以上,可以直接去掉这个维度的数据了),直接删除缺失数据可能会严重影响到数据分析结果的客观性和正确性。因此,当缺失数据所占比例较大,特别是当缺失数据属于非随机分布时,这种方法可能导致数据发生偏离,从而得出错误的结论。一些模型可以将缺失数据视作一种特殊的取值,直接运行在含有缺失值的数据上进行模型训练。

2.插补数据记录

当缺失数据超过总体数据的5%或直接删除数据会改变数据结构时,通常需要使用插补数据记录的方法对缺失的数据进行处理。插补数据记录是指在条件允许的情况下,找到缺失值的替代值进行插补,尽可能还原真实数据。常见的方法有均值插补、回归插补、二阶插补、热平台、冷平台等单一变量插补。(www.xing528.com)

(1)均值(中位数或众数)插补法。在缺失数据所属的特征十分重要或所缺失的数据量较为庞大的时候,直接删除缺失数据法就遇到了困难,因为许多有用的数据也同时被剔除。围绕着这一问题,研究者尝试了各种各样的办法。其中的一个方法是均值插补法,是指通过计算缺失值所在特征所有非缺失观测值的均值,然后使用均值来对缺失值进行插补。我们将特征的特征分为数值型(或连续型)和非数值型(离散型)来分别进行处理。如果缺失值是数值型的,就根据该特征的特征值在其他所有对象的取值的均值[3](也叫平均数)来插补该缺失的特征值;如果缺失值是非数值型的,就根据统计学中的众数[4]原理,用该特征在其他所有对象中的取值次数最多的值来插补该缺失的特征值。均值替换法也是一种简便、快速的缺失数据处理方法。使用均值替换法插补缺失数据,对该特征的均值估计不会产生影响。

均值插补法会使得数据过分集中在平均值或众数上,是建立在完全随机缺失(MCAR)的假设之上的,会造成特征的方差和标准差变小。此外,由于完全忽略特征之间的相关性,均值插补法会大大弱化特征之间的相关性。在实际应用过程中,可以根据一定的辅助特征,将数据集分成多组,然后在每一个组数据上分别使用均值插补。

(2)基于模型的插补。均值插补法不能利用相关特征信息,因此会存在一定偏差,而基于模型的插补是将需要插补的特征作为因变量,其他相关特征作为自变量,通过建立分类或回归模型预测出因变量的值对缺失变量进行插补。具体为:把缺失特征作为因变量,其他相关特征作为自变量,也即:自变量为所有被选入的连续变量,因变量为存在缺失值的变量,利用他们之间的关系建立分类或回归模型来预测缺失值,以此完成缺失值插补的方法。与均值插补方法比较,该方法利用了数据中尽量多的信息,而且一些统计软件(如Stata)也已经能够直接执行该功能。但该方法也有诸多弊端:第一,基于模型的插补方法需要采用模型评估方法对模型的预测性能进行评估,如果构建的模型预测性能太差,则不适合用该方法插补缺失数据;第二,基于模型的插补法将增大特征之间的相关性[5]

(3)热平台和冷平台插补。匹配插补又称热平台方法,是指在非缺失数据集中找到一个与缺失值所在样本相似的样本(匹配样本),利用其中的观测值对缺失值进行插补。相对应的,冷平台方法又称条件均值插补法,是指根据相关特征将总体分层,对于任一缺失值,用该样本所在层的完全数据的均值代替。优点:简单易行,准确率较高;缺点:特征数量较多时,通常很难找到与需要插补样本完全相同的样本。但我们可以按照某些特征将数据分层,在层中对缺失值适用均值插补。

(4)拉格朗日插值法牛顿插值法。拉格朗日插值法和牛顿插值法都属于多项式插值,拉格朗日插值法公式结构紧凑,在理论分析中很方便,但是当插值节点增减时,插值多项式就会随之变化,这在计算中是很不方便的,为了克服这一缺点,提出了牛顿插值法。牛顿插值法采用另一种构造插值多项式的方法,与拉格朗日插值法相比,具有承袭性和易于变动节点的特点。从本质上来说,两者给出的结果是一样的,即:相同次数,相同系数的多项式,只不过表示的形式不同。限于篇幅和专业性,感兴趣的读者可以参考脚注文献[6]

(5)其他缺失值处理方法。缺失值处理方法有很多种,除了上述方法之外,还可以包含随机插补、哑变量方法和EM算法等。随机插补是在均值插补的基础上加上随机项,通过增加缺失值的随机性来改善缺失值分布过于集中的缺陷。随机插补主要包括贝叶斯Bootstrap方法和近似贝叶斯Bootstrap方法。对于离散型特征,如果存在缺失值,可以将缺失值作为一个单独的取值进行处理,这种方法称为哑变量方法。例如,服刑人员信息历史数据集中,可以将“性别”特征的缺失值作为一个特殊的取值“未知”,表示性别未知。此时,特征“性别”的取值为“男”“女”“未知”。EM算法是一种可以利用不完整的信息实现概率模型的参数估计的算法,当用EM算法进行缺失值插补时,缺失特征被当作隐含变量,具体可参考脚注文献[7]

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈