首页 理论教育 采用IG特征选择和LDA特征抽取实现的分类

采用IG特征选择和LDA特征抽取实现的分类

时间:2023-11-06 理论教育 版权反馈
【摘要】:首先采用IG等特征选择方法,去掉对文本表征意义不大的文本特征,然后针对第一阶段形成的新的文本特征空间,再采用LDA的特征抽取算法,把原特征空间转换到一个新的低维度的特征空间中,降低文本特征维度。采用IG的特征选择方法和LDA的特征抽取方法,kNN文本分类混淆矩阵见表8-26。

采用IG特征选择和LDA特征抽取实现的分类

1.分类实现

前面已经采用IG等特征选择算法、LDA等特征抽取算法实现文本特征选择和抽取,从两个层面来降低特征维度,减少计算开销,提高文本分类效率。本节将特征选择和特征抽取两个层次的算法结合起来,研究其对kNN分类效果的影响。

首先采用IG等特征选择方法,去掉对文本表征意义不大的文本特征,然后针对第一阶段形成的新的文本特征空间,再采用LDA的特征抽取算法,把原特征空间转换到一个新的低维度的特征空间中,降低文本特征维度。

下面是给出IG和LDA的参数:

(1)IG选择特征的个数为1000。

(2)LDA算法进行抽取特征个数为200。

采用IG的特征选择方法和LDA的特征抽取方法,kNN文本分类混淆矩阵见表8-26。

表8-26 采用IG和LDA的kNN文本分类混淆矩阵

采用IG的特征选择方法和LDA的特征抽取方法进行kNN文本分类,分类的查准率查全率和F1值等评价结果见表8-27。

表8-27 分类报告

采用IG的特征选择方法和LDA的特征抽取方法进行kNN文本分类,对分类结果从微平均、宏平均和带权平均三个方面进行了对比分析,其结果如下:

查准率对比:

查全率对比:

F1得分对比:(www.xing528.com)

2.分类效果对比分析

采用IG和LDA相结合的特征维度缩减算法与单独采用IG的特征维度缩减算法对比,对kNN分类算法的分类效果进行分析,其查准率、查全率、F1值、微平均、宏平均和带权平均对比如图8-4至图8-9所示。

图8-4 查准率对比

图8-5 查全率对比

图8-6 F1值对比

图8-7 微平均对比

图8-8 宏平均对比

图8-9 带权平均对比

通过上面的对比分析可以看出,与单独采用IG的特征选择方法相比,采用IG特征选择和LDA特征抽取相结合的kNN文本分类效果更好。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈