采用IG特征选择和LDA特征抽取实现的分类

时间：2026-01-26 理论教育 Jonker 版权反馈

【摘要】：首先采用IG等特征选择方法，去掉对文本表征意义不大的文本特征，然后针对第一阶段形成的新的文本特征空间，再采用LDA的特征抽取算法，把原特征空间转换到一个新的低维度的特征空间中，降低文本特征维度。采用IG的特征选择方法和LDA的特征抽取方法，kNN文本分类混淆矩阵见表8-26。

1.分类实现

前面已经采用IG等特征选择算法、LDA等特征抽取算法实现文本特征选择和抽取，从两个层面来降低特征维度，减少计算开销，提高文本分类效率。本节将特征选择和特征抽取两个层次的算法结合起来，研究其对kNN分类效果的影响。

首先采用IG等特征选择方法，去掉对文本表征意义不大的文本特征，然后针对第一阶段形成的新的文本特征空间，再采用LDA的特征抽取算法，把原特征空间转换到一个新的低维度的特征空间中，降低文本特征维度。

下面是给出IG和LDA的参数：

（1）IG选择特征的个数为1000。

（2）LDA算法进行抽取特征个数为200。

采用IG的特征选择方法和LDA的特征抽取方法，kNN文本分类混淆矩阵见表8-26。

表8-26　采用IG和LDA的kNN文本分类混淆矩阵

采用IG的特征选择方法和LDA的特征抽取方法进行kNN文本分类，分类的查准率、查全率和F1值等评价结果见表8-27。

表8-27　分类报告

采用IG的特征选择方法和LDA的特征抽取方法进行kNN文本分类，对分类结果从微平均、宏平均和带权平均三个方面进行了对比分析，其结果如下：

查准率对比：

查全率对比：

F1得分对比：(https://www.xing528.com)

2.分类效果对比分析

采用IG和LDA相结合的特征维度缩减算法与单独采用IG的特征维度缩减算法对比，对kNN分类算法的分类效果进行分析，其查准率、查全率、F1值、微平均、宏平均和带权平均对比如图8-4至图8-9所示。

图8-4　查准率对比

图8-5　查全率对比

图8-6　F1值对比

图8-7　微平均对比

图8-8　宏平均对比

图8-9　带权平均对比

通过上面的对比分析可以看出，与单独采用IG的特征选择方法相比，采用IG特征选择和LDA特征抽取相结合的kNN文本分类效果更好。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

工作计划

年度工作

工作规划

教学计划

实施方案

工作方案

教学工作

发展计划

德育工作

管理工作

发展规划

工作总结

教育工作

体育教师

年度计划

后勤工作

安全教育

工作思路

教育计划

小学教师

幼儿教师

数学教师

食品安全

英语教学

采用IG特征选择和LDA特征抽取实现的分类

相关推荐

采用IG特征选择和LDA特征抽取实现的分类

相关文章：

相关推荐