1.分类实现
前面已经采用IG等特征选择算法、LDA等特征抽取算法实现文本特征选择和抽取,从两个层面来降低特征维度,减少计算开销,提高文本分类效率。本节将特征选择和特征抽取两个层次的算法结合起来,研究其对kNN分类效果的影响。
首先采用IG等特征选择方法,去掉对文本表征意义不大的文本特征,然后针对第一阶段形成的新的文本特征空间,再采用LDA的特征抽取算法,把原特征空间转换到一个新的低维度的特征空间中,降低文本特征维度。
下面是给出IG和LDA的参数:
(1)IG选择特征的个数为1000。
(2)LDA算法进行抽取特征个数为200。
采用IG的特征选择方法和LDA的特征抽取方法,kNN文本分类混淆矩阵见表8-26。
表8-26 采用IG和LDA的kNN文本分类混淆矩阵
采用IG的特征选择方法和LDA的特征抽取方法进行kNN文本分类,分类的查准率、查全率和F1值等评价结果见表8-27。
表8-27 分类报告
采用IG的特征选择方法和LDA的特征抽取方法进行kNN文本分类,对分类结果从微平均、宏平均和带权平均三个方面进行了对比分析,其结果如下:
查准率对比:
查全率对比:
F1得分对比:(www.xing528.com)
2.分类效果对比分析
采用IG和LDA相结合的特征维度缩减算法与单独采用IG的特征维度缩减算法对比,对kNN分类算法的分类效果进行分析,其查准率、查全率、F1值、微平均、宏平均和带权平均对比如图8-4至图8-9所示。
图8-4 查准率对比
图8-5 查全率对比
图8-6 F1值对比
图8-7 微平均对比
图8-8 宏平均对比
图8-9 带权平均对比
通过上面的对比分析可以看出,与单独采用IG的特征选择方法相比,采用IG特征选择和LDA特征抽取相结合的kNN文本分类效果更好。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。