首页 理论教育 Python文本分析:NMF特征抽取过程

Python文本分析:NMF特征抽取过程

时间:2023-11-06 理论教育 版权反馈
【摘要】:开始选择比较小的值,在运行过程中可根据运行结果再逐步调整参数值。fit_transform:根据文本数据集D,获得NMF模型并返回特征抽取后的文本数据。

Python文本分析:NMF特征抽取过程

1.NMF类

采用Scikit-learn工具中的类NMF实现特征抽取,类NMF描述如下:

(1)参数:

n_components:整型数据,是要抽取的特征数,如果没有指定值,则表明保留所有特征。

init:用于帮助我们选择W和H迭代初值的算法,默认是None,即自动选择值,不使用选择初值的算法。如果我们对收敛速度不满意,才需要关注这个值,从Scikitlearn提供的算法中选择一个合适的初值选取算法。

max_iter:整型数据,指需要计算的最大迭代次数,缺省默认值为200。

alpha:float型数据,正则化参数α,缺省时默认为0。开始选择比较小的值,在运行过程中可根据运行结果再逐步调整参数值。

(2)常用方法:

fit(D[,y]):根据文本数据集D,获取NMF模型。

fit_transform(D[,y,W,H]):根据文本数据集D,获得NMF模型并返回特征抽取后的文本数据。(www.xing528.com)

transform(D):根据已经训练好的NMF模型转换文本数据集D。

2.基于NMF的文本特征抽取

NMF的运行结果说明:

(1)原始文档-特征矩阵X:

(2)基矩阵A:

(3)系数矩阵S:

(4)主题:

(5)评价:

(6)为了验证分解效果,可还原原始矩阵,还原结果如下:

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈