首页 理论教育 文本特征抽取方法-信息推荐系统

文本特征抽取方法-信息推荐系统

时间:2023-10-31 理论教育 版权反馈
【摘要】:文本特征抽取就是从原始文档中抽取出表示文档本质的特征词汇,即在不影响文档识别精度的情况下将原始文档特征空间进行变换,重新生成一个维数更小、各维之间更加独立的特征空间。目前,文本特征抽取已广泛应用于文本信息检索和分类等领域。因此,文本特征抽取是实现信息内容过滤推荐系统的重要技术基础。

文本特征抽取方法-信息推荐系统

文档资源中所有词汇对标识文档的作用是不同的,一个文档中对标识文档有用的词汇只占一小部分,而大部分词汇与要判别的文档类别无关。原始文档资源所包含的词汇量是相当大的,一份普通的文档资源在经过文本表示后,如果选择所有词汇为特征词,该文档的向量空间维数将达到几千,甚至几万。因此,在基于内容过滤的信息推荐中,必须将原始的高维文档空间进行降维,这就需要应用到文本特征抽取技术。文本特征抽取就是从原始文档中抽取出表示文档本质的特征词汇,即在不影响文档识别精度的情况下将原始文档特征空间进行变换,重新生成一个维数更小、各维之间更加独立的特征空间。目前,文本特征抽取已广泛应用于文本信息检索和分类等领域。基于内容过滤的信息推荐系统可以引入文本特征抽取,将原始文档资源集转换为以特征词为基础的文档向量空间模型,在此基础上产生信息资源的推荐。因此,文本特征抽取是实现信息内容过滤推荐系统的重要技术基础。

文本特征抽取过程分为三个步骤[14]:文档预处理(Preprocessing)、文本索引(Indexing)以及降维(Dimensionality Reduction)。

①文档预处理。

文本预处理是将文档中某些无用的字符直接去掉(如文本格式标记、停用词等),并对文档进行文本分词处理。文本分词是将连续的文字切分成符合语义的词的序列。英文中,单词之间以空格作为自然分界符,因此英文文本不需要进行分词处理。而中文文本中字与字之间、词与词之间并没有明显的切分标记,因此需要中文分词技术,让计算机自动地把中文中的词与词之间的分界线找出来。因此,中文分词技术是中文信息处理的基础。常见的分词方法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

②文本索引。

在文本经过预处理后,还需要进行文本索引处理。文本索引也称为文本表示,这个过程非常重要,常用的方法是向量空间模型,其目标就是将文本表示成为带权重的向量。在文本索引中,我们可以使用“词—文档”(Wordby-Document)矩阵来表示一系列文档资源,也可以叫做索引矩阵,矩阵中每个元素表示某一个词在某一篇文档中的权重。

③降维。

由于单词在文档中的数量是巨大的,这造成了索引矩阵的维数非常大。针对这样高维的文档索引矩阵,必须进行文本特征选择,从文档资源中挑选出最能标识文档的特征词,以此来构建文本特征矩阵,从而降低文本索引矩阵的维数。主要的方法有:文档频率、信息增益、互信息方法、期望交叉熵方法等[15]

①文档频率(Document Frequency,DF)。

文档频率就是文档集合中出现某个特征项的文档数目。在特征选取中,计算每个特征项在训练集合中出现的频率,根据预先设定的阈值去除那些文档频率特别低和特别高的特征项。文档频率的基本假设是:很少出现的特征对分类价值极小,对整个分类系统的效果影响也很小,因此,将这些特征去掉有助于降低特征空间维数,并且当这些不常出现的特征为噪音时,还会有助于提高分类正确率。文档频率的计算复杂度较低,随训练集的增加而线性增加,能够适用于大规模语料。文档频率是最简单的评估函数,但在实际运用中它的效果却出奇的好。但文档频率也有缺点,因为低频词可能包含着重要的判断信息,不宜用DF大幅度地删除词。所以在实际运用中一般并不直接使用DF,而常把它作为评判其他评估函数的标准。

②信息增益(Information Gain,IG)。(www.xing528.com)

信息增益指一个词汇为整个分类所能提供的信息量,该方法通过统计词汇在一篇文本中出现或不出现的概率来决定是否将其选取为特征向量

词汇t的IG评价函数为:

词汇的信息增益值越大,在某个类别上分布越集中,被选取的可能性也越大。

③互信息方法(Mutual Information,MI)。

互信息方法根据某个词汇t和类别Cj之间的共现程度来衡量词汇和类别之间的相关性。词汇t的MI评价函数为:

词汇t和类别Cj相互独立时,两者的互信息为0。MI值越大,词汇和类别之间的相关程度越高,词汇被选取的可能性也越大。用互信息方法提取特征词的时间复杂度为O(Mk)(k为类别数,M为特征词的总数),这与信息增益方法相同。

④期望交叉熵方法(Expected Cross Entropy,CE)。

期望交叉熵方法中词汇t的CE评价函数为:

期望交叉熵方法方法的原理与信息增益方法相同,唯一的不同之处在于:信息增益方法考虑了词汇在文本中出现和不出现的两种情况,而期望交叉熵方法只考虑词汇在文本中出现这一种情况。这些不出现的词汇一般是噪声的来源,因此期望交叉熵比信息增益要优越一些。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈