首页 理论教育 短文本表示:词频逆文档频率

短文本表示:词频逆文档频率

时间:2023-11-18 理论教育 版权反馈
【摘要】:Salton 等[21]在 1974 年提出了词频逆文档频率算法,此后又论证了TFIDF算法在信息检索、文本相似度计算等自然语言处理领域的有效性。TFIDF没有考虑词语的位置、顺序和共现信息,其仅考虑词频与逆文档频率,并不能很好地表征对一个词语的分类能力。

短文本表示:词频逆文档频率

Salton 等[21]在 1974 年提出了词频−逆文档频率(Term Frequency-Inverse Document Frequency,TF−IDF)算法,此后又论证了TF−IDF算法在信息检索、文本相似度计算等自然语言处理领域的有效性。TF−IDF是一种计算词语权重的算法,可用于评估词语对当前文本(或整个语料库)的重要程度。字词的重要性与其在当前文件中出现的频率成正比,但与它在语料库中出现的频率成反比。TF−IDF的计算公式如下:

式中,TF——词频(Term Frequency);

IDF——逆文档频率(Inverse Document Frequency);

n(w,s)——词语w在文档s中出现的次数;

|{s|w ∈s}|——出现词语w的文档s的个数;

|s|——文档s的总词语数;(www.xing528.com)

|Δ|——总文档数。

TF−IDF的主要思想:如果一个词语在特定的文本中出现的频率越高,即TF(词频)越大,则说明它在区分该文本内容属性方面的能力越强;如果一个词语在文本中出现的范围越广,即IDF(逆文档频率)越小,则说明该词区分文本内容属性的能力越弱。如果某个词(或短语)在一篇文章中出现的TF值高,并且在其他文章中很少出现,则认为该词语具有很好的类别区分能力,适合被选择为文本分类、文本聚类等自然语言处理任务的语义特征。

然而,针对很多自然语言应用(如文本分类问题),仅依靠TF−IDF信息是远远不够的。这主要是因为以下两点:

(1)TF−IDF没有考虑主题或者概念信息,是仅根据出现频率来对语料集进行统计后得出的值,这种“仅考虑浅层字面,未顾全深层语义”的策略并不能很好地提升歧义性强的自然语言处理任务(如多主题领域的情感分类等)的性能。

(2)TF−IDF没有考虑词语的位置、顺序和共现信息,其仅考虑词频与逆文档频率,并不能很好地表征对一个词语的分类能力。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈