相似性得分计算方法：学术文本的词汇功能分析

时间：2026-01-27 理论教育烨版权反馈

【摘要】：为了实现排序，还需要确定候选词汇与目标词汇的相似性计算方法。首先对文本进行术语抽取，本章使用了最长字符串匹配方法抽取术语，通过在不同粒度上进行切分，构造字符串切分树。图4-2字符串切分树示例构造字符串切分树的主要目的是方便同义词归并。构造得到两个字符串的切分树表示以后，接下来的计算便基于两棵树进行。被标记为不参与匹配的节点在相似度计算中都不会被考虑，而标记为匹配的文本对将被标记为相同词汇。

为了实现排序，还需要确定候选词汇与目标词汇的相似性计算方法。

给定词汇组合P＝{w1，w2，…，wm}和标注结果词汇序列P′＝。首先对文本进行术语抽取，本章使用了最长字符串匹配方法抽取术语，通过在不同粒度上进行切分，构造字符串切分树。例如，对于文本“support vector machine based method”，假设存在术语“support vector”和“support vector machine”，则可以构造字符串切分树结构，如图4-2所示。

图4-2　字符串切分树示例

构造字符串切分树的主要目的是方便同义词归并。构造得到两个字符串的切分树表示以后，接下来的计算便基于两棵树进行。利用同义词词典给出的同义词列表，每次选择两棵树中归并收益最大的两个节点进行归并，一旦某个节点被归并，则其父节点和子孙节点将不再参与后续的归并，如此重复，直到没有节点可以被归并。

归并收益定义为待归并的两个字符串包含的词汇数量组合。选择归并收益最大的节点进行归并的目的是：尽可能在较高的树层次进行同义词归并。假设存在字符串“support vector machine”和“SVM algorithm”，根据同义词词典定义，两者是同义词，同时，在词典中，“support vector machine”和“SVM”也是同义词，在较高的节点层次进行归并，可以得到两个字符串为完全匹配关系；但如果将“support vector machine”与“SVM”先进行归并，则会导致两个字符串不能完全匹配，后一个字符串还包含了“algorithm”这一词汇。

如图4-3所示，待处理的两个字符串为“L1 based support vector regression learning”和“SV regression learning with L1”，字符串下方或者右边的线段表示各个粒度上字符串切分的结果。假设“support vector”可以匹配到“SV”，“support vector regression”可以匹配到“SV regression”，则匹配收益最大的字符串对（text pair）为“support vector regression”和“SV regression”，收益为5。因此，匹配的第一步需要从两棵树中标记对应节点为匹配关系，同时，标记“support vector regression”和“SV regression”对应节点的父节点和子孙节点在后续环节中不参与匹配。重复这一过程，两棵树中的其他相同或者同义节点如“learning”“L1”等都会被识别为匹配关系。

被标记为不参与匹配的节点在相似度计算中都不会被考虑，而标记为匹配的文本对将被标记为相同词汇。如图4-3所示，经过处理，“L1 based support vector regression learning”被转化为文本“A based B C”，其他词汇都被忽略了，同理，“SV regression learning with L1”处理后的表示为“B C with A”。考虑到“based”和“with”两个词汇并没有实际含义，“B C with A和“A based B C”具有较高的相似度。

图4-3　相似性得分计算示意图(https://www.xing528.com)

通过切分树归并，可以将文本对中的同义词进行匹配，被匹配的字符串被认为是同义词汇，在各自归属的词袋中需要被去除。由此，得到P＝{w1，w2，…，wm}和的新表示。

举例说明，给定“L1 support vector machine”和“SVM model”，经过字符串切分树处理，得到各自的字符串切分树，如图4-4所示。自顶而下检查左右两棵树中节点的匹配情况，发现“support vector machine”和“SVM”是同义词，可以被归并，因此标记两棵树中的这两个节点为匹配关系，同时将各自的父节点和子节点标记为无效状态，也即不参与后续匹配。到此，发现剩下的节点中没有可以被匹配的，匹配工作停止。至此，可以将“support vector machine”处理为{L1}，而“SVM model”则被处理为{model}。

图4-4　同义词归并过程示意图

为了避免噪音词汇的影响，对转换得到的字符串还需要进行进一步处理。一些词汇如to、novel、one、a等在计算相似性时需要被去除，为此，本书对P processed和中的词汇做停用词过滤处理。本书使用了一个包含561个停用词的停用词表。在整个匹配过程中，为了消除词形变化对相似性得分计算的影响，匹配处理在词干提取后的文本上进行。

给定P和P′以及对应的P processed和相似性得分采用了一个简单的计算方法，见公式4.1。

其中，表示长度。可以看到，这一个相似性度量指标是不对称的，也就是说sim（P，P′）≠sim（P′，P）。如果P中的所有词汇都能够在语义上被P′包含，则两者的相似度为1；如果两者没有任何词汇或者词汇序列构成重叠关系，则相似度计算结果为0。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

工作计划

年度工作

工作规划

教学计划

实施方案

工作方案

教学工作

发展计划

德育工作

管理工作

发展规划

工作总结

教育工作

体育教师

年度计划

后勤工作

安全教育

工作思路

教育计划

小学教师

幼儿教师

数学教师

食品安全

英语教学

相似性得分计算方法：学术文本的词汇功能分析

相关推荐

相似性得分计算方法：学术文本的词汇功能分析

相关文章：

相关推荐