首页 理论教育 相似性得分计算方法:学术文本的词汇功能分析

相似性得分计算方法:学术文本的词汇功能分析

时间:2023-11-20 理论教育 版权反馈
【摘要】:为了实现排序,还需要确定候选词汇与目标词汇的相似性计算方法。首先对文本进行术语抽取,本章使用了最长字符串匹配方法抽取术语,通过在不同粒度上进行切分,构造字符串切分树。图4-2字符串切分树示例构造字符串切分树的主要目的是方便同义词归并。构造得到两个字符串的切分树表示以后,接下来的计算便基于两棵树进行。被标记为不参与匹配的节点在相似度计算中都不会被考虑,而标记为匹配的文本对将被标记为相同词汇。

相似性得分计算方法:学术文本的词汇功能分析

为了实现排序,还需要确定候选词汇与目标词汇的相似性计算方法。

给定词汇组合P={w1,w2,…,wm}和标注结果词汇序列P′=。首先对文本进行术语抽取,本章使用了最长字符串匹配方法抽取术语,通过在不同粒度上进行切分,构造字符串切分树。例如,对于文本“support vector machine based method”,假设存在术语“support vector”和“support vector machine”,则可以构造字符串切分树结构,如图4-2所示。

图4-2 字符串切分树示例

构造字符串切分树的主要目的是方便同义词归并。构造得到两个字符串的切分树表示以后,接下来的计算便基于两棵树进行。利用同义词词典给出的同义词列表,每次选择两棵树中归并收益最大的两个节点进行归并,一旦某个节点被归并,则其父节点和子孙节点将不再参与后续的归并,如此重复,直到没有节点可以被归并。

归并收益定义为待归并的两个字符串包含的词汇数量组合。选择归并收益最大的节点进行归并的目的是:尽可能在较高的树层次进行同义词归并。假设存在字符串“support vector machine”和“SVM algorithm”,根据同义词词典定义,两者是同义词,同时,在词典中,“support vector machine”和“SVM”也是同义词,在较高的节点层次进行归并,可以得到两个字符串为完全匹配关系;但如果将“support vector machine”与“SVM”先进行归并,则会导致两个字符串不能完全匹配,后一个字符串还包含了“algorithm”这一词汇。

如图4-3所示,待处理的两个字符串为“L1 based support vector regression learning”和“SV regression learning with L1”,字符串下方或者右边的线段表示各个粒度上字符串切分的结果。假设“support vector”可以匹配到“SV”,“support vector regression”可以匹配到“SV regression”,则匹配收益最大的字符串对(text pair)为“support vector regression”和“SV regression”,收益为5。因此,匹配的第一步需要从两棵树中标记对应节点为匹配关系,同时,标记“support vector regression”和“SV regression”对应节点的父节点和子孙节点在后续环节中不参与匹配。重复这一过程,两棵树中的其他相同或者同义节点如“learning”“L1”等都会被识别为匹配关系。

被标记为不参与匹配的节点在相似度计算中都不会被考虑,而标记为匹配的文本对将被标记为相同词汇。如图4-3所示,经过处理,“L1 based support vector regression learning”被转化为文本“A based B C”,其他词汇都被忽略了,同理,“SV regression learning with L1”处理后的表示为“B C with A”。考虑到“based”和“with”两个词汇并没有实际含义,“B C with A和“A based B C”具有较高的相似度。

图4-3 相似性得分计算示意图(www.xing528.com)

通过切分树归并,可以将文本对中的同义词进行匹配,被匹配的字符串被认为是同义词汇,在各自归属的词袋中需要被去除。由此,得到P={w1,w2,…,wm}和的新表示

举例说明,给定“L1 support vector machine”和“SVM model”,经过字符串切分树处理,得到各自的字符串切分树,如图4-4所示。自顶而下检查左右两棵树中节点的匹配情况,发现“support vector machine”和“SVM”是同义词,可以被归并,因此标记两棵树中的这两个节点为匹配关系,同时将各自的父节点和子节点标记为无效状态,也即不参与后续匹配。到此,发现剩下的节点中没有可以被匹配的,匹配工作停止。至此,可以将“support vector machine”处理为{L1},而“SVM model”则被处理为{model}。

图4-4 同义词归并过程示意图

为了避免噪音词汇的影响,对转换得到的字符串还需要进行进一步处理。一些词汇如to、novel、one、a等在计算相似性时需要被去除,为此,本书对P processed中的词汇做停用词过滤处理。本书使用了一个包含561个停用词的停用词表。在整个匹配过程中,为了消除词形变化对相似性得分计算的影响,匹配处理在词干提取后的文本上进行。

给定P和P′以及对应的P processed相似性得分采用了一个简单的计算方法,见公式4.1。

其中,表示长度。可以看到,这一个相似性度量指标是不对称的,也就是说sim(P,P′)≠sim(P′,P)。如果P中的所有词汇都能够在语义上被P′包含,则两者的相似度为1;如果两者没有任何词汇或者词汇序列构成重叠关系,则相似度计算结果为0。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈