首页 理论教育 分词系统中组织机构简称标注问题的优化措施

分词系统中组织机构简称标注问题的优化措施

时间:2023-07-05 理论教育 版权反馈
【摘要】:为了解分词系统在组织机构名称中简称的标注情况,我们实际调查了某性能优秀的分词标注系统。从以表6-6可知,①AORG词表中的组织机构名称,频率越低,标记为ORG的倾向性越大;②总体上一个组织机构名称简称被标注为AORG和ORG的概率比大致为1∶2;③组织机构名称简称在两个词表中的相对位序一致。

分词系统中组织机构简称标注问题的优化措施

为了解分词系统在组织机构名称中简称的标注情况,我们实际调查了某性能优秀的分词标注系统。表6-5是该分词标注系统的词性标记集。

表6-5 某分词标注系统的词性标记集

续表

观察中我们发现,AORG标记结果同时也会被标记为ORG。因为AORG标记的依据是文本信息而非形式特征。文本信息,即在同一文本中,上文出现全称,而后用简称形式,则可能将其标注为AORG,否则标注为ORG。为了解这种既标记为AORG也标记为ORG的组织机构名称的情况,我们将语料库中全部281个AORG的词形成一个AORG词表,对所有标记为ORG的词形成一个ORG词表,对两个词表进行统计对比。算法如下。

(1)提取AORG词表中第i个词Wi分别在ORG词表和AORG词表中的总词次Toi和Tai

(2)求取Wi在语料库中的总词次(Ti),Ti=Toi+Tai

(3)分别求出每个Wi标记为AORG和ORG的比率Rai、Roi

Rai=Tai/Ti×100%

Roi=Toi/Ti×100%

(4)对AORG词表和ORG词表中的词按照频率高低排列,计算累加频率,并按照累加频率分段求取n个组织机构名称的Ra和Ro。(www.xing528.com)

Ra=Ra1+Ra2+……+Ran   Ro= Ro1+Ro2+……+Ron

(5)按照累加频率分段求取段内n个标记词平均标记比率Pa、Po。

Pa=Ra/n

Po=Ro/n

(6)根据平均标记比率Pa、Po对AORG标记词聚类。

从以表6-6可知,①AORG词表中的组织机构名称,频率越低,标记为ORG的倾向性越大;②总体上一个组织机构名称简称被标注为AORG和ORG的概率比大致为1∶2;③组织机构名称简称在两个词表中的相对位序一致。

表6-6 按累加频率分段统计的组织机构名称、组织机构名称简称平均标记数比例表

根据以上考察可以得到以下结论:①AORG标记设置显得冗余;②我们不能将标记结果ORG词表、AORG词表直接与全称、简称对应,需要合并统计;③在对组织机构名称简称进行研究时,可以主要基于数量级小的AORG词表。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈