首页 理论教育 组织机构名称校对系统的优化方法

组织机构名称校对系统的优化方法

时间:2023-07-05 理论教育 版权反馈
【摘要】:图3-2组织机构名称辅助校对系统图3-3组织机构名称辅助校对系统表3-12表示“中央电视台”的单一组织机构名称识别正误统计表校对发现,这种高频组织机构名称识别错误是“中央电视台”前界错误导致。我们抽取2002年1月《人民日报》语料中的组织机构名称并进行了具体测试。当月10类文本共出现7939个不同组织机构名称,分词系统识别3957个,其中识别错误424个。但未召回的组织机构名称上下文特征和召回的组织机构名称上下文特征并无二异。

组织机构名称校对系统的优化方法

本研究专门设计了一个组织机构名称辅助校对系统,界面如图3-2、图3-3所示。该校对系统集成了全部语料库和组织机构名称原始信息库中的ID、组织机构名称、上下文

校对系统的工作流程如下。

(1)默认全部识别结果正确。

(2)发现错误识别结果,初步判定错误类型,如前界错误、后界错误、禁用词等。

(3)将校对发现的错误识别结果按错误类型存入错误组织机构名称表。

(4)如出现新的错误类型,则在错误类型列表中增加新错误类型,再录入数据库。根据校对结果,频次为1或2的识别结果基本上都是识别错误的组织机构名称。而频次较高的组织机构名称识别精确率也较高。这显然是正常的结果。但也有例外,如与“中央电视台”匹配的单一组织机构名称共有18706个,但错误的识别结果比例却很高,如表3-12所示。

图3-2 组织机构名称辅助校对系统(1)

图3-3 组织机构名称辅助校对系统(2)

表3-12 表示“中央电视台”的单一组织机构名称识别正误统计表(www.xing528.com)

校对发现,这种高频组织机构名称识别错误是“中央电视台”前界错误导致。而且前界都有“●”,如●中央电视台、中国新闻●中央电视台、讲坛●中央电视台。识别错误的根本原因在于识别系统对右边界中心词依赖程度很高,过度规则化,而对左边界的识别性能较弱。因而,当发现可能的右边界时,就会径直向左搜索直到发现了地名人名。如“王鲁镇吴家村一村民反映该镇供电所”“武汉一家大医院”“王子军”等。另外还有一些被识别的组织机构名称中夹杂着标点符号和文本标记等字符。如“:四川女排”“author:安理会”。有些识别结果糅合了这两种错误,如“title:阿曼领导人会见我新闻代表团”。

我们抽取2002年1月《人民日报》语料中的组织机构名称并进行了具体测试。当月10类文本共出现7939个不同组织机构名称,分词系统识别3957个,其中识别错误424个。召回率为44.50%,精确率达到89.30%,F-1值达到66.90%。而未召回词语频次过低或已与召回词语相同,可见召回规模小于实际规模,而内容基本一致。

未召回词语有两种情况:一是在文本中偶尔出现的低频组织机构名称;二是在其他上下文中被召回过的组织机构名称。但未召回的组织机构名称上下文特征和召回的组织机构名称上下文特征并无二异。由此可见,召回的组织机构名称基本上可以说明语料中的全部组织机构名称概况。对于基于大规模语料的组织机构名称考察研究而言,这样的结果已经完全可以满足我们的需求了。

一个切分正确的组织机构名称也会被标为其他的此类。如在实验中就发现,同一个组织机构名称先后被标记为j(简称略语)的情况。如:

/w多年/NUM 以来/f 包括/v 民进党/ORG 上台/v 后/f ,/w 民进/AORG 党/n 成员/n 以/p 适当/a 身份/n 来/v 大陆/n 访问者/n不乏其人/i

……/w 以便/d 广大/b 民进/j 党/n 成员/n 以及/c 台湾/LOC 民众/n 更/d 好/a 地/u 了解/v 大陆/n 方面/n……。/w——《人民日报》2002年2月24日《舍此别无他途》

同一文本中出现的“民进党”有不同的标注:“民进/AORG 党/n”“民进党/ORG”“民进/j 党/n”。

本书的组织机构名称识别结果提取一律只考虑标记为ORG、AORG的情况。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈