首页 理论教育 组织机构名称识别结果中的词性优化

组织机构名称识别结果中的词性优化

时间:2023-07-05 理论教育 版权反馈
【摘要】:但也有一个正确的组织机构名称被当作错误识别结果过滤掉的情况,这种过滤错误均出现在同形词上,且副词中包含基数词:铁道部十八局四处机械公司/ORG。根据识别的代词,我们过滤了13321种组织机构名称识别结果。由助词的句法功能可知,组织机构名称中不能出现助词。但根据考察,组织机构名称二次分词结果中的语气词一部分为错误的标记结果。

组织机构名称识别结果中的词性优化

“作为限定性定语中心词,组织机构名称中不能有助词、虚词,实词须为非谓词;不能出现区别性和描写性定语”(朱德熙,1982)。根据组织机构名称的词性统计结果中,我们初步认定识别结果中以下词性是禁用词性:标点符号副词、代词、介词、助词、语气词、代词性语素[4]、状态词。

1.标点符号

组织机构名称中若出现标点符号,只能出现书名号引号、圆括号和连接符号。如:《中文信息学报》编辑部、索尼(中国)有限公司、埃及开罗艾因·夏姆斯大学

其中最后一种“·”只出现于外文译名中,和外文译名作为整体进行识别,所以不会单独标为标点符号。而在考察中只发现了圆括号,未发现书名号和双引号。圆括号主要起注释作用。现对组织机构名称中出现的圆括号进行进一步分析,见表7-7。

表7-7 组织机构名称中的圆括号使用情况示例

根据禁用标点符号,我们可以过滤掉17778种错误的组织机构名称识别结果[5]。

2.虚词——副词[6]、副语素

识别结果中出现了各种各样的副词。

(1)范围副词:仅、就、最、通通。

(2)语气副词:才、却、竟。

(3)否定副词:没有、从未、勿。

(4)时间副词:刚刚、恰好、马上。

(5)情态副词:正在、一起。

(6)程度副词:很、尤其、更。

(7)处所副词:到处、四处。

(8)疑问副词:难道。

副词则是虚词的重要部分。根据副词,我们可以过滤掉20745种组织机构名称识别结果。错误识别结果如:四大银行资产规模仅次于日本银行/ORG、小朱马上交到家园工程部/ORG、煤灰堆得到处/ORG、德国宝马却认为锦江玩具公司/ORG。

但也有一个正确的组织机构名称被当作错误识别结果过滤掉的情况,这种过滤错误均出现在同形词上,且副词中包含基数词铁道部十八局四处机械公司/ORG。

3.代词、代词性语素

识别结果也出现了各种各样的代词。

(1)人称代词:她、吾、人家、自己。

(2)不定指代词:哪、什么、咋、怎么、某种、或。

(3)定指代词:此、这次、该局、这里。

(4)其他指别词:其中、之一、各市。

代词或代词性语素是对一个特定对象的指代,而组织机构名称本身是专指的名称,这种本质特征和代词是冲突的。根据识别的代词,我们过滤了13321种组织机构名称识别结果。如自己和生管部/ORG、怎么开业绩糟糕的年终会/ORG、各办事处/ORG、北京市民选择哪家快递公司/ORG。

4.虚词

(1)介词。

介词是虚词的一种,而且介词的句法功能一般是与名词一起构成介词短语。这种结构和组织机构名称结构是冲突的,因此组织机构名称中不可能出现介词。根据识别的介词,我们过滤掉了11029种组织机构名称识别结果。如:在北大国际关系学院/ORG、于2000年2月选择北京市公安局/ORG、为了规范约束商家五花八门的促销行/ORG、爱尔兰情侣从体育场/ORG、安徽省国资委根据省司法厅/ORG。

有些被过滤掉的介词是分词识别软件在二次分词中识别错误的结果。如:于都县博物馆/ORG、于洪区政府液化气站/ORG、于英凤是体育运动学校/ORG、20广东省从化温泉中国国际旅行社/ORG。

这里的“于”“从”用于地名、姓名,所以不是真正的介词。除此以外,其余的过滤结果都是识别错误的结果。可见,当一些虚词作为地名、人名中的不常见字时,往往引起分词识别错误,所以还需要加强对人名、地名的规则研究。如:当“于”后的一个字或两个字是人名常用字“是”,“于”为人名姓氏。

我国县名一般为两个字,一个字的县名可尽数收录。这种统计特征和词表可以辅助识别不常见字构成的地名。(www.xing528.com)

(2)助词。

助词是独立性最差的一类词,附着在其他成分后表示动作的情态以及词语之间的结构关系。所以助词包括动态助词和结构助词。前者如着、过、了,后者如的、地、得。语言学词类划分中,助词还包括语气助词,这里分词识别系统将语气词另归一类了。由助词的句法功能可知,组织机构名称中不能出现助词。根据识别的助词,我们可以过滤掉9839种组织机构名称。如:■122事故报警台成了咨询服务台/ORG、■合并之后的中国蓝田总公司/ORG、■外国车厂争着在中国设厂/ORG、title:爱立信从未想过撤出合资公司/ORG;但也有这样的组织机构名称:■韩国易买得超市/ORG、title:香港富得拍卖行/ORG、美的集团/ORG。

这里,助词作为字号的一部分,字号是语用层面的组织机构名称成分,所以在二次分词时被识别为字号所用词本身的词性。

5.语气词

组织机构名称中不可能出现语气词,如了、吧、呀、呢、啦等。但根据考察,组织机构名称二次分词结果中的语气词一部分为错误的标记结果。如:“了”都是助词,“吧”都是名词,“呢”都指“呢子”。另一部分,如“呀”都作为字号,“啦”或作为字号,或出现在“啦啦队”中。如:北京莎啦啦鲜花礼品有限公司/ORG、宾夕法尼亚州啦啦队培训中心/ORG。

可见分词识别软件对语气词的识别精度较差。对于语气词的识别,可应用的规则如下。

(1)当“了”“呀”“呢”“啦”等出现在标点符号前,则为语气词。

(2)当“吧”出现在标点符号前,且出现在“网”“酒”等名词后时,“网吧、酒吧”为复合名词。否则“吧”单独作为语气词。

(3)当“了”出现在句中时,为助词。

除了以上词性一般不能出现在组织机构名称中外,还有一些词性中的极少部分词语可作为组织机构名称中的某一成分,其余词语成分均为禁用词,我们将这些可作为组织机构名称成分的词语单独提出来,而对于整个词性,还是称其为禁用词性。

1.连词

连词除与、和、及有时可作为组织机构名称内容说明成分外,其余均为禁用词,如以及、及其、还是、尽管、乃至等。据此,可过滤掉2117个错误的识别结果。如:尽管富士公司/ORG、爱多数码还是爱多实业/ORG、阿里斯特以及竞赛部/ORG。

当识别结果中出现与、和、及连词时,一部分是错误识别结果,一部分是正确识别结果。错误识别结果如:emi唱片与内地京文唱片公司/ORG、BostonNova大学计算机与信息技术学院/ORG、今麦郎和农大/ORG。正确识别结果如:国家发展和改革委员会/ORG、城大物理及材料科学系/ORG、消防处、水警及卫生署/ORG。

判断这三个词是否是组织机构名称的一部分,规则是:①右边界出现组织机构名称中心词;②连词和中心词之间有至少一个词;③连词连接的两个成分一般是两个名词或两个动词;④连词前后任意成分不能出现组织机构名称。

之所以提出这样的规则,是因为当出现连词时,组织机构名称一定不是简称,而是全称,所以一定要满足前两个条件。其次,组织机构名称中可用的这几个连词主要用于连接两个组织机构名称中部成分,即组织的目标、对象或内容等。出现在组织机构名称中的连词连接的应该是词性相同的词,且一般是名词、动词。当连词的一端出现组织机构名称时,则连词必将出现在组织机构名称外,不可能作为组织机构名称的一部分。

根据语料考察,组织机构名称中的“与”、“和”、“及”一般用于教学、科研、行政、团体等专业性较强的组织机构名称中,用于准确说明组织机构名称的内容,否则也无须使用连词。如:全国人大环境与资源保护委员会、市劳动和社会保障局、中国房地产及住宅研究会。

2.时间词、时间语素

时间词和时间语素相当于时间名词。组织机构名称中可能出现时间名词的规则如下。

①只能出现汉字表示的时间词。2004年、8月、5日等均为禁用词语形式。

②组织机构名称中一般能出现非谓语时间词,其词形为二字词:×代、×年、×天,表示时代、年代、季节、节日和年龄,如现代、周代、春天、童年、老年、青年等。

③当时间词作为组织机构名称成分时,一般只作为字号。如:北京十月文艺出版社、北京现代汽车有限公司、深圳今日科技发展公司、广州市新年鸿事业有限公司、北京金色童年文化体育公司。

④除此以外,只可能作为事件名词中的部分。如:(北京新年音乐会)组委会。

3.状态词

状态词是形容词的一种,形容事物的某种状态。组织机构名称中不应出现描述性、区别性词语,因此状态词一般不应作为组织机构名称。正确识别结果中的状态词都出现在字号和地名中。如:安然公司、成都市青白江区、鼎盛塑料有限公司、宁夏大学小小鸟助残志愿社、北京雪亮眼镜有限公司、北京麻辣诱惑酒楼有限公司。

根据对组织机构名称禁用词性的分析,如果在组织机构名称识别结果中引入禁用词性,能自动过滤85475种组织机构名称,见表7-8。

表7-8 应用禁用词性自动识别的错误组织机构名称统计

续表

注:过滤的错误组织机构名称种数占组织机构名识别结果的13.92%。

总体上看,被错误过滤的组织机构名称识别结果占极少数,且都是当禁用词性出现在字号、人名、地名中时。今后应进一步提高人名、地名的识别精度。特别是当人名、地名中的一个字单独可作为虚词时,如何提高识别精度,还需要进一步研究。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈