首页 理论教育 优化组织机构名称识别结果中的字符串

优化组织机构名称识别结果中的字符串

时间:2023-07-05 理论教育 版权反馈
【摘要】:显然这是组织机构名称中的禁用成分。经考察,在识别结果中出现的成语几乎都为禁用词语。而数量结构是引起组织机构名称识别错误的重要因素。组织机构名称中的序数词一般出现在地名、字号、组织机构名称后。组织机构名称中的基数词都是由序数词简化而来的。组织机构名称简化时,受节律限制,基数词后的中心词绝大多数都会简化为单音节中心词、单音节简称中心词。而客户服务服务、救助、出警组织机构名称中的号码也在五位数以下。

优化组织机构名称识别结果中的字符串

组织机构名称识别结果中的字符串如下。

1.网址、电子信箱

识别结果中有34种组织机构名称含有网址,有6种组织机构名称含有电子信箱地址。如:jubao@mail.21dnn.com北京市文化市场行政执法总队、www.testdaf.com.cn剑桥大学、gusel@wintergaerten.net日本公司。

显然这是组织机构名称中的禁用成分。有时,这些成分是在组织机构名称中以圆括号的形式作为组织机构名称的注释补充。如圆括号在完整的组织机构名称后,情况就比较简单,直接将注释成分排除在组织机构名称外即可。如:北大青鸟培训中心(www.jbtraining.com.cn)。但如果注释成分在组织机构名称中部,如澳际出国留学(www.globeedu.com)美国部,那么组织机构名称识别时就应该将注释部分和组织机构名称整体标注。

2.成语

识别结果中出现的成语如下。

(1)动词性成语:微服私访、招摇撞骗、将计就计、一鼓作气、挺身而出等。

(2)名词性成语:青山绿水、镜花水月、文房四宝、书香门第等。

(3)形容词性成语:战战兢兢、至高无上、德高望重、怒气冲冲等。

(4)状语性成语:迫不得已、此时此刻等。

(5)主谓式成语:无家可归、手忙脚乱、事出有因、喜从天降等。

经考察,在识别结果中出现的成语几乎都为禁用词语。组织机构名称中不应出现成语。个别成语可作为组织机构名称字号,如中华见义勇为基金会、美国新派花花公子集团有限公司、北京万家灯火酒楼有限公司。

根据成语可以过滤掉377种错误的组织机构名称识别结果。

3.固定短语

固定短语即习惯用语。从识别结果看,它分为两类。

(1)三字俗语,一般作为字号。如心连心艺术团、满堂红中国置业有限公司。

(2)双词四字短语。一般位于组织机构名称中间作为组织机构名称的说明成分。它又分为名词短语、动词短语,如出租汽车、社会科学、特快专递、计划生育。

以下类别的固定短语为禁用固定短语。

(1)双词四字固定短语中非名词、动词性固定短语。如随时随地、毫无道理。

(2)口语化的俗语。如过日子、可不、拉下马、没关系、碰运气、说不清。

(3)负面色彩的俗语。如几经周折、互不相让、杀身之祸、下落不明。

经过一一排查,最后确定了165个固定短语为禁用词。

4.数量结构

根据组织机构名称专指性的本质特征,组织机构名称中不可能出现数词+量词的结构。而数量结构是引起组织机构名称识别错误的重要因素。识别结果中的数量结构如连胜三局、珠江新城几处废品收购站、中情局第一个特工培训学校。但数量结构在以下情况中不是禁用字符串。

(1)量词为“届”的数量结构。如江苏省十届人大常委会。“届”是表示时间的量词。这类组织机构名称由事件名词发展而来。

(2)数量结构作为字号。如北京三元食品股份有限公司、北京万通实业股份有限公司。(www.xing528.com)

根据数量结构,我们可以过滤掉11772种错误的组织机构名称识别结果。

5.数字表达式

目前资源库中出现的数字表达式从字符形式分,包括纯阿拉伯数字表达式、阿拉伯数字与拉丁字母混合表达式、汉字与阿拉伯数字混合表达式、纯汉字数字表达式。

(1)纯阿拉伯数字表达式。

根据资源库识别结果,纯阿拉伯数字表达式具体又细分如下类型。

①意义数字串,包括电话号码、邮政编码、牌号。

②各种数值,如2005.3.19、9:15、98%、0.3247、$30.00、2∶3、29℃等,表示日期、时间、分数、小数、货币、比值、温度等。

(2)阿拉伯数字与拉丁字母混合表达式,如:3S、3g、220 kV、FM103.93、a6、gsm900/1900等,表示频率、型号、容量等。

(3)汉字与阿拉伯数字混合表达式,如2万、5亿、2010年等。

(4)纯汉字数字表达式。此类表达式除以下几种情况外都是禁用字符串。

①序数词,如第二十二、第三。格式:“第”+中文数字+(内容说明成分)+中心词。

组织机构名称中的序数词一般出现在地名、字号、组织机构名称后。此时,按照数词大小,组织机构名称遵循时间或空间的顺序,构成一个开放或封闭的序列。如一师、二师、三师……,一支部、二支部、三支部……,一中、二中、三中……。该序列上的各个成员之间严格按照产生的时间或空间的次序排列,有固定的位置,前后不能互换,不能随意变换名称。名词前的数词在形式上突显了这种[+顺序]的语义特征。如“北医三院”表示北医的第三附属医院。“中建一局”表示中建的第一工程局。表明一个组织是某地某组织中的序号。一般多用于学校、医院、部队、企业等组织机构名称。如北京大学第三医院、埃及第三集团军、北京市第三十一中学安达第三事业部、包头市第三电厂、中共广东省第九次代表大会。

序号也可能出现在事件类名词中,如北京第二十九届奥运会组织委员会。

基数词,如一、二十四。结构:基数词+中心词。

组织机构名称中的基数词都是由序数词简化而来的。因此基数词+中心词的情况只出现在组织机构名称简称中。组织机构名称简化时,受节律限制,基数词后的中心词绝大多数都会简化为单音节中心词、单音节简称中心词。少数中心词无法缩略为单字中心词,则缩略为双字中心词。如:北京医科大学附属第三医院——北医三院、武汉市第四中学——武汉四中、中国建设第三工程局——(中建)三局、北京市市政一建设工程有限责任公司——北京市政一公司。

当基数词后的词不属于以上任何一种情况时,都是错误的组织机构名称。如北京一证券公司。

③意义数字串。如武装力量的番号、代号,与电话号码相关客户服务、救助、出警组织。如八路军一二九师、95599客户服务中心、北京999急救中心、110报警服务台。注意,新中国成立后的部队代号均为四位数或五位数。而客户服务服务、救助、出警组织机构名称中的号码也在五位数以下。

组织机构名称中心词前的数词前一般出现地名、组织机构名称,数字表达式相当于字号或字号的一部分,因而也不存在“人名+序数词”的结构形式。如三九集团、九州音像公司、三星公司八佰伴国际集团、八一电影制片厂、北京八大处公园。

除以上三种情况外,汉字形式的数字表达式都是禁用词。

①纯阿拉伯数字表达式的汉字转写形式。如捌捌陆陆、一二九、八·一八等。

②数量单位和数量短语。如万、双、一些、几、许多、众多、大量、仨、数亿、百万等。

根据禁用的数字表达式,我们可以过滤掉32118种错误的组织机构名称识别结果。

根据对组织机构名称禁用字符串的分析,如果在组织机构名称识别结果中引入禁用字符串这一资源,能自动过滤44307种组织机构名称,见表7-9。

表7-9 应用禁用字符串识别的错误组织机构名称统计

注:识别错误组织机构名称过滤种数占组织机构名识别结果的7.2%。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈