首页 理论教育 组织机构名称识别结果的概览

组织机构名称识别结果的概览

时间:2023-07-05 理论教育 版权反馈
【摘要】:组织机构名称是重要的专有名词。研究组织机构名称,其重要方面就是对构成这个组织机构名称的词语材料及其约束条件进行研究。后面将具体分析组织机构名称禁用成分,并在结构模式中考察组织机构名称各个部分的用词情况。而组织机构名称中使用的地名种类最多。共有16925种地名出现在组织机构名称里,占组织机构名称用词语种数的24.23%。表7-6前60万种组织机构名称识别结果用词统计续表

组织机构名称识别结果的概览

苏联辞书学家斯莫利菠卡娅提出,“每一个专有名词都以某个词(常常是普通名词)作为基础,因为人们为了指称人或事物,就要使用自己语言中的一个词。揭示这个词是研究专有名词的一个重要方面,尤其是在这个普通名词已不再能够自由使用的条件下更是如此。”(斯莫利菠卡娅,1991)这段话给予我们这样的启示:①专有名词是由现成材料——普通词语构成的;②研究专有名词,必须研究这些普通词语;③研究专名用词的主要任务是,“揭示”专有名词所由构成的普通词语是什么;揭示这些普通词语构成专有名词时的约束条件。

语言学角度看,以上启示对组织机构名称的研究同样适用。组织机构名称是重要的专有名词。组织机构名称作为一个整体来表达指称意义,而形成组织机构名称的材料又是已经形成的专名、普通词语和语素、符号等。研究组织机构名称,其重要方面就是对构成这个组织机构名称的词语材料及其约束条件进行研究。

组织机构名称用词的研究,对组织机构名称识别也是十分必要的。因为组织机构名称识别要建立在分词标记的基础上,哪些词语以什么序列出现,才可以捆绑成一个分词单位并给予一个ORG/AORG的标记,前提就是对组织机构名称所构成的词语有所了解。接下来,我们将基于组织机构名称资源库中的组织机构名称用词总表,对组织机构名称的用词进行统计和研究。由于组织机构名称的用词受领域、中心词、结构的限制,这一节我们只进行概貌性质的研究,了解组织机构名称的用词概况。后面将具体分析组织机构名称禁用成分,并在结构模式中考察组织机构名称各个部分的用词情况。

下面我们对组织机构名称表中前60万种[2]组织机构名称识别结果进行了二次分词,以了解组织机构名称的用词情况。这60万种组织机构名称共计出现3939035次。二次分词结果显示识别结果中有36种词性标记、70110个不同的词语单位,在60万种识别结果中累计出现了2352589次,平均一个词出现在33.56种识别结果中(见表7-6)。从表7-6可知,无论从词种数还是词总数看,地名、名词两种词数之和约占组织机构名称用词的一半。组织机构名称中,名词出现最频繁,有831396个词被标注成名词,占了组织机构名称用词语总数的35.36%。而组织机构名称中使用的地名种类最多。共有16925种地名出现在组织机构名称里,占组织机构名称用词语种数的24.23%。表7-6是从组织机构名称用词总表得到的词性分布情况。(www.xing528.com)

表7-6 前60万种组织机构名称识别结果用词统计

续表

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈