首页 理论教育 组织机构名称字长分布的优化措施

组织机构名称字长分布的优化措施

时间:2023-07-05 理论教育 版权反馈
【摘要】:如果组织机构名称中出现了较长的英文字母串,就会使字长统计的数值过大。其数量比紧随其后的字长为4、5的组织机构名称的总和还多。我们推断可能是由某些极高频的字长为8的组织机构名称导致的。如5字组织机构名称结构分析如下。第8章组织机构名称的中心词中将对此进行具体阐述。以上是累加频率前70%的组织机构名称字长考察情况。字长超过15而形式正确的组织机构名称的形式规则如下。

组织机构名称字长分布的优化措施

这里的字长指的是组织机构名称所使用的字的个数。如“国务院”字长为3。本节主要目的是研究组织机构名称的长度规律,并得到不同长度的组织机构名称的形式特征,以服务于组织机构名称识别及其他相关研究。

首先,我们取经过校对的组织机构名称词频表中累加频率前70%的组织机构名称为实验对象,共计15970个不同组织机构名称。在字长统计中,我们规定,对于缩写的字母词语,我们将每一个字母当作一个字。将完整的词、组织机构名称字号整体作为一个字。之所以这样处理,是因为这里的字母相当于一个原词,如:WBSA(中国总部)。而对于“辛辛那提pops乐团”中的“pops”、“google”公司中的“google”,我们则将其作为一个字。这样处理是因为单词作为字母构成的一个整体时,其中的字母本身并无意义。如果组织机构名称中出现了较长的英文字母串,就会使字长统计的数值过大。这些组织机构名称中共出现了17个带有字母或英文单词的组织机构名称,见表4-19。

表4-19 累加频率前70%组织机构名称中带字母、英文单词的组织机构名称一览

续表

表4-20为累加频率前70%组织机构名称的字长统计结果。

表4-20 累加频率前70%组织机构名称的字长分布统计表

续表

(1)组织机构名称的长度很不确定,字长在2~17的范围内均有分布。

(2)从种数来看,字长为6的组织机构名称最丰富,其次是字长为4、5的组织机构名称。这三种字长的组织机构名称种数与总组织机构名称种数之间的比值约为0.5447。

(3)从词总数来看,字长为3组织机构名称总数最多,与整个组织机构名称总数之间的比值为0.3302。其数量比紧随其后的字长为4、5的组织机构名称的总和还多。后两种组织机构名称总数与所考察的组织机构名称总数之间的比值为0.3160。这三种字长的组织机构名称与组织机构名称总数的比值为0.6462。

(4)从平均频次角度看,字长为3的组织机构名称平均频次最高,每个组织机构名称出现约1235.2822次。其次是字长为2的组织机构名称,平均每个组织机构名称出现1023.7404次。但字长为2、3的组织机构名称种数并不多,与总组织机构名称总数的比值仅为0.0592。

根据统计结果,我们得到一个结论:组织机构名称字长数值越大,频次越低。为论证这一结论,我们又做了一个实验,即将累加频率前70%的组织机构名称均分为4等分,对每一等分内的组织机构名称进行进一步的字长考察。

表4-21为累加频率前70%的组织机构名称分组字长统计。从统计结果可见,频次和字长为正相关

表4-21 累加频率前70%的组织机构名称分组字长统计

一般组织机构名称字长越长,频次越低,但也有例外。如字长为8的组织机构名称的频次低于字长为5的组织机构名称,比字长为6及以上的组织机构名称频次高不少。我们推断可能是由某些极高频的字长为8的组织机构名称导致的。经考察发现,“北京日报报业集团”在组织机构名称频次表中位列第三,其频次高达105527,因此提高了字长为8的组织机构名称的平均频次的比例。

下面我们针对累计频率前70%的组织结构名字,对2~4字长的组织机构名称的形式特征展开进一步考察分析。以下是累加频率前70%的组织机构名称字长考察情况。

(1)字长为2的组织机构名称:这类都是组织机构名称简称,如美军欧盟北大、北约。其中频次最低的组织机构名称是辽军,频次为17。(www.xing528.com)

(2)字长为3的组织机构名称:结构最多的是“2+1”式,如中国队、国务院、安理会、美联社等;少部分是“1+2”式,如党中央、阿政府、市中院。个别如麦当劳富士通,均为以字号代全称的简称形式。

(3)字长为4的组织机构名称:结构最多的是“2+2”式,如中国足协、中国银行中山大学等。少数为“3+1”式,如迈赫迪军。不过在考察范围内这种结构绝大多数都是以“队”为中心词的体育组织,如俄罗斯队、健力宝队等。少数“1+3”式结构,如市体育局、省公安厅,均为行政地名通名+机构名。

(4)更多字长的组织机构名称结构实际上是在上述基础上发展而来的。如5字组织机构名称结构分析如下。

①4+1=(2+2)+1:从结构上看,相当于三字长“2+1”结构、四字长“3+1”结构。如:北京日报社、克罗地亚队。

②2+3=2+(2+1):从结构上看,相当于四字长“1+3”结构。如:中央电视台、国家版权局。

③3+2=(2+1)+2:从结构上看,相当于三字长“1+2”、四字长“2+2”结构。如:北京市政协、酒仙桥医院。

由于在第5、6、8章将分别从结构规则、缩略规则和中心词角度对此进行探讨,这里不再详述字长-结构问题。

第8章组织机构名称的中心词中将对此进行具体阐述。

以上是累加频率前70%的组织机构名称字长考察情况。

下面我们进一步在组织机构名称总表中考察所有组织机构名称的字长分布。我们的设想是:如果继续考察低频组织机构名称,其长度范围应该还会继续扩大。考察结果是:语料中未发现字长大于20的组织机构名称。字长数值越大,识别错误率越高。字长超过15的组织机构名称除符合以下形式规则外,都是识别错误的结果。

字长超过15而形式正确的组织机构名称的形式规则如下。

(1)外文字符串作为中文字符串的注释,位于圆括号中,与中文字符串意义等同,且可音译、可意译。如宾夕法尼亚大学(University of Pennsylvania)沃顿商学院新加坡华联银行(Overseas Union Bank)资产管理公司。

(2)外文字符串作为中文字符串的注释,位于圆括号中,但具有网址的形式标志,即在组织机构名称中加入网址。如中国网(http://www.china.com.cn)人事部

(3)除此以外,组织机构名称为复合组织机构名称,其中出现阿拉伯数字串,表示公共服务、客户服务的电话号码、武装力量番号等,如山东福田重工95105501客户呼叫中心、广州市工商局12315消费者申诉举报中心。

(4)长组织机构名称基本为复合组织机构名称,即组织机构名称中嵌套组织机构名称形式。

(5)少部分单一组织机构名称字号较长,如北京世纪和平国际文化教育交流中心。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈