首页 理论教育 组织机构名称用字的研究-优化方案

组织机构名称用字的研究-优化方案

时间:2023-07-05 理论教育 版权反馈
【摘要】:表7-3组织机构名称识别结果中累加频率前50%的组织机构名称用字续表由表7-3可得出以下结论。组织机构名称的字符使用限制在较小的范围内,且显示出极大的频次差距。因此可以利用以上数据计算各种字符构成组织机构名称的置信率,服务于组织机构名称识别。+Fon)等同于在组织机构名称原始信息总表中统计得到的一个字的总频次。表7-5组织机构名称简称用字分级字用指数10000以上:美4[1]、理1。

组织机构名称用字的研究-优化方案

下面我们进一步考察字符统计中的通用汉字。表7-2是组织机构名称识别的4884个汉字使用情况。

表7-2 组织机构名称识别的4884个汉字使用情况

组织机构名称识别结果中累加频率前50%的组织机构名称用字见表7-3。

表7-3 组织机构名称识别结果中累加频率前50%的组织机构名称用字

续表

由表7-3可得出以下结论。

(1)组织机构名称的字符使用限制在较小的范围内,且显示出极大的频次差距。可见,大部分字只在少数组织机构名称中使用,而大部分组织机构名称所使用的字相当集中。因此可以利用以上数据计算各种字符构成组织机构名称的置信率,服务于组织机构名称识别。

(2)字的常用性不仅取决于所构词的数量,还取决于所构词的常用性。如京、美、日主要指北京、美国、日本(日报),所构的词数量很少,但其频次相当高,主要是因为这些字符所在的组织机构名称中频次很高。因此计算字符构成组织机构名称的置信度时,需要同时考虑到一个字构成组织机构名称的数量和所构成的组织机构名称的常用性。这种综合指数即字构组织机构名称的常用度,我们不妨简称为字用指数。这里使用的字用指数的计算公式是:

I=(Fo1+Fo2+Fo3+……+Fon)/n

式中:I=字用指数;

O1、O2、O3……On:一个字构成的所有组织机构名称;

F=频次;

Fo1、Fo2、Fo3、……Fon:一个字构成的每个组织机构名称的频次;

(Fo1+Fo2+Fo3+……+Fon)等同于在组织机构名称原始信息总表中统计得到的一个字的总频次。

我们将这种字用指数类似于置信率的方法标注为AORG的278个组织机构名称简称中进行验证和考察(见表7-4)。这些简称使用的字总数为676,字种数为212。此数据为总表的统计结果,由于总表数据较多,表7-4并未全部列出。

表7-4 组织机构名称简称用字统计举例(www.xing528.com)

其中构成组织机构名称简称最多的10个字为:中(37)、大(24)、航(23)、军(19)、北(17)、共(14)、部(14)、行(12)、铁(12)、盟(11)。这些字符构成组织机构名称简称的情况差异也很大。有100个字只出现在一个组织机构名称简称中,而大部分组织机构名称简称由少数字构成。如,“国”字共构成7个组织机构名称简称,它们在组织机构名称简称总表中共出现了4732次,则“国”字的字用指数为676。尽管“中”构成的组织机构名称简称的数量最多,但所构组织机构名称简称总的频次不大,所以“中”字的字用指数少于“国”,为622.24。

我们按照字用指数对组织机构名称简称用字进行分级,见表7-5。

表7-5 组织机构名称简称用字分级

字用指数10000以上:美4[1]、理1。

字用指数2000~9999:视1、以1、清1、约2、欧9、盟11、进1、央5、储1、军19、足1、安5。

字用指数1000~1999:会6、建2、行12、证3、北17、宣2、英2、外1、世2、纪1、法4、汽7、联8。

字用指数500~999:亚3、华7、科3、所4、新5、上9、农2、交4、旅3、深2、民6、一7、国7、德1、共14、中37、经2、贸5、院6、社8、大24。

字用指数200~499:远3、南5、通4、工7、组3、部14、全1、俄5、航23、炮1、复1、旦1、检2、台5、阿3、海7、东5、信2、影5、青3、基2、师4、方2、面2、高5、家1、苏3、参1、啤1、革2。

字用指数100~199:卫1、委10、体2、总6、浙1、日3、织2、合1、巴2、解2、越1铝1、装1、保3、路1、艺1、厦1、四3、兖1、非2。

字用指数50~99:教3、天2、办5、电3、武1、队1、二6、协5、红7、印1、政4、莫1、炼1、唱1、西6、厂2、后2、顾1、管1、鲁2、船1、编1、矿2、太4、吉2、泰1。

字用指数10~49:黄1、图1、马2、长3、哈3、欣1、广3、蒙1、山1、化6、埃2、飞3、技2、药3、棉1、京1、石3、纺1、局9、罗1、空3、残1、菲2、煤1、兰1、成1、乌2、昆3、内1、风1、麦1、丹1、澳3、柳2、金1、客1、捷1、轻3、琴1、排1、控1、珠1、锦1、八1、银1、铁12、连1。

字用指数1~9:岭1、地1、兴1、小1、港3、团3、沈4、尼1、关1、锅1、野1、三5、十2、机1、永1、医5、克1、洛1、钢1、奥1、怀1、铜1、湘1、研1、侨1、塞1、百1、滑1、古1、郑1、重1、牡1、散1、购1、公1、无1、核1、杭1、轧1、质1、伊1。

从组织机构名称(包括组织机构名称简称)的用字可见,组织机构名称的用字一般都是常用字。机器翻译界的学者曾提出,“为了有利于切分正确,专有名词应该尽可能回避使用有独立意义的常用字及构词能力较强的常用字,尽量选用一些构词能力不太活跃或使用频率较低的字,以利于体现专有之意。”(梁焰,2000)“有独立意义的常用字”即常用的单音节词,“构词能力较强的常用字”即常用语素。总体上来说,两者都指字用指数高的字。学者给出了若干例子,如“他是搞混沌的”。由于“混”的字用度很高,可以构成动词“搞混”,所以会带来歧义。因此将“混沌学”中的“混”改为字用度较低的“浑”更好。再如,全国科学技术名词审定委员会将Internet的中文名字正式确定为“因特网”,而这里的“因”字用度很高,不如当初选用“莱茵河”的“茵”字更佳。

机器翻译界的学者是站在语言信息处理的角度提出了一种理想化的专名命名的字词选择方式,是为了解决机器翻译中遇到的歧义问题。但显然这只能是一种理想。专名的专有不等于专名用字的专有。靠选择生僻字的做法回避切分歧义是不能解决根本问题的,反而会带来更大的问题。

但学者们的建议也提示我们,专名中常用字词的使用确实给语言信息处理带来了很多困难。既然我们不可能回避这些常用字词,那么对于语言学研究者,我们更有责任来系统研究专名的用字。对于组织机构名称来说,更是如此。由于组织机构名称的结构单位是词,下面我们进一步对组织机构名称用词进行考察。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈