首页 理论教育 数据编码-计算机公共基础教程

数据编码-计算机公共基础教程

时间:2023-11-28 理论教育 版权反馈
【摘要】:目前国内计算机普遍采用的标准汉字交换码是1980年我国根据有关国际标准规定的《信息交换用汉字编码字符集——基本集》,即GB2312—80,简称国标码。

数据编码-计算机公共基础教程

计算机中的数字和字符都是用二进制表示的,计算机只能识别二进制数码信息,而人们已习惯于使用十进制数及其他文字符号,那么输入、输出时,数据就要进行相应的转换处理。为此,首先要对文字和符号进行数字化变换,即用二进制编码来表示文字和符号。字符编码(CharacterCode)就是用二进制编码来表示字母、数字以及专门符号。

1.BCD码

十进制数在计算机中要用二进制编码来表示,由于1位十进制数所用的符号只有0~9十个数字,可以从具有16种不同组合的4位二进制数编码中取1种表示1位十进制数,称之为二进制编码的十进制数。常用的编码是BCD(Binary Coded Decimal)码。在表1-3中列出的是BCD编码表

表1-3 BDC编码表

例:(0100 1000 0010.0110 0001)BCD。

它所对应的十进制数是:482.61。

2.ASCII码

计算机中用二进制表示字母、数字、符号及控制符号,目前主要用的是ASCII码(American Standard Code for Information Interchange),即美国标准信息交换代码。ASCII码已被国际标准化组织(ISO)定为国际标准。

ASCII码有7位ASCII码和8位ASCII码两种。

7位ASCII码称为基本ASCII码,是国际通用的。即7位二进制字符编码,可表示128种字符。其中包括34种控制字符、52个英文大小写字母、10个阿拉伯数字、32个字符和运算符(表)。用一个字节(8位二进制)表示7位ASCII码时,最高位为0,它的范围为00000000B—01111111B。

8位ASCII码称为扩充ASCII码,它是8位二进制字符编码,也能表示128种字符,但大多数国家将它作为自己国家语言的字符代码。

3.汉字编码

ASCII码只能表示英文字母和数字等符号,要用计算机处理汉字,还必须对汉字进行编码处理。与西文字符比较,汉字数量大,字形复杂,同音字多,所以汉字在计算机内部的存储、传输、交换、输入、输出过程中所使用的编码是不同的。汉字编码有以下几种:

(1)汉字外部码

汉字外部码又称输入码,由键盘输入汉字时主要是输入汉字的外码,每个汉字对应一个外部码。汉字输入方法不同,同一汉字的外码可能不同,用户可根据自己的需要选择不同的输入方法。目前,使用最为普遍的汉字输入方法是拼音码和五笔字型码。(www.xing528.com)

(2)汉字机内码

汉字机内码是计算机内部存储和加工汉字时所用的代码。计算机处理汉字,实际上是处理汉字机内码。不管用何种汉字输入码将汉字输入计算机,为了存储和处理方便,都需要将各种输入码转换成长度一致的汉字机内码。一般用两个字节表示一个汉字的内码。

(3)汉字交换码

汉字信息在传递交换中必须规定统一的编码才不会造成混乱。目前国内计算机普遍采用的标准汉字交换码是1980年我国根据有关国际标准规定的《信息交换用汉字编码字符集——基本集》,即GB2312—80,简称国标码。

国标码基本集中收录了汉字和图像符号共7445个,分为两级汉字。其中一级汉字3755个,属于常用汉字,按汉字拼音字母顺序排序;二级汉字3008个,属于非常用汉字,按部首顺序排序;另外还收录了682个图形符号

国标码采用两个字节表示一个汉字,每个字节只使用了低7位,这样使得汉字与英文完全兼容。但当英文字符与汉字字符混合存储时,容易发生冲突,所以人们把国标码的两个字节高位置1,作为汉字的内码使用。

为解决汉字收字不足、简繁同时共存、简化代码体系间转换等汉字信息交换的瓶颈问题,国际标准化组织ISO制定了国际统一的双字节字符集标准《通用多八位编码字符集(UCS)》(1SO10646.1),我国采用此标准颁布了国家标准GBl3000.1。这个字符集有65536个码位的空间,定义了几乎所有国家或地区的语言文字和符号。其中包含了20902个来自中国(包括台湾地区)、日本韩国的汉字,称为CJK汉字,它是GB2312-80、GBl2345-90、BIG5等字符集的超集。

(4)汉字输出码

又称汉字字形码或汉字发生器编码。汉字输出码的作用是输出汉字,但汉字机内码不能直接作为每个汉字输出的字形信息,还需根据汉字内码在字形库中检索出相应汉字的字形信息后,才能由输出设备输出。对汉字字形经过点阵数字化后的一串二进制数称为汉字输出码。

下面介绍与汉字输出码有关的两个基本概念。

1)汉字字形点阵:汉字的字形用点阵表示,即汉字字模。点阵中的点对应存储器中的1位,对于16×16点阵的汉字,共有256个点,即256位,1表示黑点,0表示白点。由于计算机中8个二进制位作为一个字节,所以16×16点阵汉字需要2×16= 32个字节表示一个汉字的点阵数字信息(字模)。同样,24×24点阵汉字需要3×24= 72个字节来表示一个汉字;32×32点阵汉字需要4×32= 128个字节表示一个汉字。点阵数越大,分辨率越高,字形越美观,但占用的存储空间越多。如图1.18所示的“春”字点阵外形。

图1.18 汉字点阵示意图

2)汉字字库:汉字字形数字化后,以二进制文件形式存储在存储器中,构成汉字字模库。汉字字模库也称汉字字形库,简称汉字字库。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈