首页 理论教育 ASCII码表和Unicode编码介绍

ASCII码表和Unicode编码介绍

时间:2023-11-16 理论教育 版权反馈
【摘要】:表C-1给出了ASCII码表的十进制形式以及他们所对应的字符。通过研究ASCII码我们发现,这个表里涉及的字符较少。Unicode编码是一种被国际上广泛采用和认可的并且能够包含世界上绝大多数国家语言文字的全球字符编码集。它采用两个字节,即16位二进制进行编码,从0x0000-----0xFFFF,共包括216 个编码,由于字符众多,表C-3以符号分类的形式给出了Unicode码集。

ASCII码表和Unicode编码介绍

Python语言中处理的数据分为两种:数值型数据和字符。所有的数据在计算机内部都是以二进制的形式来存储的(这是由计算机的硬件系统来决定的),也就是我们所说的由0和1两种代码组成的形式。对于数值型数据因为他们可以直接转换成二进制形式,所以用二进制的某种形式来存储就可以,但是对于字符无法进行这样的转化,我们需要给它们进行统一编码,也就是将每个字符对应一个数值型数据,这样将所有字符进行统一规划,形成的就是编码。

关于字符编码计算机领域曾经出现过很多种编码形式,最常用有ASCII编码和Unicode编码

ASCII编码也叫美国标准信息交换代码,是1967年制定的,用一个字节的低7位来编码(默认最高位为0),此编码中共包含128个字符 (对应键盘上的可显示字符和其他字符),其中包括52个大小写英文字母、0到9十个数字字符、标点符号、专用符号以及控制符(回车、换行、响铃等)。表C-1给出了ASCII码表十进制形式以及他们所对应的字符。

表C-1 ASCII码表

(续表)

表C-2为ASCII码表中各通用控制符的意义和动作。

表C-2 ASCII码表中各通用控制符的意义和动作

(续表)

比如:小写字母'a'的十进制ASCII码值为97,那么在内存中存储的就是将数97转换成的二进制形式1100001,有7位,另最高位为0,则01100001就是它的二进制ASCII码值。(www.xing528.com)

通过研究ASCII码我们发现,这个表里涉及的字符较少。我们运用的字符除了键盘上的字符之外还有许多别的字符,比如我们的汉字,还有代表各个国家语言的符号等等,这些字符的数量非常惊人。为了解决这些问题,同时也是为了解决世界各国交流之间的问题,全世界的科学家从全球化视野角度考虑,设计研究出了一种新的编码方式,就是Unicode编码。我们Python语言中采用的就是这种编码。

Unicode编码是一种被国际上广泛采用和认可的并且能够包含世界上绝大多数国家语言文字的全球字符编码集。它采用两个字节,即16位二进制进行编码,从0x0000-----0xFFFF,共包括216 (65536)个编码,由于字符众多,表C-3以符号分类的形式给出了Unicode码集。

表C-3 Unicode码表

(续表)

(续表)

(续表)

(续表)

(续表)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈