电脑上怎么样写编号格式(全网最通俗易懂的编码规则介绍)
这篇教程会帮你梳理清楚各种编码规则是怎么来的,让你对计算机的编码有个全方位认知。
我们常用的编码大概有这么几种,ASCII,GBK,GB2312,UTF8,UTF16,UTF32
ASCII
计算机问世开始,大家都用的ascii编码格式,定义为8个字节,且首字节恒定为0,因此最多可以表示128种字符
GB2312
ascii虽然可以很好地表示英文,(毕竟英文一共只有26个字母),但是对于中国用户来说,ascii编码方式肯定是无法支持所有汉字的,因此中国政府推出另一套编码规范,由中国国家标准总局1980年发布,1981年5月1日开始使用。
GB2312规定对收录的每个字符采用两个字节表示,第一个字节为“高字节”,对应94个区;第二个字节为“低字节”,对应94个位置。所以它的区位码范围是:0101-9494。区号和位号分别加上0xA0就是GB2312编码(因为限定最大区位码是9494,因此不会造成区码位加上0xA0之后产生了问题)。例如最后一个码位是9494,区号和位号分别转换成十六进制是5E5E,0x5E+0xA0=0xFE,所以该码位的GB2312编码是FEFE。
GB2312编码范围:A1A1-FEFE,其中汉字的编码范围为B0A1-F7FE,第一字节0xB0-0xF7(对应区号:16-87),第二个字节0xA1-0xFE(对应位号:01-94)
从另一个角度理解中文编码为:一个字节编码如果小于等于127,那么它的含义和ascii编码一样,但是两个大于127的字节码拼接在一起的时候,可以表示某个汉字。前面的一个字节(称之为高字节)从0xA1用到0xF7,后面一个字节(低字节)从0xA1到0xFE,这样我们就可以组合出大约7000多个简体汉字了。在这些编码里,还把数学符号、罗马希腊的字母、日文的假名们都编进去了,连在ASCII里本来就有的数字、标点、字母都统统重新编了两个字节长的编码,这就是常说的"全角"字符,而原来在127号以下的那些就叫"半角"字符了。
GBK
由于GB2312-80只收录6763个汉字,有不少汉字,如部分在GB2312-80推出以后才简化的汉字(如"啰"),部分人名用字,台湾及香港使用的繁体字,日语及朝鲜语汉字等,并未有收录在内。于是厂商微软利用GB2312-80未使用的编码空间,收录GB13000.1-93全部字符制定了GBK编码。根据微软资料,GBK是对GB2312-80的扩展,也就是CP936字码表(CodePage936)的扩展(之前CP936和GB2312-80一模一样),最早实现于Windows95简体中文版。虽然GBK收录GB13000.1-93的全部字符,但编码方式并不相同。GBK自身并非国家标准,只是曾由国家技术监督局标准化司、电子工业部科技与质量监督司公布为"技术规范指导性文件"。原始GB13000一直未被业界采用,后续国家标准GB18030技术上兼容GBK而非GB13000。
GB18030
GB18030,全称:国家标准GB18030-2005《信息技术中文编码字符集》,是中华人民共和国现时最新的内码字集,是GB18030-2000《信息技术信息交换用汉字编码字符集基本资料的扩充》的修订版。与GB2312-1980完全兼容,与GBK基本兼容,支持GB13000及Unicode的全部统一汉字,共收录汉字70244个。
Unicode
从上面可以看出,不同的国家都在尝试制定自己的编码规范,那么这就会增加跨国沟通的成本。因此unicode的主要思想是可以给世界上所有的字符,都定义一个唯一标识,比如,U+0639表示阿拉伯字母Ain,U+0041表示英语的大写字母A,U+4E25表示汉字严。具体的符号对应表,可以查询unicode.org,或者专门的汉字对应表。
可以理解Unicode是一个思路,但是却不够实用。因为当我们将一篇文章转换成unicode编码之后,会返现不可读。原因在于有些字符用一个字节表示,有些字符用两个字节表示,有的甚至更多,我们永远无法知道,对于一个字节来说,它表示的是一个独立字符还是某个字符的组成部分。
因为unicode最大编码是4个字节,过去为了使用unicode编码,只能在小于四字节编码的符号之前,用0补齐,凑成四字节,但是存储开销也随之增大不少。
UTF8(Unicode编码的一种实现)
UTF8的出现很好地解决了unicode中间编码不可读的问题,定义了两条规则如下:
对于单字节的符号:字节的第一位设为0,后面7位为这个符号的Unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的;对于n字节的符号(n>1):第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的Unicode码。
其他实现方式还包括UTF-16(字符用两个字节或四个字节表示)和UTF-32(字符用四个字节表示),不过在互联网上基本不用。
这里有些有趣的规则值得我们注意:
字节开头为0的,一定表示ascii编码字节开头是10的,一定是某个字符的组成部分字节开头是110的(范围:0xC0~0xDF),一定代表了双字节编码的开头,后面一定是一个10开头的字节字节开头是1110的(范围:0xE0~0xEF),一定是代表了三字节编码的开头,后面一定是两个10开头的字节
…
在这么一套规则下,计算器可以很容易知道每个字节代表什么含义,是几个字符的编码,应该如何将字节组合编码。