计算机编码全解析（中）

4.mbcs、dbcs前面说的ascii，eascii，iso-8859中的每个字符使用的是8-bits表示的，所以称为“ 单字节字符集 ”（single-byte character set，简称sbcs）。
但是到了亚洲，如中，日，韩等国家每个文字就是一个字符，对于单字节的字符集来，远远放不下了，于是亚洲国家制定了自己的字符集“多字节字符集” （multi-bytes character sets，简称mbcs）
windows 系统中，本地字符集就是mbcs，不过由于大部分字符是2字节的，所以又称为“双字节字符集”（double-bytes character sets，简称dbcs），所以有的时候看到mbcs、dbcs，都是一回事。 mbcs是完全兼容标准ascii码的。
5.gb2312、gbk、当计算机被引入中国后，相关部门设计了gb系列规范（gb为国家的拼音缩写）。按照gb系列编码方案，在一段文本中，如果一个字节是0～127，那么这个字节的含义与ascii编码相同，否则，这个字节和下一个字节共同组成汉字(或是gb编码定义的其他字符)。因此，gb系列编码方案向下完全直接兼容ascii编码方案。也就是说，如果当前文本中使用的字符全是ascii中的字符，则其gb编码和ascii编码是完成一样的。
gb2312是最早的gb编码格式，收入了不足一万个汉字，基本能满足日常需求，但是中国文件可是博大精深，区区一万字肯定无法满足，于是又在gb2312基础上进行了扩展，扩展后的编码方案称之为gbk （k是扩的拼音缩写），后来又在gbk的基础上扩了gb18030编码方案，增加了一些少数名族的文字，一些生僻字被编到4个字节。
gb2312，gbk，gb18030（不包括gb13000）每次扩展都会完全兼容前一个版本。这里要指出，虽然都用多个字节表示一个字符，但是gb类的汉字编码与后文的unicode编码方案的utf-8、utf-16、utf-32等字符编码方式是毫无关系的
不过，也正因为不得不使用多个字节来表示一个字符，相较于只使用单个字节的ascii编码方案，gb系列编码方案与后面要介绍的unicode编码方案一样，无疑导致了更高的复杂度(包括时间复杂度、空间复杂度等)。
比如，当多字节字符与原先的ascii字符混用时：
1）要么将原先的ascii字符重新编码为多个字节表示，以便与其他多字节字符统一起来(utf-16、utf-32等采用的就是这种方法 )；2）要么保持ascii字符为单个字节编码不变，但将其他多字节字符编码中的各个字节的最高位(即首位)设为1，以避免与字节最高位为0的ascii编码相冲突(gb、utf-8等采用的就是这种方法) 。前者具有更高的空间复杂度，因为原先只需要单个字节表示的ascii字符，现在也必须用多个字节来表示，显然更为耗费存储空间；后者则具有更高的时间复杂度，因为为了避免冲突以及其他种种考虑(比如扩展性、容错性等)，使用了更为复杂的编码算法(encoding algorithm)，无疑更为耗费计算时间。
gb2312gb2312编码方案，即《信息交换用汉字编码字符集——基本集》，是由中国国家标准总局于1980年发布、1981年5月1日开始实施的一套国家标准，标准号为gb2312-1980。
gb2312编码适用于汉字处理、汉字通信等系统之间的信息交换，通行于中国大陆；新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持gb2312。
gb2312编码为了兼容ascii码，所有的编码的字节都是从0x7f之后开始的，一个汉字使用两字节来表示，一个高字节一个低字节，如果一个字节的小余0x7f的值，则表示的是一个ascii码值。
虽然gb2312完全兼容ascii码，但是其并不兼容其他扩码，如eascii。
gb2312标准共收录6763个汉字，其中一级汉字3755个，二级汉字3008个；同时，除了汉字，gb2312还收录了包括拉丁字母、希腊字母、日文平假名及片假名字符、俄语西里尔字母在内的 682个字符。
可能是处于美观的考虑，除了汉字外的682个字符中，包括ascii里本来就有的数字、标点、字母等字符，又再次编写了两字长的gb2312版本。这682个双字节编码字符就是常说的“全角”字符，而这些字符所对应的单字节编码的ascii字符就被称之为“半角”字符。
全角、半角全角字符是中文显示及双字节中文编码的历史遗留问题。
早期的点阵显示器上由于像素有限，原先ascii西文字符的显示宽度(比如8像素的宽度)用来显示汉字有些捉襟见肘(实际上早期的针式打印机在打印输出时也存在这个问题)，因此就采用了两倍于ascii字符的显示宽度(比如16像素的宽度)来显示汉字。
这样一来，ascii西文字符在显示时其宽度为汉字的一半。或许是为了在西文字符与汉字混合排版时，让西文字符能与汉字对齐等视觉美观上的考虑，于是就设计了让西文字母、数字和标点等特殊字符在外观视觉上也占用一个汉字的视觉空间(主要是宽度)，并且在内部存储上也同汉字一样使用2个字节进行存储的方案。这些与汉字在显示宽度上一样的西文字符就被称之为全角字符。
而原来ascii中的西文字符由于在外观视觉上仅占用半个汉字的视觉空间(主要是宽度)，并且在内部存储上使用1个字节进行存储，相对于全角字符，因而被称之为半角字符。
后来，其中的一些全角字符因为比较有用，就得到了广泛应用(比如全角的逗号“，”、问号“？”、感叹号“！”、空格“　”等，这些字符在输入法中文输入状态下的半角与全角是一样的，英文输入状态下全角跟中文输入状态一样，但半角大约为全角的二分之一宽)，专用于中日韩文本，成为了标准的中日韩标点字符。而其它的许多全角字符则逐渐失去了价值(现在很少需要让纯文本的中文和西文字符对齐了)，就很少再用了。
现在全球字符编码的事实标准是unicode字符集及基于此的utf-8、utf-16等编码实现方式。unicode吸纳了许多遗留(legacy)编码，并且为了兼容性而保留了所有字符。因此中文编码方案中的这些全角字符也保留下来了，而国家标准也仍要求字体和软件都支持这些全角字符。
不过，半角和全角字符的关系在utf-8、utf-16等中不再是简单的1字节和2字节的关系了。具体参见后文。
gbkgb2312-1980共收录6763个汉字，覆盖了中国大陆99.75%的使用频率，基本满足了汉字的计算机处理需要。
但对于人名、古汉语等方面出现的罕用字、生僻字，gb2312不能处理，如部分在gb2312-1980推出以后才简化的汉字(如“啰”)、部分人名用字(如歌手陶喆的“喆”字)、台湾及香港使用的繁体字、日语及朝鲜语汉字等，并未收录在内。
于是全国信息技术标准化技术委员会利用gb2312-1980未使用的码点空间，收录gb13000.1-1993的全部字符，于1995年12月1日发布了《汉字内码扩展规范(gbk)》(guo-biao kuozhan国家标准扩展码，是根据gb13000.1-1993（gb13000下文有详细介绍），对gb2312-1980的扩展；英文全称chinese internal code specification)
虽然gbk跟gb2312一样是双字节编码，但gbk只要求第一个字节即高字节大于127就固定表示这是一个汉字的开始(即gbk编码高字节的首位必须是1；0~127当然表示的还是ascii字符)，不再像gb2312一样要求第二个字节即低字节也必须大于127(即gbk编码低字节首位既可以是0，也可以是1)。
正因为如此，作为同样是双字节编码的gbk才可以收录比gb2312更多的字符。
gbk字符集向后完全兼容gb2312，同时还支持gb2312-1980不支持的部分中文简体、中文繁体、日文(不过该字符集不支持韩国文字，也是其在实际使用中与unicode字符集相比欠缺的部分)，共收录汉字21003个、符号883个，并提供1894个造字码位，简、繁体字融于一体。
gbk的编码框架(code scheme)：其中gbk/1收录除gb2312字符外的其他增补字符，gbk/2收录gb2312字符，gbk/3收录cjk字符，gbk/4收录cjk字符和增补字符，gbk/5为非中文字符，udc为用户自定义字符
gb18030中国国家质量技术监督局于2000年3月17日推出了gb18030-2000标准，以取代gbk。gb18030-2000除保留全部gbk编码汉字之外，在第二字节再度进行扩展，增加了大约一百个汉字及四位元组编码空间。
gb18030《信息交换用汉字编码字符集基本集的补充》是我国继gb2312-1980和gb13000-1993之后最重要的汉字编码标准，是我国计算机系统必须遵循的基础性标准之一。
2005年，gb18030编码方案在gb18030-2000的基础上又进行了扩充，于是又有了gb18030-2005《信息技术中文编码字符集》。
如前所述，gb18030-2000是gbk的升级版本，它的主要特点是在gbk基础上增加了cjk中日韩统一表意文字扩充a的汉字；而gb18030-2005的主要特点是在gb18030-2000基础上又增加了cjk中日韩统一表意文字扩充b的汉字。
微软也为gb18030定义了专门的代码页：cp54936，但是这个代码页实际上并没有真正使用(在windows 7的“控制面板”-“区域和语言”-“管理”-“非unicode程序的语言”中没有提供选项；在windows cmd命令行中可通过命令chcp 54936更改，之后在cmd中可显示中文，但却不支持中文输入)。
gb13000在所有的gb编码方案中，除了逐步扩展并保持向下兼容的gb2312、gbk、gb18030等gb系列编码方案，还有一个与gb2312、gbk、gb18030等gb系列编码方案不兼容的、特殊的gb编码方案——gb13000编码方案。(注意，虽然gbk的制定，主要目的就是为了收录gb13000中的所有字符，但g bk的编码方式与gb13000是完全不同的。因此，习惯上所称的gb系列编码方案一般并不包括gb13000在内。)
为了对世界各个国家和地区的所有字符进行统一编码，以实现对世界上所有字符在计算机上的统一处理，国际标准化组织制定了新的编码标准——iso/iec 10646标准(即universal character set通用字符集，简称ucs，与统一联盟制定的unicode标准兼容，两者的关系详见后文)。
为了与国际标准接轨，中国于是制定了与iso/iec 10646.1:1993标准相对应的中国国家标准——gb13000.1-1993 《信息技术通用多八位编码字符集(ucs)第一部分：体系结构与基本多文种平面》。
2010年又发布了其替代标准——gb13000-2010《信息技术通用多八位编码字符集(ucs)》，此标准等同于国际标准iso/iec 10646:2003《信息技术通用多八位编码字符集(ucs)》。
gb13000与国际标准iso/iec10646及unicode标准目前在基本平面(即bmp，详见后文)上基本保持一致。
各汉字(中文字符)编码方案之间的关系（big5为繁体汉字编码方案，主要通行于港澳台地区，本文不作详细介绍）
6.ansi 编码ansi原意是指美国国家标准协会，但是在windows系统中，ansi编码意思却代表“本地编码”。。也就是说，在中国代表gbk，在台湾代表big5，在日本代表jis，所以windows编程中常说的ansi字符串，就是指本地编码的字符串，在中国，就是一种dbcs，用1个和2个字节表示一个字符的编码。
这也就是我们使用notepad++进行文件编写的时候，会默认给我们提供ansi的编码格式，其实就是gbk编码啦。
事实上并没有ansi编码，ansi是什么，是american national standards institute美国国家标准协会，协会，机构而已。ansi也有自己的ascii标准。但是我们看到的这个ansi并不是特指ansi的ascii标准，这个应该指所有的本地化编码。
这个是微软的锅。一开始只有英文操作系统，用ansi表示ansi的extend ascii编码。但是到了欧洲就是iso-8859-1编码，到中国应该是gbk编码，日本应该是jis编码等等，为了把实际编码的差异隐藏起来，用所谓的ansi编码来表示所有windows系统上的地区化编码，然后操作系统自己做转换，不同的国家地区，就会对应不同的编码规范。ansi应该叫地区化编码，只出现在windows系统中，就好像一种工厂模式，被windows系统用来统一地区化编码的叫法。

LPDDR4：移动SoC RAM的整体封装
台积电（TSMC）12月营收环比下降10%
FLUKE红外热像仪可为研发应用而提供更多的温度细节
日本三菱飞机的MRJ支线客机项目已经进入了完全停滞
外观检测是什么丨外观检测简介
计算机编码全解析（中）
HT8972 新一代回音芯片，内建40KB SRAM
小米9评测 3000元价位的高性价比安卓机皇
雁阵区块链将如何助力物流行业发展
关于UVLED固化设备的光功率密度和固化能量的一些知识
美国人工智能需要关注的五大关键领域
一种新颖的射频功率放大器电路结构
润芯微科技智驾项目落地上汽乘用车
疏水离子传导膜实现高能长寿命锌-锰电池
什么是WM算法
兼容C3D02065E，碳化硅肖特基二极管B1D02065E助力LED显示屏电源
新款比亚迪海豚即将面世，新增全新外观及配置
用epoll来实现多路复用
印刷线路板工艺流程
Core2是M5Stack Core系列第二代主机