字符集、编码、码点

字符集

ASCII

最早的 127 个字符,大小写英文字母、制表符、换行符等。几乎所有后出的字符集都会兼容

Unicode

Unicode 是国际标准字符集,它将世界各种语言的每个字符定义一个唯一的编码,以满足跨语言、跨平台的文本信息转换。

Unicode 字符集的编码范围是 0x0000 - 0x10FFFF , 可以容纳一百多万个字符, 每个字符都有一个独一无二的编码,也即每个字符都有一个二进制数值和它对应,这里的二进制数值也叫 码点 , 比如:汉字 “中” 的 码点是 0x4E2D, 大写字母 A 的码点是 0x41, 具体字符对应的 Unicode 编码可以查询 Unicode字符编码表

地区字符集

不同国家/地区语言的特定编码格式,互相之间是冲突的,因为码点是重的。

GB

GB(国标),简体中文编码。

占空间小(因为字符编码集小,字符没有那么长)

同一个字符 GB 和 Unicode 码点不一致

GB2312 -> GBK(GB13000) -> GB18030

ISO-8859

东欧的

BIG5

台湾的

编码

Unicode 是一个符号集, 它只规定了每个符号的二进制值,但是符号具体如何存储它。

UTF-8、UTF-16、UTF-32 才是真正的字符编码规则。

UTF(Unicode Transformation Format”)意思是 Unicode 转换格式,后面的数字表明至少使用多少个比特位来存储字符

参考

https://zhuanlan.zhihu.com/p/427488961


字符集、编码、码点
http://example.com/2022/11/20/字符集、编码、码点/
Author
John Doe
Posted on
November 20, 2022
Licensed under