字符集、编码、码点
字符集
ASCII
最早的 127 个字符,大小写英文字母、制表符、换行符等。几乎所有后出的字符集都会兼容
Unicode
Unicode 是国际标准字符集,它将世界各种语言的每个字符定义一个唯一的编码,以满足跨语言、跨平台的文本信息转换。
Unicode 字符集的编码范围是 0x0000 - 0x10FFFF , 可以容纳一百多万个字符, 每个字符都有一个独一无二的编码,也即每个字符都有一个二进制数值和它对应,这里的二进制数值也叫 码点 , 比如:汉字 “中” 的 码点是 0x4E2D, 大写字母 A 的码点是 0x41, 具体字符对应的 Unicode 编码可以查询 Unicode字符编码表
地区字符集
不同国家/地区语言的特定编码格式,互相之间是冲突的,因为码点是重的。
GB
GB(国标),简体中文编码。
占空间小(因为字符编码集小,字符没有那么长)
同一个字符 GB 和 Unicode 码点不一致
GB2312 -> GBK(GB13000) -> GB18030
ISO-8859
东欧的
BIG5
台湾的
编码
Unicode 是一个符号集, 它只规定了每个符号的二进制值,但是符号具体如何存储它。
UTF-8、UTF-16、UTF-32 才是真正的字符编码规则。
UTF(Unicode Transformation Format”)意思是 Unicode 转换格式,后面的数字表明至少使用多少个比特位来存储字符
参考
字符集、编码、码点
http://example.com/2022/11/20/字符集、编码、码点/