Unicode
阐述
Unicode 是一种字符编码与表示的标准,致 力于统一世界各国的语言文字的字集。
Unicode 相比于以前的编码来说更重视对于字位而非字形的编码,这使它有了更强的通用性,但是也导致在汉字的处理中的一些问题。对每一个字位,Unicode 给它指定一个码点——即数字,而非字形,而将它的具体呈现方式交给字体。
码位的范围是 0 到 10FFFF,通常以 U+ 加上至少四位数来表示,即 U+0000 到 U+10FFFF。共有 个码位。
- 平面 0:
U+0000至U+FFFF,称为基本多语种平面 - 平面 1 ~ 16: 分别对应
U+10000至U+1FFFF等,称为辅助平面- 平面 1: 多文种补充平面
- 平面 2: 表意文字补充平面
- 平面 3: 表意文字 第三平面
- 平面 14: 特别用途补充平面
- 平面 15 & 16: 私人使用区
Unicode 的具体实现方式均为变长编码:
实例
- UTF-16 所规定的替代对的范围是
U+D800至U+DFFF - 非字符为
U+FDD0 - U+FDEF以及所有以FFFE和FFFF结尾的码位 - 私用区为
U+E000 - U+F8FF以及U+F0000 - U+FFFFD和U+100000 - U+10FFFD(即 15、16 平面)