Lab1 misc
约 181 个字 预计阅读时间 1 分钟
Challenge 1¶
Task 1¶
GB2312 编码方式
- 每个汉字:两个字节组成。
- 第一个字节(区位码的“区”)范围:
0xA1~0xF7(共94个区) - 第二个字节(区位码的“位”)范围:
0xA1~0xFE(共94个位)
GBK 编码方式
- 两个字节
-
扩展了更多汉字:
-
第一个字节:
0x81~0xFE - 第二个字节:
0x40~0xFE,跳过0x7F - 理论上支持 239 × 191 = 45,649 个字符
GB18030 编码方式
变长编码,分三种情况:
| 字节数 | 方式 |
|---|---|
| 1字节 | 与 ASCII 相同(0x00~0x7F) |
| 2字节 | 与 GBK 相同(兼容) |
| 4字节 | 编码 Unicode 中未包含于GBK的字符,如生僻字、Emoji |
兼容的原因:新的编码系统保留旧系统已有字符的编码值