0. 码位(code position/point)
一个码位由某个数值表示,全部码位共同构成其码值空间(code space)。
- ASCII,0~7Fhex(128)
- 拓展 ASCII,0~FFhex(256)
- Unicode,0~10FFFFhex
- 1, 114, 112,17×216(17 个
平面
)
- 1, 114, 112,17×216(17 个
2. python 下的编码
- bytes.decode() ⇔ str.encode()
3. UnicodeDecodeError: ‘utf8’ codec can’t decode byte 0x9c
比如在读取
œ
时,便会造成 UnicodeDecodeError。
>> b'\x9c'.decode('cp1252')
'œ'