[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符
原创
©著作权归作者所有:来自51CTO博客作者overmind1980的原创作品,请联系作者获取转载授权,否则将追究法律责任
另类字符
回忆上次内容
\u
这种新的编码方式叫unicode- 包括了 中日韩字符集等 各书写系统的字符集
颠倒字符
尝试
- 序号还是比较靠前的
- 应该是一些拉丁字符
- 类似的还有带圈圈的英文字符
带圈字符
继续探索
- unicode 其实有个委员会
- 各种大厂都在里面指定标准
- 我们也可以访问 unicode.org
- 具体的编码字符都可以在里面找
炼金术师的符号
古代字符编码
拉丁字符之路
时间相关
- 这个编码可以解决
等宽
的问题 - 而且还有汉字
- 目前大多数字体支持
- ㋀㋁㋂㋃㋄㋅㋆㋇㋈㋉㋊㋋
- ㏠㏡㏢㏣㏤㏥㏦㏧㏨㏩㏪㏫㏬㏭㏮㏯㏰㏱㏲㏳㏴㏵㏶㏷㏸㏹㏺㏻㏼㏽㏾
- ㍘㍙㍚㍛㍜㍝㍞㍟㍠㍡㍢㍣㍤㍥㍦㍧㍨㍩㍪㍫㍬㍭㍮㍯㍰
货币相关
音乐相关
中文字符
亚文化
- 不知道这些参与 unicode 编码规则制定的大公司在想些什么?
扑克编码
- 我们以前介绍过黑红梅方的编码
- 配合数字可以做出扑克效果
- 这个编码直接就是牌
- C 是骑士牌(knight card)
- 我们一般都是 54 张牌
- 目前大多数字符库还不支持 unicode 这个编码段的部分
- 支持了之后就可以直接字符打牌了
国际象棋
麻将
- 🀀🀁🀂🀃🀆🀅🀄
- 🀇🀈🀉🀊🀋🀌🀍🀎🀏
- 🀐🀑🀒🀓🀔🀕🀖🀗🀘
- 🀙🀚🀛🀜🀝🀞🀟🀠🀡
各种符号
新的符号
- 各种杂项费用还是很多的甚至包含 emoji
- 这些新增的字符除了好玩之外
- 也会对于我们产生影响
- 其实我们也有这种符号
五岳真形图
- 也许有一天unicode中会出现五岳的符号
- 还有一些同型不同序号的字
易混淆文字
- 第1个是常用的
- 第2个是1999年更新中新加进去的康熙部首
阴阳话题
部首
不识别
- 但是如果发送过来的字符
- 在当前的系统中没有对应的字符
- 应该怎么办呢?
�
- 发过来一个不认识的字符
- 机器就傻了
- 因为不知道如何表现
- 于是他会用一个问号对应的字符进行替换
- U+FFFD �
- 这个字符本应该是 unicode 中的字符
- 但如果硬要用 gbk 解码会如何呢?
乱解码
- � 对应 utf-16 编码 0xFFFD
- 转化为 utf-8 对应 0xEF 0xBF 0xBD
- 但是如果这个编码用 gbk 解码的话
- 就会出现锟斤拷
- 锟(0xEFBF)
- 斤(0xBDEF)
- 拷(0xBFBD)
烫烫烫和屯屯屯
- x86指令集中 中断(int 3)指令
- 起到保护作用
- 栈内存默认初始数值为 0xcc
- 0xcccc 用使用 bgk 的终端来表示刚好就是
烫
- 未初始化的栈空间用 0xcc 填充
- 所以 0xcdcd 用 gbk 来解释的话,就是
屯
拼音标号
中文字符集进化
- 16 位最多 65536 各字符
- 想要把全世界的字符都编码是不现实的
- 光是中文就超了好几次
- 如果使用 3 字节编码就大大增加了存储和带宽的压力
- 那到底应该怎么办呢?
- 到底应该按照 1 字节、2 字节还是 3 字节进行读取呢?
总结
- 扑克
- 国际象棋
- 麻将
- 偏旁部首
- 各种好玩的编码
- 字符编码就是这样一步步发展过来的
- 拜这个字
- 在字节中应该是b"\x62\xdc"两个字节