1、Unicode码表。
2、关于java正则表达式的汉字写法。(参见这里)
String regex = "[\\p{InCJK Unified Ideographs}&&\\P{Cn}]]";
3、Python3中str与bytes转换:The bytes/str dichotomy in Python 3
4、Binary-to-text encoding (维基百科)
5、关于utf8的bom头。(Python3下)
>>> import codecs >>> codecs.BOM_UTF8 b'\xef\xbb\xbf' >>> len(b'\xef\xbb\xbf') 3 >>> codecs.BOM_UTF8.decode('utf8') '\ufeff' >>> len('\ufeff') 1
6、一些编码字符集的关系:
(1)、gb2312-1980 < gbk-1995 < gb18030-2000 < gb18030-2005
# 收录汉字个数 gb2312-1980:6763 gbk-1995:21003 gb18030-2000:27533 gb18030-2005:70244
(2)、ANSI = Windows 1252 = CP 1252 = Windows code page 1252 = Windows Latin-1(ANSI字符编码和Windows 1252)
【相关阅读】
*** walker ***