建议在能够完全满足应用的前提下,尽量使用小的字符集。因为更小的字符集意
味着能够节省空间、减少网络传输字节数,同时由于存储空间的较小间接的提高了系统的性
能。

mysql服务器可以支持多种字符集。

使用命令 show character set 可以显示mysql支持的字符集

mysql建库语句 字符集 排序 mysql 字符集和排序规则_排序规则

在mysql中,在同一台服务器、同一个数据库、甚至同一个表的不同字段都可以指定使用不
同的字符集,相比oracle等其他数据库管理系统,在同一个数据库只能使用相同的字符集,
mysql明显存在更大的灵活性。
mysql的字符集包括字符集(CHARACTER)和校对规则(COLLATION)两个概念。字符集
是用来定义mysql存储字符串的方式,校对规则(也称为排序规则)则是定义了比较字符串的方式。 每个字符集至少对应一个校对规则。

MySLQ排序规则特征:
1、 两个不同的字符集不能有相同的校对规则;
2、每个字符集有一个默认校对规则;
3、存在校对规则命名约定:以其相关的字符集名开始,中间包括一个语言名,并且以_ci(大小写不敏感)、_cs(大小写敏感)或_bin(二进制)结束。

使用命令 show collation like ‘utf8mb4%’;可以匹配查找字符集utf8mb4的所有排序规则,如下图:

mysql建库语句 字符集 排序 mysql 字符集和排序规则_mysql建库语句 字符集 排序_02

查看指定数据库的字符集,进入到指定数据库,然后执行下面命令:

mysql> show variables like ‘character_set_database’;

mysql建库语句 字符集 排序 mysql 字符集和排序规则_排序规则_03


可以看到的是 utf8字符集。如果使用navicat连接工具,选择指定数据库,然后右键,也可以看到当前数据库的字符集,如:

mysql建库语句 字符集 排序 mysql 字符集和排序规则_ico_04


使用的是utf8mb4。

可以使用相同的方式分别查看表的字符集,字段的字符集。

字符集的选择
我们一般常用的有 gb2312、gbk、utf8、utf8mb4。一般而言,我们选择utf8mb4这个字符集,而不选择utf8. 这个是因为MySQL的utf8并不是真正的UTF8字符集,MySQL的utf8字符编码只有三个字节,节省空间但不能表达全部的UTF-8,只能支持“基本多文种平面”(Basic Multilingual Plane,BMP),而utf8mb4才是真正的支持UTF8编码,网上有篇文章专门介绍这个。 一般而言,我们会选择utf8mb4,而不会选择gb2312、gbk。 对于gb2312而言,有些偏僻字(例如:洺)不能保存。gbk是中文字符编码是双字节的。虽然节省空间,但是有可能带来一些其他问题。

utf8mb4 和 utf8 比较
utf8mb4: A UTF-8 encoding of the Unicode character set using one to four bytes per character.
utf8mb3: A UTF-8 encoding of the Unicode character set using one to three bytes per character.
utf8: An alias for utf8mb3.

UTF-8是使用1~4个字节,一种变长的编码格式。(字符编码 )

mb4即 most bytes 4,使用4个字节来表示完整的UTF-8。而MySQL中的utf8是utfmb3,只有三个字节,节省空间但不能表达全部的UTF-8(比如emoji表情),只能支持“基本多文种平面”(Basic Multilingual Plane,BMP)。

utf8mb4_unicode_ci 是基于标准的Unicode来排序和比较,能够在各种语言之间精确排序
utf8mb4_general_ci 没有实现Unicode排序规则,在遇到某些特殊语言或者字符集,排序结果可能不一致。但是,在绝大多数情况下,这些特殊字符的顺序并不需要那么精确
性能:

utf8mb4_general_ci 在比较和排序的时候更快
utf8mb4_unicode_ci 在特殊情况下,Unicode排序规则为了能够处理特殊字符的情况,实现了略微复杂的排序算法。但是在绝大多数情况下发,不会发生此类复杂比较。相比选择哪一种collation,使用者更应该关心字符集与排序规则在db里需要统一。
utf8mb4_bin:将字符串每个字符用二进制数据编译存储,区分大小写,而且可以存二进制的内容
utf8_bin:字符串每个字符串用二进制数据编译存储。 区分大小写,而且可以存二进制的内容

综合上述,建议字符集选择 utf8mb4,排序规则选择utf8mb4_general_ci或者utf8mb4_unicode_ci。

注意排序规则的小常识:
以bin结尾的是以二进制存储的,区分大小写,以cs结尾的是区分大小写的,以ci结尾的不区分大小写