Mysql UTF8之utf8mb3 utf8mb4

字符集概述

字符集即是为了兼容各国的文字而做的编码,比如GB2312、GBK等,通用的编码我们用utf8。

mysql(5.7及8.0)里utf8实际是用3个字节存储即对应utf8mb3,而真正意义上的utf8对应的是4个字节存储即对应utf8mb4。

utf8mb3和utf8mb4的比较:

比较内容

utf8mb3

utf8mb4

存储最大字节数

3

4

支持类型

基本多文种平面 + US-ASCII

辅助平面(Supplementary) 、基本多文种平面 + US-ASCII

unicode范围

U+0000 至 U+FFFF

U+0000至U+10FFFFF

支持字符

英文字母,中日韩(CJK)大部分常用字等

英文字母,中日韩(CJK)非常用字,数学符号,emoji表情等

字符集相关参数

变量名

含义

character_set_client

设置客户端使用的字符集。

character_set_connection

设置连接数据库时的字符集,当程序里没指定连接数据库的字符集时的选项。

character_set_database

设置创建数据库时默认字符集,即创建数据库时不指定字符集时的选项。

character_set_filesystem

文件系统的编码格式,把操作系统上的文件名转化成此字符集,即把 character_set_client转换character_set_filesystem, 默认binary是不做任何转换的。

character_set_results

数据库给客户端返回时使用的字符集,如果没指定则用character_set_server。

character_set_server

服务器的默认字符集。

character_set_system

数据库系统存储系统元数据的字符集,该值为utf8。

character_sets_dir

字符集安装的目录。

配置示例

-- 情景一:将当前服务器的默认服务器、默认数据库字符集参数改成utf8mb4。

-- #1 情况一,如果是windows则找到my.ini修改如下内容后重启数据库服务器。

 [mysqld]下追加如下内容:

character-set-client-handshake = FALSE

character-set-server=utf8mb4

collation-server = utf8mb4_unicode_ci

init_connect='SET NAMES utf8mb4'

character-set-client-handshake和init_connect即指定了客户端连接时的字符集。如果想客户端连接时指定字符集,则这两个参数可不指定。

-- #1 情况二,如果是linux,可先通过命令查看mysql加载配置文件的顺序。

mysqld --help --verbose 2>/dev/null|grep -A1 "Default option"

Default options are read from the following files in the given order:

/etc/my.cnf /etc/mysql/my.cnf ~/.my.cnf

即先是/etc/my.cnf 再是/etc/mysql/my.cnf 而后是~/.my.cnf。

当前演示环境里没有/etc/my.cnf,只有/etc/mysql/my.cnf

Mysql utf8mb3 utf8mb4 与UTF8 字符集参数(character_set_system)的说明_数据库

只有/etc/mysql/my.cnf,而其对应的服务端配置在/etc/mysql/mysql.conf.d内,

客户端配置在/etc/mysql/conf.d/内。

Mysql utf8mb3 utf8mb4 与UTF8 字符集参数(character_set_system)的说明_客户端_02

所以如上#1里配置内容需要在/etc/mysql/mysql.conf.d内。

-- #2 创建新的数据库,可见当前数据库的默认字符集已经变为utf8mb4。

CREATE DATABASE shenl_2;

USE shenl_2;

show variables LIKE '%chara%'

/*

Variable_name   Value

character_set_client  utf8mb4

character_set_connection      utf8mb4

character_set_database utf8mb4

character_set_filesystem binary

character_set_results       utf8mb4

character_set_server utf8mb4

character_set_system      utf8mb3

character_sets_dir     /usr/share/mysql-8.0/charsets/

*/

-- 情景二: 通过SQL命令修改数据库、表的字符集

ALTER DATABASE shenl_2 CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci;

ALTER TABLE tb_user  CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci;

-- 情景三: 修改客户端、连接、结果集的字符集时在客户端参数(客户端文件在目录/etc/mysql/conf.d/内)里如下定义即可:

[mysql]

default-character-set=utf8mb4

-- 情景四:客户端指定字符集连入数据库。

mysql -uroot -h localhost -proot1234 --default-character-set=latin1

show variables LIKE '%chara%';

注:1 该方式在服务端不指定该方式在服务端不指定character-set-server时有效。

2 同理可以在客户端配置里指定default-character-set参数。

 

Mysql utf8mb3 utf8mb4 与UTF8 字符集参数(character_set_system)的说明_数据库_03

:

1 参数default-character-set=utf8mb4是客户端里的参数。

2 参数character_set_system是只读(不可修改)参数。

Mysql utf8mb3 utf8mb4 与UTF8 字符集参数(character_set_system)的说明_数据库_04

 3 mysql源码预编译时指定的字符集参数 -DEFAULT_CHARSET=utf8mb4对应character-set-server=utf8mb4。