1.在开始之前先简单介绍下字符和字节的区别:
- 字符 人们使用的记号,抽象意义上的一个符号。一个汉字和英文就是一个字符,如'1', '中', 'a', '$', '¥',……
- 字节 计算机中存储数据的单元,一个8位的二进制数,是一个很具体的存储空间,如0x01, 0x45, 0xFA,……
详细的可以参考:
https://baike.baidu.com/item/%E5%AD%97%E8%8A%82/1096318?fr=aladdin
http://www.regexlab.com/zh/encoding.htm
2.环境:CentOS7.x,MySQL5.7.x
2.1 utf8字符集下:
CREATE TABLE `test` (
`id` int(11) unsigned NOT NULL AUTO_INCREMENT,
`name` varchar(10) NOT NULL DEFAULT '' COMMENT '用户名',
PRIMARY KEY (`id`)
) ENGINE=MyISAM AUTO_INCREMENT=1 DEFAULT CHARSET=utf8;
添加数据(截图):
查询数据:
select id,name,length(name),char_length(name) from test
说明:
utf-8编码 1个中文字符=3个字节 1个字节=8个位
一个英文字母字符存储需要1个字节
LENGTH(str) 返回字符串str的长度,以字节为单位
CHAR_LENGTH(str) 返回字符串str的长度,以字符为单位
2.2 GBK字符集
CREATE TABLE `test_gbk` (
`id` int(11) unsigned NOT NULL AUTO_INCREMENT,
`name` varchar(10) CHARACTER SET gbk COLLATE gbk_bin NOT NULL DEFAULT '' COMMENT '用户名',
PRIMARY KEY (`id`)
) ENGINE=MyISAM AUTO_INCREMENT=1 DEFAULT CHARSET=gbk;
添加数据(截图):
查询数据:
select id,name,length(name),char_length(name) from test_gbk
说明:
gbk编码 1个中文字符=2个字节 1个字节=8个位
一个英文字母字符存储需要1个字节
LENGTH(str) 返回字符串str的长度,以字节为单位
CHAR_LENGTH(str) 返回字符串str的长度,以字符为单位
由此可见,varchar定义的长度的单位是字符,哪怕是1个多字节字符也是1个字符,如中文和英文字母都被当作1个字符来对待。
那么**varchar能够定义的最大长度是多少呢?**这个和你当前所使用的字符集有关。抛开字符,其最大长度为65535字节(这是最大行大小,由所有列共享),而放在不同的字符集下,能够定义的最大长度就会有所不同,
如UTF8下是21845。据说MySQL5中varchar的长度也为字符,而MySQL4中的则为字节,未经证实,感兴趣的有环境可以自己测下。
顺便补充一下,char数据类型定义的长度也为字符,其最大长度为255。
3.varchar存储规则:
- 4.0版本以下,varchar(20),指的是20字节,如果存放UTF8汉字时,只能存6个(每个汉字3字节)
- 5.0版本以上,varchar(20),指的是20字符,无论存放的是数字、字母还是UTF8汉字(每个汉字3字节),都可以存放20个,最大大小是65532字节
3.1 编码长度限制:
字符类型若为gbk,每个字符最多占2个字节,最大长度不能超过32766【32766*2=65532字节】;
字符类型若为utf8,每个字符最多占3个字节,最大长度不能超过21845【21845*3=65535字节】;
3.2 varchar和char 的区别:
char是一种固定长度的类型
varchar则是一种可变长度的类型
区别:
- char(M)类型的数据列里,每个值都占用M个字节,如果某个长度小于M,MySQL就会在它的右边用空格字符补足.(在检索操作中那些填补出来的空格字符将被去掉)
- 在varchar(M)类型的数据列里,每个值只占用刚好够用的字节再加上一个用来记录其长度的字节(即总长度为L+1字节).
在MySQL中用来判断是否需要进行对据列类型转换的规则:
- 在一个数据表里,如果每一个数据列的长度都是固定的,那么每一个数据行的长度也将是固定的.
- 只要数据表里有一个数据列的长度的可变的,那么各数据行的长度都是可变的.
- 如果某个数据表里的数据行的长度是可变的,那么,为了节约存储空间,MySQL会把这个数据表里的固定长度类型的数据列转换为相应的可变长度类型.例外:长度小于4个字符的char数据列不会被转换为varchar类型
4 注意:MySQL中varchar最大长度是多少?这不是一个固定的数字。本文简要说明一下限制规则。
4.1 限制规则
A.字段的限制在字段定义的时候有以下规则:
- 存储限制
varchar最多能存储65535个字节的数据。varchar 的最大长度受限于最大行长度(max row size,65535bytes)。65535并不是一个很精确的上限,可以继续缩小这个上限。65535个字节包括所有字段的长度,变长字段的长度标识(每个变长字段额外使用1或者2个字节记录实际数据长度)、NULL标识位的累计。
NULL标识位,如果varchar字段定义中带有default null允许列空,则需要需要1bit来标识,每8个bits的标识组成一个字段。一张表中存在N个varchar字段,那么需要(N+7)/8 (取整)bytes存储所有的NULL标识位。
字符字节参考表:
详细地址:
编码 \字符 | 一个字母 | 一个中文 | 字母标点 | 中文标点 |
ASCII码 | 1字节 | |||
UTF-8编码 | 1字节 | 3字节 | 1字节 | 3字节 |
Unicode编码 | 2字节 | 2字节(Unicode扩展区的一些汉字存储需要4个字节) | 2字节 | 2字节 |
GB 2312 编码或 GBK 编码 | 1字节 | 2字节 | 1字节 | 2字节 |
UTF-16 | 2字节 | 2字节 | 2字节 | 2字节 |
UTF-32 | 4字节 | 4字节 | 4字节 | 4字节 |
latin1 | 1字节 | 1字节 |
demo1:
如果数据表只有一个varchar字段且该字段DEFAULT NULL,那么该varchar字段的最大长度为65532个字节,即65535-2-1=65532 byte。
字符编码:latin1
#正确
mysql> create table latin_t1 ( name varchar(65532) default null) charset=latin1;
Query OK, 0 rows affected (0.00 sec)
#错误
mysql> create table latin_t2 ( name varchar(65533) default null) charset=latin1;
ERROR 1118 (42000): Row size too large. The maximum row size for the used table type, not counting BLOBs, is 65535. This includes storage overhead,
check the manual. You have to change some columns to TEXT or BLOBs
说明:
当设置长度为65533时,已经超过行最大长度,我们可以计算一下,行最大长度是65535字节。
latin_t2表name字段使用varchar(65533),字符集是latin1,占用1个字节,还有默认为空,那么还有null标识位,( 1 + 7 ) / 8 =1,所以null标识位占用1个字节。65533 + 1 + 2=65536字节,已经大于行最大长度。
这里2字节怎么来的???
因为varchar类型存储变长字段的字符类型,与char类型不同的是,其存储时需要在前缀长度列表加上实际存储的字符,当存储的字符串长度小于255字节时,其需要1字节的空间,当大于255字节时,需要2字节的空间。
demo2:
如果数据表只有一个varchar字段且该字段NOT NULL,那么该varchar字段的最大长度为65533个字节,即65535-2=65533byte
#正确
mysql> create table latin_tt1 ( name varchar(65533) not null) charset=latin1;
Query OK, 0 rows affected (0.02 sec)
#错误
mysql> create table latin_tt2 ( name varchar(65534) not null) charset=latin1;
ERROR 1118 (42000): Row size too large. The maximum row size for the used table type, not counting BLOBs, is 65535.
This includes storage overhead, check the manual. You have to change some columns to TEXT or BLOBs
B.编码长度限制
编码类型 | 每个字符最多占几个字节 | 最大字节数 | 最大字符串数 |
gbk | 2 | 32766*2=65532字节 | 32766 |
utf8 | 3 | 21845*3=65535字节 | 21845 |
1.字符类型若为gbk,每个字符最多占2个字节,最大长度不能超过32766【32766*2=65532字节】;
【
注意:gbk为什么不是 65535/2=32767 个字符,
原因:
1.需要减1,实际行存储从第二个字节开始
2.减2的原因是varchar头部的2个字节表示长度
(65535-1-2)/2=32766
】
2.字符类型若为utf8,每个字符最多占3个字节,最大长度不能超过21845【21845*3=65535字节】。
若定义的时候超过上述限制,则varchar字段会被强行转为text类型,并产生warning。
截图:
C.行长度限制
导致实际应用中varchar长度限制的是一个行定义的长度。 MySQL要求一个行的定义长度不能超过65535。若定义的表长度超过这个值,则提示
ERROR 1118 (42000): Row size too large. The maximum row size for the used table type, not counting BLOBs, is 65535.
This includes storage overhead, check the manual. You have to change some columns to TEXT or BLOBs
5.计算例子:
5.1若一个表只有一个varchar类型,如定义为:
create table gbk_t4 (name varchar(N)) charset=gbk;
则此处N的最大值为(65535-1-2)/2= 32766
减1的原因是实际行存储从第2个字节开始;
减2的原因是varchar头部的2个字节表示长度;
除2的原因是字符编码是gbk。
5.2若一个表定义为
create table utf8_t4(c int, c2 char(30), c3 varchar(N)) charset=utf8;
减1的原因是实际行存储从第2个字节开始;
减2的原因是varchar头部的2个字节表示长度;
减4的原因是int类型的c占4个字节;
减30*3的原因是char(30)占用90个字节,编码是utf8 1字符占用3个字节。
如果被varchar超过上述的b规则,被强转成text类型,则每个字段占用定义长度为11字节,当然这已经不是varchar了。
则此处N的最大值为 (65535-1-2-4-30*3)/3=21812,
例子如下:
#正确是21812
mysql> create table t4(c int, c2 char(30), c3 varchar(21812)) charset=utf8;
Query OK, 0 rows affected (0.00 sec)
#错误21813超出
mysql> create table t4(c int, c2 char(30), c3 varchar(21813)) charset=utf8;
ERROR 1118 (42000): Row size too large. The maximum row size for the used table type, not counting BLOBs, is 65535.
This includes storage overhead, check the manual. You have to change some columns to TEXT or BLOBs
5.3若一个表定义为
CREATE TABLE t6 (
id int DEFAULT NULL,
a VARCHAR(100) DEFAULT NULL,
b VARCHAR(100) DEFAULT NULL,
c VARCHAR(100) DEFAULT NULL,
d VARCHAR(100) DEFAULT NULL,
e VARCHAR(100) DEFAULT NULL,
f VARCHAR(100) DEFAULT NULL,
g VARCHAR(100) DEFAULT NULL,
h VARCHAR(100) DEFAULT NULL,
i VARCHAR(N) DEFAULT NULL
) CHARSET=utf8;
减1的原因是实际行存储从第2个字节开始;
减4的原因是int类型的c占4个字节;
每个NULL字段用1bit标识,10个字段都是default null,那么需要用(10+7)/8bit = 2 bytes存储NULL标识位,所以减2
减2*8 【有8个varchar】的原因是varchar头部的2个字节表示长度;
减8*3*100 的原因是8个varchar中,单个varchar 占100个字符,编码是utf8所以占用3个字节
减2是,最后一个varchar头部占2个字节
计算:
65535-1-4-2-2*8-8*100*3-2=21036.6667 取整 210367
#正确21037
mysql> CREATE TABLE t6 ( id int, a VARCHAR(100) DEFAULT NULL, b VARCHAR(100) DEFAULT NULL, c VARCHAR(100) DEFAULT NULL, d VARCHAR(100) DEFAULT NULL, e VARCHAR(100) DEFAULT NULL, f VARCHAR(100) DEFAULT NULL, g VARCHAR(100) DEFAULT NULL, h VARCHAR(100) DEFAULT NULL, i VARCHAR(21037) DEFAULT NULL ) CHARSET=utf8;
Query OK, 0 rows affected (0.01 sec)
#错误21038
mysql> CREATE TABLE t66 ( id int, a VARCHAR(100) DEFAULT NULL, b VARCHAR(100) DEFAULT NULL, c VARCHAR(100) DEFAULT NULL, d VARCHAR(100) DEFAULT NULL, e VARCHAR(100) DEFAAULT NULL, f VARCHAR(100) DEFAULT NULL, g VARCHAR(100) DEFAULT NULL, h VARCHAR(100) DEFAULT NULL, i VARCHAR(21038) DEFAULT NULL ) CHARSET=utf8;
ERROR 1118 (42000): Row size too large. The maximum row size for the used table type, not counting BLOBs, is 65535.
This includes storage overhead, check the manual. You have to change some columns to TEXT or BLOBs
varchar到底能存多少个字符?这与使用的字符集相关,latin1、gbk、utf8编码存放一个字符分别需要占1、2、3个字节。
6.InnodDB 中的varchar
早期的innodb_file_forma使用的Antelope文件格式,支持redundant和compact两种row_format。从5.5开始或者InnoDB1.1,可以使用一种新的file format,Barracuda。Barracuda兼容Redundant,另外还支持dynamic和compressed两种row_format.
当innodb_file_format=Antelope,ROW_FORMAT=REDUNDANT 或者COMPACT。
innodb的聚集索引(cluster index)仅仅存储varchar、text、blob字段的前768个字节,多余的字节存储在一个独立的overflow page中,这个列也被称作off-page。768个字节前缀后面紧跟着20字节指针,指向overflow pages的位置。
另外,在innodb_file_format=Antelope情况下,InnoDB中最多能存储10个大字段(需要使用off-page存储)。innodbd的默认page size为16KB,InnoDB单行的长度不能超过16k/2=8k个字节,(768+20)*10 < 8k。
当innodb_file_format=Barracuda, ROW_FORMAT=DYNAMIC 或者 COMPRESSED
innodb中所有的varchar、text、blob字段数据是否完全off-page存储,根据该字段的长度和整行的总长度而定。对off-page存储的列,cluster index中仅仅存储20字节的指针,指向实际的overflow page存储位置。如果单行的长度太大而不能完全适配cluster index page,innodb将会选择最长的列作为off-page存储,直到行的长度能够适配cluster index page。
7.MyISAM中的varchar
对于MyISAM引擎,varchar字段所有数据存储在数据行内(in-line)。myisam表的row_format也影响到varchar的物理存储行为。
MyISAM的row_format可以通过create或者alter sql语句设为fixed和dynamic。另外可以通过myisampack生成row_format=compresse的存储格式。
当myisam表中不存在text或者blob类型的字段,那么可以把row_format设置为fixed(也可以为dynamic),否则只能为dynamic。
当表中存在varchar字段的时候,row_format可以设定为fixed或者dynamic。使用row_format=fixed存储varchar字段数据,浪费存储空间,varchar此时会定长存储。row_format为fixed和dynamic,varchar的物理实现方式也不同(可以查看源代码文件field.h和field.cc),因而myisam的row_format在fixed和dynamic之间发生转换的时候,varchar字段的物理存储方式也将会发生变化。