1 介绍

    LOAD DATA INFILE  语句以很高的速度从一个文本文件中读取行到一个表中。它是 SELECT ... INTO OUTFILE 的一个补充, SELECT ... INTO OUTFILE 是将表中的数据写到一个文件, LOAD DATA INFILE 则是将文件内容导入表。二者都使用FIELDS及LINES语句,两个语句是可选的,同时出现的话FIELDS要在LINES前面。

    我们也可以通过mysqlimport工具来导入数据,它本质上是发送 LOAD DATA INFILE语句到服务端。

2 语法

LOAD DATA语法如下(mysql5.6及其以上):


[sql] view plain copy

  1. LOAD DATA [LOW_PRIORITY | CONCURRENT] [LOCAL] INFILE 'file_name'
  2. [REPLACE | IGNORE]
  3. INTO TABLE tbl_name
  4. [PARTITION (partition_name,...)]
  5. [CHARACTER SET charset_name]
  6. [{FIELDS | COLUMNS}
  7. [TERMINATED BY 'string']
  8. [[OPTIONALLY] ENCLOSED BY 'char']
  9. [ESCAPED BY 'char']
  10. ]
  11. [LINES
  12. [STARTING BY 'string']
  13. [TERMINATED BY 'string']
  14. ]
  15. [IGNORE number {LINES | ROWS}]
  16. [(col_name_or_user_var,...)]
  17. [SET col_name = expr,...]

3 演示数据准备


    3.1 创建测试数据库及表

[sql] view plain copy

  1. mysql> create database loaddata;
  2. mysql> use loaddata;
  3. mysql> create table loadtest (c1 int(10), c2 varchar(20), c3 varchar(20), c4 varchar(20));

3.2 插入测试数据

[sql] view plain copy

  1. mysql> insert into loadtest values (100, 'column2', 'column3', 'column4');
  2. mysql> insert into loadtest values (200, 'line2', 'line3', 'line4');

3.3 将数据导出

[sql] view plain copy

  1. [root@localhost /]# mysqldump --tab=/tmp/ loaddata --fields-terminated-by=',' --fields-optionally-enclosed-by='"' --fields-escaped-by='#' --lines-terminated-by='\n'

查看导出数据文件

[sql] view plain copy

  1. [root@localhost /]# cat /tmp/loadtest.txt
  2. 100,"column2","column3","column4"
  3. 200,"line2","line3","line4"

mysql语句-load data infile_sed


4 语法解释及实例分析


file_name: 文件名file_name需要是字符串,在windows下, 路径可以为斜杠'/' 或双反斜杠'\\' (windows下验证)。

PARTITION: MySQL 5.6.2及其后续版本,LOAD DATA INFILE开始支持PARTITION分区选项。对于分区表应采用使用表锁的存储引擎,例如myisam,不适用与行锁的存储引擎,如Innodb,因为LOAD DATA不能移除任何分区锁。

CHARACTER SET: 由character_set_database系统变量指示的字符集被用于解释文件中的信息。SET NAMES和character_set_client的设置不会影响对输入的解释。假如文件中的字符编码与默认不一致,最好用CHARACTER SET语句指定编码方式,这就需要我们通过mysqldump或SELECT ... INTO OUTFILE导出文件时通过参数--default-character-set指定导出文件的编码格式。

注意:导入文件不支持ucs2, utf16, utf16le, 或 utf32编码格式。

LOW_PRIORITY: 该参数适用于表锁存储引擎,比如MyISAM, MEMORY, 和 MERGE,在写入过程中如果有客户端程序读表,写入将会延后,直至没有任何客户端程序读表再继续写入。

CONCURRENT: 使用该参数,允许在写入过程中其它客户端程序读取表内容。

对复制的影响:使用基于语句格式(statement-based)的复制,在mysql5.5.1之前,CONCURRENT参数不能被复制。使用基于行格式(row-based)的复制,在mysql5.1及其后续版本,都可以被正确复制。mysql5.6认为使用LOAD DATA INFILE是不安全的,当使用statement-based格式的日志时会发出警告,使用mixed格式的日志时会被存储为row格式。

LOCAL: 该关键字影响文件的预期读取位置及错误句柄。需要客户端及服务端都开启该选项,如果mysqld的启动参数包含local-infile=0,那么指定该参数是无效的。

对文件查找的影响:

指定该选项:文件将会由客户端程序在客户端主机上查找,然后发送到服务端。可以指定文件的绝对路径和相对路径,指定相对路径的话会在客户端程序目录下查找。

执行导入的时候会先将文件复制到服务端的临时文件夹下(linux下是 /tmp, windows下是C:\WINDOWS\TEMP),如果临时文件夹空间不足将会导致LOAD DATA失败。

未指定该选项:文件将由服务端程序在服务端主机上查找,查找规则如下:

如果给定了一个绝对的路径名称,则服务器使用此路径名称。

如果给定了带有一个或多个引导组件的相对路径名称,则服务器会搜索相对于服务器(数据目录)的文件。

如果给定了一个不带引导组件的文件名称,则服务器会在默认(数据库)的(数据库目录)中寻找文件。

例如:./myfile.txt会在数据库的data目录下查找,myfile.txt会在我们连接时使用的默认数据库,如test的数据目录下查找。

LOCAL对错误句柄的影响:

使用LOAD DATA INFILE,数据解释和主键冲突error会终止操作。

使用LOAD DATA LOCAL INFILE数据解释和主键冲突error会变成warning,操作继续,因为mysql server没有办法在操作过程中结束数据的传输。对于主键冲突error来讲,该方法类似于指定IGNORE。

REPLACE 与 IGNORE: 控制输入的行与唯一主键的重复。

REPLACE: 输入行替换已经存在的行。即与主键或唯一索引列的重复。

IGNORE: 输入行与已经存在的行主键或唯一索引列重复,则丢弃。

假如二者都未指定:行为就会取决于是否指定了LOCAL参数。

导入数据过程中忽略(外键约束)可以在LOAD DATA前执行SET foreign_key_checks = 0 。

    LINES STARTING BY 'prefix_string':如果所有希望读入的行都含有一个我们希望忽略的共用前缀,则可以使用'prefix_string'来跳过前缀(以及该前缀

前的所有字符)。如果某行不包括前缀,则整个行被跳过

    例如:

[sql] view plain copy

  1. mysql> LOAD DATA INFILE '/tmp/test.txt' INTO TABLE test LINES STARTING BY "xxx";

假如/tmp/test.txt文件内容如下

[sql] view plain copy

  1. xxx"abc",1
  2. something xxx"def",2
  3. "ghi",3

则我们读入的内容包括("abc",1) 和 ("def",2),第三行直接被跳过。

IGNORE number LINES: 该选项可以被用于在文件的开始处忽略行。例如,我们可以使用IGNORE 1 LINES来跳过一个包含列名称的起始标题行。

[sql] view plain copy

  1. LOAD DATA INFILE '/tmp/test.txt' INTO TABLE test IGNORE 1 LINES;



FIELDS 和 LINES:

对于LOAD DATA INFILE 和 SELECT ... INTO OUTFILE,FIELDS 和 LINES语句的语法都是相同的,二者都是可选的,但同时出现时FIELDS语句要放在LINES语句的前面。

假如我们指定了FIELDS语句,它的子句(TERMINATED BY, [OPTIONALLY] ENCLOSED BY, 和 ESCAPED BY)也是可选的,不过必须指定至少一项。

如果FIELDS 和 LINES语句我们都未指定,则默认的句法为:

[sql] view plain copy

  1. FIELDS TERMINATED BY '\t' ENCLOSED BY '' ESCAPED BY '\\'
  2. LINES TERMINATED BY '\n' STARTING BY ''

所有field-或line-handling选项都可以指定一个空字符串('')。如果字符串不是空的, 则FIELDS [OPTIONALLY] ENCLOSED BY和FIELDS ESCAPED BY值必须为单一字符。FIELDS TERMINATED BY, LINES STARTING BY和LINES TERMINATED BY值可以超过一个字符。 例如,要编写由回车/换行成对字符作为结尾的行,或读取

包含这类行的文件,则应指定一个LINES TERMINATED BY ‘\r\n’子句。

FIELDS [OPTIONALLY] ENCLOSED BY : 对于SELECT ... INTO OUTFILE输出,如果不包含OPTIONALLY选项,所有的字段将会被ENCLOSED BY指定的字符包裹,例如:

[sql] view plain copy

  1. "1","a string","100.20"
  2. "2","a string containing a , comma","102.20"
  3. "3","a string containing a \" quote","102.20"
  4. "4","a string containing a \", quote and comma","102.20"

如果我们指定OPTIONALLY,只有string数据类型(如 CHAR, BINARY, TEXT, 或 ENUM)的字段才会被ENCLOSED BY指定的字符包裹,例如:

[sql] view plain copy

  1. 1,"a string",100.20
  2. 2,"a string containing a , comma",102.20
  3. 3,"a string containing a \" quote",102.20
  4. 4,"a string containing a \", quote and comma",102.20

注意,如果在字段值内出现ENCLOSED BY字符,则通过使用ESCAPED BY字符作为前缀,对ENCLOSED BY字符进行转义。另外,要注意,如果指定了一个空ESCAPED BY值,则可能会生成不能被LOAD DATAINFILE正确读取的输出值。例如:

[sql] view plain copy

  1. 1,"a string",100.20
  2. 2,"a string containing a , comma",102.20
  3. 3,"a string containing a " quote",102.20
  4. 4,"a string containing a ", quote and comma",102.20


FIELDS ESCAPED BY:用来控制如何对特殊字符进行读写,如上面一个例子,导出和导入时指定FIELDS ESCAPED BY为双引号["]才能被正确的导入,导出的格式如下,对字段内的双引号["]进行了转义。


[sql] view plain copy

  1. 1,"a string",100.20
  2. 2,"a string containing a , comma",102.20
  3. 3,"a string containing a #" quote",102.20
  4. 4,"a string containing a #", quote and comma",102.20



对于输入:

假如FIELDS ESCAPED BY指定字符非空,则输入时该字符被移除,后续的内容被添加到字段里。一些两个字符的字符串序列且第一个字符是转义字符'\'是例外,如\0,\b,\n,\r,\t,\Z\,\N等,这些字符序列本身有特殊意义。

假如FIELDS ESCAPED BY指定字符为空,将不会发生转义序列的解释。

对于输出:

假如FIELDS ESCAPED BY指定字符非空,字符作为以下输出的前缀。

【**********此处待完善***********】

在特定情况下,field-和line-handling选项相互影响:

如果LINES TERMINATED BY是空字符串,FIELDS TERMINATED BY非空,行以FIELDS TERMINATED BY指定的字符串作为结尾。

假如FIELDS TERMINATED BY 与 FIELDS ENCLOSED BY值均为空(''),将使用固定行(无分割)格式。使用固定行格式,字段之间将没有分隔符(行终止符依然可使用),列字段数据的读取和写入均按照字段定义的宽度去操作,如 TINYINT, SMALLINT, MEDIUMINT, INT, 和 BIGINT, 字段宽度分别为4, 6, 8, 11, 和 20。

不适合使用LOAD DATA INFILE的情况

使用固定行格式(即FIELDS TERMINATED BY 和 FIELDS ENCLOSED BY 均为空)列字段类型为BLOB或TEXT。

指定分隔符与其它选项前缀一样,LOAD DATA INFILE不能对输入做正确的解释。例如:

[sql] view plain copy

  1. FIELDS TERMINATED BY '"' ENCLOSED BY '"'

如果FIELDS ESCAPED BY为空,字段值包含FIELDS ENCLOSED BY指定字符,或者LINES TERMINATED BY 的字符在 FIELDS TERMINATED BY 之前,都会导致过早的停止 LOAD DATA INFILE操作。因为LOAD DATA INFILE不能准确的确定行或列的结束。

选择导入的列:

下面的语句会导入文件的所有列

LOAD DATA INFILE 'persondata.txt' INTO TABLE persondata;

如果我们想导入表的某些列,需要指定列的列表

LOAD DATA INFILE 'persondata.txt' INTO TABLE persondata (col1,col2,...);

注意:如果sql-mode为严格事物模式STRICT_TRANS_TABLES,导入部分列会报错。

如果输入文件与表的列顺序不同,我们必须指定一个列清单,否则mysql不能把输入文件的字段与表的列匹配起来。

[sql] view plain copy

  1. mysql> LOAD DATA INFILE '/tmp/loadtest.txt' INTO TABLE loadtest FIELDS TERMINATED BY ',' OPTIONALLY ENCLOSED BY '"' ESCAPED BY '#' LINES TERMINATED BY '\n' (c1, c2, c4, c3);

列的清单可以包含列名或者用户变量,在写入列前我们需要使用SET语句对用户变量进行转换。对set语句及用户变量有如下使用方法:

方法1 :在用户变量用于第一列之前,先把第一列的值赋予用户变量,进行除法操作后输入到c1。

[sql] view plain copy

  1. mysql> LOAD DATA INFILE '/tmp/loadtest.txt' INTO TABLE loadtest FIELDS TERMINATED BY ',' OPTIONALLY ENCLOSED BY '"' ESCAPED BY '#' LINES TERMINATED BY '\n' (@var1, c2, c3, c4) set c1 = @var1/2;


mysql语句-load data infile_字段_02

方法2:把c3列设为当前时间(sql-mode使用严格事物模式STRICT_TRANS_TABLES会报错)

[sql] view plain copy

  1. mysql> LOAD DATA INFILE '/tmp/loadtest.txt' INTO TABLE loadtest FIELDS TERMINATED BY ',' OPTIONALLY ENCLOSED BY '"' ESCAPED BY '#' LINES TERMINATED BY '\n' (c1, c2, c4) set c3 = CURRENT_DATE;


mysql语句-load data infile_字段_03

方法3:把输入赋予用户变量,而不把用户变量赋予表中的列,来丢弃此输入值。

[sql] view plain copy

  1. mysql> LOAD DATA INFILE '/tmp/loadtest.txt' INTO TABLE loadtest FIELDS TERMINATED BY ',' OPTIONALLY ENCLOSED BY '"' ESCAPED BY '#' LINES TERMINATED BY '\n' (@dummy, c2, @dummy, c4);


mysql语句-load data infile_字段_04

通过管道导入数据:

在unix系统中,如果我们想要从管道(pipe)中load data,需要用如下方法:

[sql] view plain copy

  1. mkfifo /tmp/ls.dat
  2. chmod 666 /tmp/ls.dat
  3. find / -ls > /tmp/ls.dat &
  4. [root@localhost tmp]# mysql -e "LOAD DATA INFILE '/tmp/ls.dat' INTO TABLE test.tb1 FIELDS TERMINATED BY ',' OPTIONALLY ENCLOSED BY '\"' ESCAPED BY '#' LINES TERMINATED BY '\n'"

注意:sql-mode使用严格事物模式STRICT_TRANS_TABLES会报错

在另一窗口将数据写入管道

[sql] view plain copy

  1. [root@localhost /]# cat /tmp/loadtest.txt > /tmp/ls.dat

注:可以先读或者先写管道,谁先谁后都可以,在写入管道的数据被全部读出前,处于阻塞状态。

5 注意事项

LOAD DATA INFILE可以读取外源的文件,如其它数据库或程序生成的逗号分隔的CSV格式的文件。

当我们使用SELECT ... INTO OUTFILE从数据库导出数据到文件,然后通过LOAD DATA INFILE读取该文件到数据库,这两个语句的field和lines选项必须匹配,否则 LOAD DATA INFILE将不能正确的解释文件的内容。

6 常见错误

6.1 sql_mode为STRICT_TRANS_TABLES,即严格事务模式时,容易出错,例如:

[sql] view plain copy

  1. mysql> LOAD DATA INFILE '/tmp/loadtest.txt' INTO TABLE loadtest FIELDS TERMINATED BY ',' OPTIONALLY ENCLOSED BY '"' ESCAPED BY '#' LINES TERMINATED BY '\n' (c1, c2, c4) set c3 = CURRENT_DATE;
  2. R 1262 (01000): Row 1 was truncated; it contained more data than there were input columns

查看sql_mode

[sql] view plain copy

  1. mysql> show variables like '%sql_mode%';
  2. +---------------+--------------------------------------------+
  3. | Variable_name | Value |
  4. +---------------+--------------------------------------------+
  5. | sql_mode | STRICT_TRANS_TABLES,NO_ENGINE_SUBSTITUTION |
  6. +---------------+--------------------------------------------+

取消严格事务模式才可导入

[sql] view plain copy

  1. set sql_mode='NO_ENGINE_SUBSTITUTION';

6.2 windows上的一些错误

[sql] view plain copy

  1. C:\Program Files\MySQL\MySQL Server 5.5\bin>mysqldump -uroot -pactionsky --tab=/tmp/ loaddata --fields-terminated-by=',' --fields-optionally-enclosed-by='"' --fields-escaped-by='#' --lines-terminated-by='\r\n'
  2. mysqldump: Got error: 1083: Field separator argument is not what is expected; check the manual when executing 'SELECT INTO OUTFILE'

mysql5.5.30




****************************************************************************************

****************************************************************************************