今天在编写Python程序进行数据库的Update操作时,发现更新一条数据大概需要0.5秒

mysql 怎么更新百万数据状态 mysql一次更新几十万条数据_sql


粗略计算一下,更新42万条大概需要58个小时,因此在执行大数据量更新的时候一条条进行更新基本行不通,除非你非常有耐心。通过查阅资料发现有三种优化方法

  • MySQL自带的批量更新
  • 存储过程
  • 建立索引

对于存储过程和索引我用的比较少,所以这里我用了第一种方法。

以表nine_tuple(包含列N_T_ID和SENTI_VALUE)为例,然后需要从文本文件senti_values.txt中读取N_T_ID和SENTI_VALUE值,并根据N_T_ID来更新SENTI_VALUE一列的值

mysql 怎么更新百万数据状态 mysql一次更新几十万条数据_sql_02


表1

mysql 怎么更新百万数据状态 mysql一次更新几十万条数据_Python_03

MySQL批量插入的语法为:

UPDATE nine_tuple
    SET SENTI_VALUE = CASE N_T_ID 
        WHEN 1 THEN ‘1.57’ 
        WHEN 2 THEN ‘1.3’ 
        WHEN 3 THEN ‘1.2’ 
    END
WHERE N_T_ID IN (1,2,3)

主要思想:将42W条数据分批次进行更新,我这里分42次,即每次批量更新1万条,然后编写Python程序按上面的语法格式构建相应的SQL语句,代码如下:

f=open("senti_values.txt",'r',encoding='utf8')
    res=f.readlines()
    for i in range(0,42):
        sql1 = "UPDATE nine_tuple SET SENTI_VALUE = CASE N_T_ID "
        sql2 = '1'
        for j in range(j*10000, (j+1)*10000):
            r = res[j].split('\n')[0].split(';')
            ntid = int(r[0])
            f_senti_sala = float(r[1])
            senti_sala = str(float('%.3f' % f_senti_sala))
            sql1 += ' WHEN %d THEN \'%s\'' % (ntid, senti_sala)
            if (i != 0):
                sql2 += ',' + str(ntid)
        sql = sql1 + ' END' + " WHERE N_T_ID IN (%s)" % (sql2)
        print(str(i + 1))
        cursor.execute(sql)
        db.commit()
    db.close()
    print('OK')

最终执行完只用了47秒左右。
注:肯定还有用时更少的优化方法,欢迎交流。