今天在编写Python程序进行数据库的Update操作时,发现更新一条数据大概需要0.5秒
粗略计算一下,更新42万条大概需要58个小时,因此在执行大数据量更新的时候一条条进行更新基本行不通,除非你非常有耐心。通过查阅资料发现有三种优化方法
- MySQL自带的批量更新
- 存储过程
- 建立索引
对于存储过程和索引我用的比较少,所以这里我用了第一种方法。
以表nine_tuple(包含列N_T_ID和SENTI_VALUE)为例,然后需要从文本文件senti_values.txt中读取N_T_ID和SENTI_VALUE值,并根据N_T_ID来更新SENTI_VALUE一列的值
表1
MySQL批量插入的语法为:
UPDATE nine_tuple
SET SENTI_VALUE = CASE N_T_ID
WHEN 1 THEN ‘1.57’
WHEN 2 THEN ‘1.3’
WHEN 3 THEN ‘1.2’
END
WHERE N_T_ID IN (1,2,3)
主要思想:将42W条数据分批次进行更新,我这里分42次,即每次批量更新1万条,然后编写Python程序按上面的语法格式构建相应的SQL语句,代码如下:
f=open("senti_values.txt",'r',encoding='utf8')
res=f.readlines()
for i in range(0,42):
sql1 = "UPDATE nine_tuple SET SENTI_VALUE = CASE N_T_ID "
sql2 = '1'
for j in range(j*10000, (j+1)*10000):
r = res[j].split('\n')[0].split(';')
ntid = int(r[0])
f_senti_sala = float(r[1])
senti_sala = str(float('%.3f' % f_senti_sala))
sql1 += ' WHEN %d THEN \'%s\'' % (ntid, senti_sala)
if (i != 0):
sql2 += ',' + str(ntid)
sql = sql1 + ' END' + " WHERE N_T_ID IN (%s)" % (sql2)
print(str(i + 1))
cursor.execute(sql)
db.commit()
db.close()
print('OK')
最终执行完只用了47秒左右。
注:肯定还有用时更少的优化方法,欢迎交流。