mysql批量删除数据库重复的数据

原创

mob649e8158ed1f 2023-07-24 04:18:48 ©著作权

文章标签 重复数据 MySQL 批量删除 文章分类 MySQL 数据库

©著作权归作者所有：来自51CTO博客作者mob649e8158ed1f的原创作品，请联系作者获取转载授权，否则将追究法律责任

MySQL批量删除数据库重复的数据

在处理大型数据库时，经常会遇到需要删除重复数据的情况。MySQL是一个常用的关系型数据库管理系统，提供了强大的功能来处理数据。本文将介绍如何使用MySQL的查询语言（SQL）来批量删除数据库中的重复数据。

理解重复数据

在开始删除重复数据之前，我们首先需要理解什么是重复数据。在关系型数据库中，重复数据指的是在一个表中具有相同值的多行。这可能是由于数据插入错误、数据冗余或其他原因导致的。

例如，假设我们有一个名为students的表，其中包含以下数据：

id	name	age
1	Alice	20
2	Bob	22
3	Charlie	20
4	Alice	21
5	Bob	22

在上述示例中，行1和行4具有相同的姓名（Alice），行2和行5具有相同的姓名（Bob），这些行就被认为是重复的。

查找重复数据

为了查找重复的数据，我们可以使用MySQL的GROUP BY和HAVING子句来编写查询语句。以下是一个示例查询，用于找到students表中的重复姓名：

SELECT name, COUNT(*) FROM students
GROUP BY name
HAVING COUNT(*) > 1;

运行以上查询，将返回所有重复姓名及其重复的次数。在我们的示例中，它将返回以下结果：

name	COUNT(*)
Alice	2
Bob	2

删除重复数据

一旦我们找到了重复的数据，我们就可以使用MySQL的DELETE语句来删除它们。以下是一个示例查询，用于删除students表中的重复姓名：

DELETE FROM students
WHERE id NOT IN (
  SELECT MIN(id) FROM students
  GROUP BY name
);

运行以上查询，将删除除具有最小id值的行之外的所有重复姓名的行。在我们的示例中，它将删除行4和行5。

批量删除重复数据

上述方法适用于删除少量重复数据，但在处理大型数据库时，可能需要批量删除重复数据。为了实现批量删除，我们可以编写一个存储过程来自动执行上述查询。

以下是一个示例存储过程的代码：

DELIMITER //

CREATE PROCEDURE delete_duplicates()
BEGIN
  DECLARE done INT DEFAULT FALSE;
  DECLARE name_value VARCHAR(255);
  DECLARE cur CURSOR FOR
    SELECT name FROM students
    GROUP BY name
    HAVING COUNT(*) > 1;
  DECLARE CONTINUE HANDLER FOR NOT FOUND SET done = TRUE;

  OPEN cur;

  read_loop: LOOP
    FETCH cur INTO name_value;
    IF done THEN
      LEAVE read_loop;
    END IF;
    DELETE FROM students
    WHERE id NOT IN (
      SELECT MIN(id) FROM students
      WHERE name = name_value
    );
  END LOOP;

  CLOSE cur;
END //

DELIMITER ;

以上存储过程使用游标（CURSOR）来遍历所有重复的姓名，并使用DELETE语句删除除最小id值之外的行。

要执行存储过程，只需使用以下语句：