当前位置：首页 > 问答 > 正文

数据库表里重复数据太多了，咋快速清理掉那些重复的记录呢？

芮以莲
问答
2026-01-08 12:13:13
2

“数据库里重复数据太多，想快速清理掉，这个事儿确实挺烦人的，你不能直接上手就删，万一删错了，数据对不上，那麻烦就大了，不管用啥方法，第一步永远都是：备份！备份！备份！ 重要的事情说三遍，你可以把要处理的表单独导出一份，或者如果数据库支持，就给当前数据库打个快照，这样就算操作失误，也有后悔药可以吃，这是来自所有有经验的数据库管理者的一致忠告，是铁律。（来源：普遍认可的数据库操作安全准则）

备份好了，心里就踏实了，你得先搞清楚，到底哪些数据是重复的，所谓的‘重复’，标准是啥？通常是指那些除了系统自动生成的ID不一样，其他所有业务字段都一模一样的记录，比如一个用户表，姓名、电话、身份证号都相同，但ID不同，这就算重复，你得先把这个‘重复’的标准定下来。

搞清楚标准后，一个非常实用且直观的方法是使用一个叫 ROW_NUMBER() 的窗口函数，这个方法在大多数现代数据库里都支持，比如MySQL 8.0以上、PostgreSQL、SQL Server这些。（来源：各类数据库官方文档关于窗口函数的章节）它的思路很聪明：不是直接找重复，而是给数据‘编组排号’。

具体操作分两步走：

第一步，先查查看，别急着删,你可以写这样一句SQL语句：

SELECT *,
       ROW_NUMBER() OVER (PARTITION BY 字段1, 字段2, 字段3 ORDER BY ID) as row_num
FROM 你的表名;

这句SQL的意思是：按照你定的重复标准（比如字段1、字段2、字段3），把数据分成不同的组，在每个组内部，按照某个顺序（比如按ID从小到大）给每行数据编个号，第一行就是1，第二行就是2，以此类推，这个编号就是row_num，很显然，在一个组里，所有row_num大于1的行，都是重复的记录（因为我们通常保留编号为1的那一条）。

数据库表里重复数据太多了，咋快速清理掉那些重复的记录呢？

你可以先执行这个查询，看看结果是不是你预期的，重复的记录是不是都被标记出来了，确认无误后,再进行第二步。

第二步，动手删除，这时候，我们需要把上一步的查询结果变成一个可以删除操作的目标，通常会用一个叫公共表表达式（CTE）的东西，或者一个子查询，来把刚才那个带编号的结果集临时存一下，然后删除其中row_num > 1的记录，以CTE为例,写法是这样的：

WITH CTE AS (
    SELECT *,
           ROW_NUMBER() OVER (PARTITION BY 字段1, 字段2, 字段3 ORDER BY ID) as row_num
    FROM 你的表名
)
DELETE FROM CTE WHERE row_num > 1;

执行这条语句，数据库就会把所有重复组里排在后面的记录都删掉，只保留每个组的第一条（row_num = 1），这种方法的好处是思路清晰，一步到位,比较高效。

数据库表里重复数据太多了，咋快速清理掉那些重复的记录呢？

除了这个‘编组排号’的方法，还有一些其他的思路,适合不同的场景：

使用临时表‘倒腾’数据： 这个方法比较‘土’但很可靠，尤其适合数据量巨大，或者你对写复杂DELETE语句心里没底的情况,步骤是：

创建一个新的临时表,表结构和原表一模一样。
把原表的数据去重后插入到临时表里，怎么去重插入呢？可以用INSERT INTO ... SELECT DISTINCT ...这样的语句，但DISTINCT有时候不好使，因为ID不同，更稳妥的是用GROUP BY你定义的那些业务字段,然后取每个组的最小或最大ID对应的记录。
确认临时表里的数据正确无误后，把原来的表删掉（或者重命名备份），再把临时表改名成原来的表名。这个方法操作步骤多，但每一步都相对简单明了,不容易出错。

利用表的唯一索引或主键约束来‘阻止’重复： 如果你的表还没有建立防止重复的约束，并且你希望从根子上杜绝以后的重复数据，这是一个一劳永逸的办法，你可以尝试为你判定重复的那些业务字段组合，创建一个唯一索引，在创建索引的时候，数据库会自动检查现有数据是否有重复，如果有很多重复，创建会失败，这时候，你可以先按照上面的方法把重复数据清理干净，然后再成功创建这个唯一索引，这样以后应用程序再插入重复数据时，数据库就会直接报错，从而保证数据的唯一性，这是一种治本的方法。（来源：数据库设计最佳实践）

最后再强调几个注意事项：

确定保留规则： 删除前一定要想好，一个重复组里，你保留哪一条？是最早创建的（ID最小）？还是最近更新的（时间戳最新）？上面的例子是按ID排序，保留最早的一条，你可以根据业务需要调整ORDER BY子句。
小心外键关联： 如果这个表被其他表通过外键引用着，你不能简单删除，需要先处理那些依赖这些记录的子表，否则会破坏数据完整性,导致删除失败。
在测试环境练习： 如果你是第一次操作，强烈建议在一个和生产环境一样的测试数据库里，用备份的数据先演练几遍，确认流程和结果完全正确后,再到生产环境操作。

清理重复数据的关键是‘稳’字当头，备份是前提，明确重复标准是基础，选择适合自己的方法是关键。‘编组排号’法（ROW_NUMBER）是当前比较推荐的高效方法，但临时表法也更直观安全，处理好之后，最好加上唯一约束以防后患。”