当前位置：首页 > 问答 > 正文

Oracle数据库去重技巧分享，教你快速高效清理重复数据，提升性能不再难

称怜
问答
2026-01-15 10:25:29
4

在日常使用Oracle数据库的时候,我们经常会遇到一个让人头疼的问题，那就是数据重复，这些重复的数据不仅会占用宝贵的存储空间，更会拖慢查询的速度，让整个系统的性能大打折扣，可能是因为程序逻辑的漏洞，或者人为操作的失误，甚至是数据导入时出了岔子，导致同一份数据在数据库里存了两遍甚至更多遍，我们就来分享几个在Oracle里清理重复数据的实用技巧，让你能快速高效地解决这个问题，提升数据库性能。

在动手清理之前,最关键的一步是先把这些重复的“家伙”给找出来，你不能盲目地删除，万一删错了，那可就麻烦大了，怎么找呢？最常用的方法就是使用GROUP BY和HAVING子句，举个例子，假设我们有一张叫employee的员工表，我们认为如果员工ID和姓名这两个字段都完全一样，那就是重复数据，那么查询语句可以这么写：

SELECT 员工ID, 姓名, COUNT(*)
FROM employee
GROUP BY 员工ID, 姓名
HAVING COUNT(*) > 1;

这条语句的意思就是,按照员工ID和姓名分组，然后数一数每一组有多少条记录，如果某个组的记录数大于1，那就说明这个组里的数据是重复的，通过这个方法，我们就能把所有重复的数据记录都筛选出来，做到心中有数。（这个方法在Oracle官方文档关于聚合函数的章节中有详细说明，是识别重复数据的基础）

找到了重复数据,接下来就是怎么删除的问题了，这里有几个不同的场景和对应的招数。

第一招：使用ROWID进行精确删除

这是Oracle数据库去重最经典、最常用的方法，Oracle数据库里的每一行数据都有一个唯一的物理地址标识，叫做ROWID，即使是两行所有字段内容都一模一样的数据，它们的ROWID也肯定是不同的，这就给我们提供了删除的“抓手”。

我们的思路是：在那些重复的数据组里，只留下一条（比如ROWID最小的那条），删除其他所有的，我们可以用一个子查询来实现：

DELETE FROM employee
WHERE ROWID NOT IN (
    SELECT MIN(ROWID)
    FROM employee
    GROUP BY 员工ID, 姓名
);

这个语句的子查询部分,SELECT MIN(ROWID) FROM employee GROUP BY 员工ID，姓名，会找出每组重复数据中ROWID最小的那条记录，外层的DELETE语句就会删除那些ROWID不在这个“保留列表”里的所有记录，这样操作之后，每组重复数据就只剩下一条了，这种方法非常直接有效，尤其适合处理完全重复的记录。（ROWID是Oracle数据库的一个核心概念，在其官方文档的《Oracle Database Concepts》手册中有权威定义和解释）

第二招：利用窗口函数ROW_NUMBER()进行高级去重

情况会更复杂一些,重复数据可能不是所有字段都相同，我们可能只想根据其中几个关键字段来去重，又或者，我们想根据某个时间戳字段，保留最新或最旧的那一条，这时候，ROW_NUMBER()窗口函数就派上大用场了。

假设在employee表里，我们想根据员工ID去重，并且希望保留每个ID最近创建的那条记录（假设有一个create_time字段），我们可以这样做：

DELETE FROM employee
WHERE ROWID IN (
    SELECT rid FROM (
        SELECT ROWID as rid,
               ROW_NUMBER() OVER (PARTITION BY 员工ID ORDER BY create_time DESC) as rn
        FROM employee
    )
    WHERE rn > 1
);

我们来拆解一下这个语句,最内层的子查询使用ROW_NUMBER()函数，它的作用是：按照员工ID进行分区（PARTITION BY），也就是把相同ID的数据划为一组；然后在每个组内部，按照create_time降序（DESC）排列，并给每行分配一个序号（rn），这样，每个ID组里，最新的一条记录rn就是1，次新的是2，以此类推，中间一层的子查询 simply 把ROWID和rn选出来，最外层的DELETE语句就很简单了，直接删除那些序号大于1的记录，也就是每个组里不是最新的那些记录，这种方法非常灵活，你可以通过调整ORDER BY子句来决定保留的规则。（窗口函数是Oracle SQL高级功能，在《Oracle Database Data Warehousing Guide》等文档中有深入介绍）

第三招：创建临时表或使用CTE（公用表表达式）

对于数据量特别大的表,直接在上面进行DELETE操作可能会产生大量的undo日志，影响数据库性能，甚至可能锁表时间过长，一个更稳妥的办法是“先保留，后替换”。

我们可以先创建一个临时表,这个临时表的结构和原表一样，但数据是去重后的。

CREATE TABLE employee_temp AS
SELECT * FROM (
    SELECT e.*,
           ROW_NUMBER() OVER (PARTITION BY 员工ID ORDER BY create_time DESC) as rn
    FROM employee e
)
WHERE rn = 1;

这条语句利用了我们刚才讲的ROW_NUMBER()方法，只选取每个分组里rn=1的记录（即我们要保留的记录），然后创建一个新表employee_temp来存放它们，创建好之后，我们可以先验证一下临时表的数据是否正确，确认无误后，再执行以下步骤：