对SQL Server 表中的重复行的正确删除 |
本文标签:SQL Server 表 此文主要向大家讲述的是正确删除 SQL Server 表的重复行的实际操作步骤,以及对正确删除 SQL Server 表的重复行的实际操作过程中,值得我们大家注意的相关事项的描述,以下就是文章的主要内容描述 。 Microsoft SQL Server 表不应该包含重复行和非唯一主键 。为简洁起见,在本文中我们有时称主键为“键”或“PK”,但这始终表示“主键” 。重复的 PK 违反了实体完整性,在关系系统中是不允许的 。SQL Server 有各种强制执行实体完整性的机制,包括索引、唯一约束、主键约束和触发器 。 尽管如此,在某些情况下还可能会出现重复的主键;如果出现此类情况,就必须清除重复主键 。出现重复主键的情形之一是,在 SQL Server 外部的非关系数据中存在重复的 PK,在导入这些数据时没有强制执行 PK 唯一性 。出现重复主键的另一种情形来自数据库设计错误,如没有对每张表强制执行实体完整性 。 通常在尝试创建唯一索引时会发现重复的 PK,因为如果找到重复的键,唯一索引的创建即会中止,并且将显示以下消息:
如果使用的是 SQL Server 2000 或 SQL Server 2005,则会收到以下错误消息: Msg 1505, Level 16, State 1 CREATE UNIQUE INDEX terminated because a duplicate key was found for object name %.*ls and index name %.*ls.The duplicate key value is %ls. 本文讨论如何查找和删除表中重复的主键 。但是,您应该仔细检查出现重复键的进程以避免重复出现 。 更多信息 在该示例中,我们将使用下表,它具有重复的 PK 值 。在该SQL Server 表中,主键是两列(col1、col2) 。我们无法创建唯一索引或主键约束,因为这两行具有重复的 PK 。该过程演示如何识别和删除重复的主键 。
第一步是识别哪些行具有重复的主键值:
这将为SQL Server 表中的每组重复的 PK 值返回一行 。此结果中的最后一列是特定 PK 值的重复数 。
如果只有几组重复的 PK 值,则最佳方法是手动逐个删除它们 。例如:
rowcount 值应该是给定键值的重复数减去 1 。在该示例中,有 2 个重复的主键,所以 rowcount 被设置为 1 。col1/col2 值来自上面的 GROUP BY 查询结果 。如果 GROUP BY 查询返回多行,则“set rowcount”查询将必须为这些行中的每一行各运行一次 。每次运行该查询时,将 rowcount 设置为特定 PK 值的重复数减去 1 。 在删除行之前,您应该验证是否整行重复 。虽然整行重复不太可能发生,但可能 PK 值重复,而整行不重复 。例如一个将身份证号码作为主键的表,该表有两个具有相同号码的不同的人(即行),但每个人有唯一的属性 。在这种情况下,任何引起重复键的问题可能还引起在行中放入有效的唯一的数据 。在删除该数据之前,应该将该数据复制出来并保存下来以进行研究和适当的调整 。 如果表中有多组完全不同的重复的 PK 值,则逐个删除它们会很费时间 。在这种情况下,可使用下面的方法: 1.首先,运行上面的 GROUP BY 查询来确定有多少组重复的 PK 值及每组的重复数 。 2.选择重复的键值放入临时表中 。例如:
3.选择重复的行放入临时表中,以清除进程中的重复值 。例如:
4.此时,holddups 表应有唯一的 PK;但是,如果 t1 有重复的 PK 而行唯一(如上面的 SSN 示例),情况就不是这样了 。请验证 holddups 中的各个键是否唯一,是否没有键重复而行唯一的情况 。如果是这样,您必须停在该处,确定对于给定重复的键值,您希望保留哪些行 。例如,以下查询:
应为各行返回计数 1 。如果结果是 1,请继续执行下面的步骤 5 。如果不是 1,则存在键重复而行唯一的情况,且需要您决定要保存哪些行 。通常,这将需要舍弃行或为此行创建新的唯一的键值 。为 holddups 表中每个此种重复 PK 执行这两个步骤之一 。 5.从原始SQL Server 表中删除重复的行 。例如:
6.将唯一行放回原始表中 。例如:
以上的相关内容就是对如何删除 SQL Server 表中的重复行的介绍,望你能有所收获 。 |