MSSQL Server 数据导入:行为规范 |
我最早
使用的一个关系型 DBMS 便是 Microrim's R:Base 4000. R:Base,与其 PC 竞争对手 dBase 不同的是,它是真正的关系型数据库治理系统,是在 20 世纪 80 年代初作为 NASA RIM(关系信息治理,Relational Information Management)系统的一个 PC 版本开发出来的 。而我最观赏的
性能之一是它同意消费者在导入过程中查看示例数据 。
只管像 bcp、DTS、新的 SQL Server 2005 集成服务这样的工具以及各种移植工具和向导已经将数据导入过程自动化到 SQL Server 之中,但这不
象征着我们
可以一劳永逸 。本月,Ron Talmage 提供一些对于导入数据的十分好的常识性
提议 。 确保将载入的原始数据暂存为 varchar 数据类型 源自所谓的旧式系统的原始数据通常以文本 格局 传递, 因此我首先总是将原始数据载入一个 径自的暂存数据库 。我从不尝试将数据直接载入一个成品数据库 。 我做的 事件是将全部 原始文本数据载入相应的原始表,表中的列为 varchar 数据类型 。(DTS 将自动 实现该过程,这样很好 。然而,DTS 还会将列命名为 COL001, 因此您不用事先提供列名 。)varchar 的主要 长处是它 可以 接纳任何数据 — 甚至是“坏”数据 。假如您尝试从一个没有对消费者输入的数据进行严格 审查的旧式系统加载数据,那么被 忽略的数据或写入 异样文件的数据可能比加载的数据还多,假如您不想冒这样的风险,除非 接纳每一个可能的值 。将字符载入 varchar 数据类型的列则 可以做到这丝毫 。 在暂存表/列名时不要 使用非字母数字字符 您可能 无奈操纵在包括原始数据的表中如何对列进行初始命名,然而我会尝试 批改可能包括空格或 其余非 通例字符的旧式列名 。当列名或表名包括非字母数字的字符时,我们必须 使用方括号或双引号对其进行分隔 。这种代码不单编写起来 比较 困苦,并且可读性较差 。 不要在列名中 使用 要害字 源自旧式系统的数据通常包括 可以 毁坏 SQL 查问的 形容性列名 。例如,房地产数据可能会包括一个名为 KEY 的列,它用来反映 搁置在待售房屋上的钥匙箱 。然而,KEY 也是 T-SQL 中的一个 要害字 (!),假如 使用这样的列名, 查问操作在直接 引用该列名时将失败 。 因此,最后您必须用方括号或双引号分隔含有 要害字的列名 。 确保 使用正确的数据类型 缔造一个暂存表 下一步是 缔造一个或多个额外的暂存表,这些表有“正确的”数据类型 。我喜爱使暂存表和 指标 OLTP(Online Transaction Processing,联机事务 解决)数据库中的 目标表 存在 雷同的列名 。 无论 怎么,主要的是原始数据中每列的数据类型在载入暂存时都将执行 审查并予以 修改 。在 SQL Server 表中找到坏数据比在加载失败的外部文件中找到坏数据方便得多 。 确保将新列增加到暂存表中 当暂存数据没有相应的列时,您 可以增加这些列, 而后拆分或合并载入的数据 。例如, 即便 目标表分解出街道名和门牌号,地址 依旧可能作为一个 方便的字符串载入暂存表 。那么您 可以在暂存表中增加街道名列和门牌号列,将旧式地址分解为两个列 。这样做的 长处是,原始数据与新拆分的数据并存, 因此您 可以通过 比较列来测试脚本 。 确保 使用当地副 原来测试填充的产品数据 当您 预备好要插入暂存表的数据时, 可以首先通过将其插入成品表的当地副 原来测试这些数据 。有时您 惟独清空表;有时,您必须填充表 。 确保保留产品 束缚 在副表上总是保留产品 束缚 。这样,您就 可以测试暂存表数据满足这些 束缚的程度 。这些 束缚包括 NULL、默许值、 审查、主键和外键 束缚 。首先 保障副表列上的 NULL 或 NOT NULL 属性与 指标系统的 雷同, 而后再逐渐 审查 其余全部 束缚 。假如您的测试表明暂存数据插入过程满足全部 束缚,那么您 间隔 顺利就惟独一步之遥了 。 确保在一个产品数据副本上测试 固然将导入数据插入空表将遇到众多潜在的问题,然而不会遇到全部的问题 。在通过了全部之前的测试后,确保您将在一个 指标数据或成品系统的副本(或至少是一个 正当的子集)上测试导入 。您 可以 接纳的最后 舛误类型将由数据配置决定,并且这是此项测试 可以检测到的 。那么,您就 可以在数据库副本中 审查 后果,甚至可能将 利用程序重定向到该副本以便进一步测试和验证 。【专栏作家 Tom Moreau 补充说,“ 使用每日成品更新数据进行测试 可 认为数据移植做 预备 。假如原来的系统没有足够的 束缚而新系统有,那么坏数据将进入原来的系统并 毁坏您的移植 。” - Ed.】 假如导入过程至此通过了全部测试,那么您可能已经 预备好进行导入数据了,或者至少 可以将导入过程交给 品质治理员 (QA, Quality Assurance) 了 。 |