SQL Server 2008 数据加载创世界记录 |
本文标签:SQL Server 2008 SSIS 数据加载 【51CTO独家特稿】自今年2月推出的SQL Server 2008后 ,使用其SSIS( SQL Server Integration services)工具你可以就感觉到数据加载的世界级的性能记录 。微软与Unisys公司宣布了一项纪录,它是关于关系数据库的数据提取,转换和加载( ETL的)工具 。它能在不足30分钟加载超过1 TB的TPC- H的数据 。我想在此提供以Q &A的纪录形式提供一些背景材料,尽管很难提供更多的技术细节 。我们也正在筹划关于这方面的论文,希望对你了解这背景资料有用 。 - Len Wyatt 数据加载速度到底有多快? 为什么这很重要? 对于今天的商业而言, 目标系统上一直可使用的数据资源是很宝贵的,并且它们无须加以规范或纠正错误就能够加载 。在如此情况下,大批量时代的散装装载数据非常有意义 。数据集成可以涉及复杂的转换规则,错误检查和数据标准化技术 。 如SSIS这样的ETL的工具具备这些功能,如数据系统之间的迁移和格式化数据,完整性检查,键查询,跟踪谱系以及更多 。 SSIS已被证明是一个多功能的ETL工具,而现在是指出的是它还是性能最好的 。 DBGEN工具,来自TPC-H benchmark性能测试工具用于产生1.18 TB的源数据 。数据由DBGEN分割后,允许它被装载在并行的多个系统中 。 DBGEN生成数据的客户,零部件,供应商,订单和项目 。这是具有广泛代表性的一个典型 。这些数据包含各种数据类型,包括日期,金额,整数,字符型及标识型 。 请注意ETL装载结果并非的TPC - H的基准测试结果,不应该和TPC - H的基准测试相比 。 这是一个认证基准吗? 有没有一个被普遍接受的基准的ETL工具? 微软认为应该有 。基准测试的业界标准能导致良性竞争,从而提供更好的产品和采用更好的技术,以获得更高的性能 。 TPC-H的数据的使用为这一项目提供了一个方便 。这不是一个TPC-H的基准测试结果 。 这是经过验证的性能测试吗? 多家竞争对手已经在TPC-H的数据上公布了结果 。Informatica 此前曾报道,此前装载1TB数据为45分钟 。SSIS已经超越了记录,只需要15分钟以上 。 尽管已经有了一些其他的标准,但对于非标准的数据集,并没有足够的资讯以进行全方位意义上的比较 。基于这部分原因,微软将支持建立一个行业标准的ETL的基准 。 使用什么系统配置? 数据库服务器运行一个ES7000/one Unisys的企业服务器, 32双座双核心Intel ® XEON tm 3.4千兆赫( 7140米)处理器, 256 GB的RAM和8双端口4 Gbit HBA卡的 。 SQL Server数据存储在一个拥有165 ( 146 gb/15 krpm )针的EMC Clariion CX3-80 SAN上 。数据库服务器运行在Windows Server 2008x64数据中心版操作系统上面的SQL Server 2008 企业预览版( v10.0.1300.4 , " 2008年2月的发布的CTP版本 " ) 。 源服务器, 4 台Unisys的ES3220L windows2008 x64企业版服务器 。每台服务器配备2 × 2.0 GHz的四核Intel处理器, 4 GB的内存,双端口4 Gbit Emulex的HBA和英特尔PRO1000/PT网 卡 。源数据则来自于被读出2 ×的EMC CLARiiON cx600 SAN存储设备 。 数据源服务器通过双端口1 GB的以太网连接到es7000/one Server数据库服务器 。 为什么要使用多数据源系统? 现代大型企业是包含复杂的业务活动 。大型数据集往往是混合着多种数据源 。这种测试更切合实际,酷似一个真实的ETL场景 。 SSIS包看起来是什么样子的呢? 让我们看看Windows Server 2008技术重点: Windows Server 2008做了许多创新的工作,其中包括内存管理的显着改善, PCI和块存储输入/输出,以及核心网络,从的业绩 。由于这些进展, Windows Server 2008能够持续大约每秒960兆字节网路传输 。 不需要特别的版本和技巧,尽管这是一个预版本, 但它同时是一个正式的SQL Server 008企业版本 。在产品使用上没有任何特殊代码 。我们所做的一切足以让别人仿效 。 在SSIS中我们采用了使用SSIS数据流匹配的数据类型,因此从平面文件读取的数据并不需要转换,在文本文件字段被应用的时候就能获得最快地解析 。 后续将有一份完整的清单文件发表,它将包含系统的设置和优化等内容 。 |