英伟达新王炸来袭 全新Blackwell架构GPU正式发布

珠江路在线   2024年3月20日  【 转载 】日本电影 

  本文标签:英伟达,计算卡,GPU

英伟达今晨在方才 揭幕的GTC 2024主题 报告上正式公布了崭新的NVIDIA Blackwell平台,为计算的新时代提供动力,使世界各地的组织 能够在万亿参数大型语言模型上构建和运行实时生成式AI,Blackwell GPU架构采纳六项用于加快计算的 改造性技术,成本和能耗比上代至高 能够减低25倍 。

崭新的Blackwell GPU体积 宏大,采纳台积电的4纳米(4NP)工艺创造而,由两个达到视网膜上线大小的芯片组合而成,共有2080亿个晶体管, 而后通过高达10TB/秒的芯片到芯片链路衔接成为一个GPU芯片 。

黄仁勋 示意,Blackwell架构GPU的AI性能可达20petaflops,而上代H100的性能仅有4petaflops 。此外,每个Blackwell Die的浮点运算 威力要比Hopper Die高出25%,并且每个封装中有两个Blackwell芯片,总性能 遍及了2.5倍 。假如 解决FP4八精度浮点运算,性能还能 遍及到5倍 。取决于各种Blackwell 设施的内存容量和带宽配置,工作负载的实际性能可能会更高 。此外,此前训练一个1.8万亿个参数的模型以往需求8000个Hopper GPU和15兆瓦的电力,当前则仅需2000个Blackwell GPU就能 实现这项工作,耗电量仅为4兆瓦 。

此外,崭新的Blackwell架构还装备第二代Transformer引擎, 支撑双倍的计算和模型大小; 晋级第五代NVLink,为每个GPU提供 打破性的1.8TB/s双向吞吐量,确保多达576个GPU中间为最复杂的LLM提供无缝高速通讯;装备RAS引擎用于实现牢靠性、可用性和可 保护性;装备安全AI,可在不影响性能的状况下 掩护AI模型和客户数据,并 支撑新的本机接口加密 协定;还 支撑最新 格局解压缩引擎,可加快数据库 查问,从而在数据 综合和数据科学领域提供最高性能 。

而崭新的NVIDIA GB200 Grace Blackwell超级芯片包括了两个B200 Blackwell GPU和一个基于Arm的Grace CPU,通过900GB/s超低功耗NVLink芯片到芯片互连将两个NVIDIA B200 Tensor Core GPU衔接到NVIDIA Grace CPU 。在参数为1,750亿的GPT-3LLM基准测试中,英伟达称GB200的性能是H100的7倍,而训练速度是H100的4倍 。


英伟达还面向有大型需求的企业提供成品服务,提供 完全的服务器出货,例如GB200NVL72服务器,提供了36个CPU和72个Blackwell GPU,并完善提供一体水冷散热 方案,可实现总计720petaflops的AI训练性能或1440petaflops(1.4exaflops)的推理性能 。它内部 使用电缆长度累计接近2英里,共有5000条独立电缆 。


机架上的每个托盘包括两个GB200芯片或两个NVLink 交换机,每个机架有18个GB200芯片和9个NVLink 交换机,英伟达称,一个机架总共可 支撑27万亿个参数模型 。而作为对照,GPT-4的参数模型约为1.7万亿 。英伟达称,其系统可 扩充至数万GB200超级芯片,并通过崭新的Quantum-X800 InfiniBand(最多144个衔接)或Spectrum-X800以太网(最多64个衔接)与800Gbps网络进行衔接 。

免责声明:凡标注转载/编译字样内容并非本站原创,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。