英伟达Blackwell芯片存在“发热问题”,引发客户担忧 |
珠江路在线
2024年11月20日
【
转载
】天龙八部公益服
|
本文标签:英伟达,芯片,机架 |
英伟达Blackwell芯片曝 起程热问题,需求再一次设计机架并可能招致客户延误 。
本文 引用地址:
据The Information周日报导,英伟达下一代Blackwell 解决器安装在高容量服务器机架时面临着过热的 挑战 。发热问题招致了设计变更和延迟,并引起了Google、Meta 和Microsoft等客户的 担心,他们 担心自己是不是能按时部署Blackwell服务器 。
此前,因为芯片浮现设计缺点,英伟达已只能将Blackwell GPU的生产和交付 推延至少一个季度 。这两起事件凸显了英伟达在满足客户对AI硬件的需求方面所面临的 困苦 。
新的服务器机架之所以 意思重大,是因为其集成了72个英伟达 AI 芯片,估计每机架功耗高达120kW 。因为过热会 制约GPU性能并有 败坏组件的风险,该问题招致英伟达 屡次再一次评估其服务器机架的设计,
针对延迟和过热问题,英伟达已 批示其供给商对机架进行几项设计更改,以解决过热问题 。该公司与供给商和合作 搭档紧密合作,开发工程 订正版以改善服务器冷却 。 固然这些调整关于如此大规模的技术公布来说是 标准做法,但它们 依然添加了延迟,进一步 推延了预期的发货日期 。
高管们 示意,他们至少需求几周的 工夫来测试系统并解决可能浮现的问题,尤其是考量到其 别致的设计和前所未有的复杂性 。据一位 参加设计的人士称,一些客户(如微软) 方案通过改换一些组件来定制Blackwell 机架,以适应他们的数据 核心 。
与此同时,客户也在考量 其余 取舍 。一家订购了机架的云计算公司的高管 示意,Blackwell的问题招致该公司考量购买更多英伟达目前一代 Hopper 芯片 。
综合 示意,客户决定购买更多Hopper芯片,可能会 遍及英伟达的短期收益, 综合师和投资者估量 Hopper 系列的利润率更高 。但这对英伟达 将来的收入增进来说可能不是一个好兆头,已经转向 Hopper芯片的客户可能不会订购那么多Blackwell芯片和NVLink服务器 。