服务器显存过多引发休眠失败,AMD 发布新 Linux 补丁修复

珠江路在线   2025年7月2日  【 转载 】天龙私服网站 

  本文标签:AMD,Linux补丁

7 月 2 日 信息,科技媒体 phoronix 昨日(7 月 1 日)公布博文,报导称 AMD 公司公布了新的补丁系列,修复了因为显存和 Instinct 加快器过多,招致的系统休眠失败故障 。

援引博文介绍:假如一台服务器配有 8 个带有 192GB 显存的 设施,系统内存超过 2TB,那么就会招致系统休眠浮现故障 。

AMD 工程师 Samuel Zhang 解释称休眠过程中,系统尝试将显存 迁徙到 GTT 或共享内存,假如显存过多,可能会招致系统内存耗尽 。

Samuel Zhang 在最新公布的补丁中 示意:

现代数据 核心 dGPU 通常装备有十分大的 VRAM 。在装备此类 dGPU(192GB VRAM * 8)和 2TB 系统内存的服务器上,休眠会因为内存缺乏而失败 。

根本缘由在于,休眠期间全部 vRAM 内存都会被 迁徙到 GTT 或共享内存 。在两种状况下,它们都在系统内存中,内核会尝试将这些页面复制到休眠镜像 。在最坏的状况下,这会在系统内存中 创立两份 vRAM 内存副本,2TB 的内存缺乏以存储休眠镜像 。

修复 方案包含以下两个变更:1. 将 GTT 迁徙到共享内存, 开释 GTT 页面;2. 强制将共享内存页面写入 交换磁盘, 开释共享内存页面 。

在休眠 预备阶段将 GTT 迁徙到共享内存后,在解冻阶段 复原缓冲对象需求大量 工夫( 视察到 8 个 dGPU 需求 50 分钟) 。

因为后续休眠阶段不需求 使用 GPU,这一步骤并非必要 。第三个补丁便是跳过解冻阶段的缓冲对象 复原,以削减休眠 工夫 。

免责声明:凡标注转载/编译字样内容并非本站原创,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。