服务器显存过多引发休眠失败,AMD 发布新 Linux 补丁修复 |
珠江路在线
2025年7月2日
【
转载
】天龙私服网站
|
本文标签:AMD,Linux补丁 |
7 月 2 日 信息,科技媒体 phoronix 昨日(7 月 1 日)公布博文,报导称 AMD 公司公布了新的补丁系列,修复了因为显存和 Instinct 加快器过多,招致的系统休眠失败故障 。
援引博文介绍:假如一台服务器配有 8 个带有 192GB 显存的 设施,系统内存超过 2TB,那么就会招致系统休眠浮现故障 。
AMD 工程师 Samuel Zhang 解释称休眠过程中,系统尝试将显存 迁徙到 GTT 或共享内存,假如显存过多,可能会招致系统内存耗尽 。
Samuel Zhang 在最新公布的补丁中 示意:
现代数据 核心 dGPU 通常装备有十分大的 VRAM 。在装备此类 dGPU(192GB VRAM * 8)和 2TB 系统内存的服务器上,休眠会因为内存缺乏而失败 。
根本缘由在于,休眠期间全部 vRAM 内存都会被 迁徙到 GTT 或共享内存 。在两种状况下,它们都在系统内存中,内核会尝试将这些页面复制到休眠镜像 。在最坏的状况下,这会在系统内存中 创立两份 vRAM 内存副本,2TB 的内存缺乏以存储休眠镜像 。
修复 方案包含以下两个变更:1. 将 GTT 迁徙到共享内存, 开释 GTT 页面;2. 强制将共享内存页面写入 交换磁盘, 开释共享内存页面 。
在休眠 预备阶段将 GTT 迁徙到共享内存后,在解冻阶段 复原缓冲对象需求大量 工夫( 视察到 8 个 dGPU 需求 50 分钟) 。
因为后续休眠阶段不需求 使用 GPU,这一步骤并非必要 。第三个补丁便是跳过解冻阶段的缓冲对象 复原,以削减休眠 工夫 。