![]() |
挑战卡皇TITAN!GTX 780 SLI巅峰测试 |
(2013-6-6)
|
GK110核心流式多 解决器(SMX)架构 Kepler GK110的新SMX引入几个架构创新,使其不只成为有史以来最 壮大的多 解决器,而且更具编程性,更节能 。 ![]() SMX: 192个单精度CUDA核、64个双精度单元、32个特殊 性能单元(U)和32 个加载/存储单元(LD/ST) 。 SMX 解决核架构 每个Kepler GK110 SMX单元 存在192单精度CUDA核,每个核 彻底由浮点和整数算术逻辑单元构成 。Kepler 彻底保留Fermi引入的IEEE 754-2008 标准的单精度和双精度算术,包括积和熔加(FMA)运算 。 Kepler GK110 SMX 的设计 指标之一是大大 普及GPU的双精度性能,由于双精度算术是许多HPC 利用的核心 。Kepler GK110 的SMX还保留了特殊 性能单元 (U)以达到和上一代GPU 类似的 快捷 超过运算,所提供的U数量是Fermi GF110 SM的8倍 。 与GK104 SMX单元 类似,GK110 SMX单元内的核 使用主GPU频率而不是2倍的着色频率 。2x着色频率在 G80 Tesla 架构的 GPU 中引入,并用于之后所有的 Tesla 和 Fermi‐架构的GPU 。在更高时钟频率上运行执行单元使芯片 使用较少量的执行单元达到特定 指标的吞吐量,这 本质上是一个面积优化,但速度更快的内核的时钟逻辑更耗电 。关于Kepler,我们的首要 使命是的性能/功率比 。 固然我们做了众多面积和功耗方面的优化,然而我们更 偏向优化功耗,甚至以增 加面积成本为代价使大量 解决核在能耗少、低GPU频率状况下运行 。 Quad Warp Scheduler SMX以32个并行线程为一组的 模式调度 历程,这32个并行线程叫做Warp 。而每个SMX中 占有四组 Warp Scheduler 和八组 Instruction Dispatch 单元,同意四个Warp同时发出执行 。Kepler 的 Quad Warp Scheduler 取舍四个 Warp,在每个循环中 可以指派每 Warp 2 个独立的指令 。与 Fermi 不同,Fermi 不同意双精度指令和 部分 其余指令配对,而 Kepler GK110 同意双精度指令和 其余特定没有注册文件读取的指令配对 例如加载/存储指令、纹理指令以及一些整数型指令 。 ![]() 每个Kepler SMX 包括4组Warp Scheduler,每组Warp Scheduler包括两组 Instruction Dispatch单元 。单个Warp Scheduler单元如上所示 。 我们 奋力优化SMX Warp Scheduler逻辑中的能源 。例如,Kepler和Fermi Scheduler 包括 类似的硬件单元来 解决调度 性能 。其中包括: b) Warp 内调度决定(例如在合格的候选 Warp 中 取舍出最佳 Warp 运行) c) 线程块级调度(例如,GigaThread 引擎) 然而,Fermi的scheduler还包括复杂的硬件以 预防数据在其 本身数学数据路径中的 弊病 。多端口 存放器记录板会纪录任何没有有效数据的 存放器,依赖 审查块针对记录板 综合多个 彻底解码的 Warp指令中 存放器的 使用状况过,确定哪个有资格发出 。 关于 Kepler ,我们 意识到这一信息是确定性的(数学管道延迟是不变量), 因此,编译器 可以提前确定指令何时 预备发出,并在指令中提供此信息 。这样一来,我们就 可以用硬件块替换几个复杂、耗电的块,其中硬件块提 存入之前确定的延迟信息并将其用于在 Warp 间调度阶段屏蔽Warp,使其失去资格 。 |
![]() |
百度中 挑战卡皇TITAN!GTX 780 SLI巅峰测试 相关内容 |
![]() |
Google搜索中 挑战卡皇TITAN!GTX 780 SLI巅峰测试 相关内容 |