![]() |
Computex泄密 独家解析AMD下代GPU架构 |
(2010-6-2)
|
● R600以来的着色器结构与资源追加 SIMD结构ALU单元用作GPU着色器从提出直到现在,已经在GPU设计中被沿用了10年。AMD所使用的SIMD结构流处理器,具有非常明显的优势就是执行全4D指令时简洁高效,对晶体管的需求量更小。 而NVIDIA为了达到MIMD流处理器设计,消耗了太多晶体管资源,同时促使NVIDIA大量花费晶体管的还有庞大的线程仲裁机制、端口、缓存和寄存器等等周边资源。NVIDIA为了TLP(线程并行度)付出了太多的代价,而这一切代价,都是为了GPU能更好地运行在各种复杂环境下。
但是业界普通的共识是SIMD结构的流处理器设计能够有效降低晶体管使用量,特别是在已经设计好的架构中扩展流处理器数量的难度,比起MIMD结构要容易很多。
对比R600和G80架构可知,4个1D标量ALU和1个4D矢量ALU的理论运算能力是相当的,但是前者需要4个指令发射端和4个控制单元,而后者只需要1个,如此一来MIMD架构所占用的晶体管数将远大于SIMD架构。
回顾AMD在统一渲染时代做出的努力,我们能够感觉到从R600到R800时代,AMD在试图通过不断堆砌SIMD结构的ALU运算器以提升性能,这是一个简单而粗暴的真理。由于R600-R800的US是分“1大4小”,即一个全功能SP单元和4个仅能执行乘加运算而无法执行连乘运算的部分功能SP。所以在上图测试的Float 5指令中,由于数据类型符合其流处理器结构,AMD的GPU设计发挥出了理论应有的最高性能。 R600为每个US配备了1个发射端,所以如果要保证指令吞吐不受限制就通过VLIW,也就是超长指令打包的形式将若干个短指令打包在一起。在US结构方面,从R600到R800几乎没有任何变化,我们所看到的性能提升,是因为周边资源放大之后R800比RV770或者说比R600更好的通过cache机制来掩盖延迟造成的损失。 RV870,基本上应该就是RV770+DX11强制的硬件IC(曲面细分单元),不仅R600的构架完全没变,而且其周边资源,尤其是Sram和寄存器资源理论上并没有得到本质性的强化。但是借由40nm工艺所带来的频率提升,以及长时间在RV770中的积累所带来的寄存器和Sram时序的调整以及调度模式的转变,HD5870获得了非常理想的性能提升。 要想改进AMD目前的流处理器结构,在HD6000系列中几乎已经没有可能,也就是说从某种程度上来讲,HD6000仍然基于HD2000以来的架构基础。特别是用VLIW技术所组织的流处理器结构这一点不会发生改变,因为AMD一旦转变设计方向,现在建立起来的一切性能领先优势可能不复存在。 |
![]() |
百度中 Computex泄密 独家解析AMD下代GPU架构 相关内容 |
![]() |
Google搜索中 Computex泄密 独家解析AMD下代GPU架构 相关内容 |
![]() |
雅虎中 Computex泄密 独家解析AMD下代GPU架构 相关内容 |
![]() |
Sogou搜索中 Computex泄密 独家解析AMD下代GPU架构 相关内容 |