首页 > 范文大全 > 正文

巅峰设计的GPU

开篇:润墨网以专业的文秘视角,为您筛选了一篇巅峰设计的GPU范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!

AMD历经了5代产品后,终于对GPU微架构进行了重大的改进,为我们带来了HD6900系列。不过,对手已经在其间经历了3次重要变革,那么此变化究竟为我们带来什么?曾经对技术同样执着的ATI(AMD),在R600进化当中而变得缓慢。相对G80的劣势一直到RV770的出现才为ATI(AMD)带来了生机。可以说,RV770是AMD一个重要的开始,其产品设计理念开始往中端“小核心”的策略靠拢。并且此理念一直影响到Cayman以及后续的核心。

在设计路线上,AMD更趋向于切入市场的中端主流,并且用双核心策略占领性能王者位置。那么,现在HD6900的第七次变化,带来了什么新的特性,以及它的意义何在?同时读者也想了解显卡的具体性能,这些下文将为你一一解答。

Cayman架构:4D体系只是开端

AMD的第一代DX10产品是R600核心,其对应的是NVIDIA的G80核心。虽然说R600是AMD首款基于DX10的gpu,不过,其已经是XBOX 360后的第二代统一流处理器架构。该架构也就是我们常说的5D架构,正确说是5DVLIW体系。它的含义是每个流处理器有五个执行单元。而且,此底层架构一直沿用到HD6800系列中,一共经历了5代的设计路线。最终在Cayman中从新设计为效率更高的4DVLIW架构。

之前的5DVLIW采用的是非对称5个执行单元,其中包括4个常规运算单元和1个超越指令执行单元(执行超越函数例如Sin、Cos、Log等)。前代的5D设计思想主要是出于对图形指令的考虑,因为图形指令一般包含3颜色向量加一个深度值或透明值,而第五个超越单元主要是用来像素插值用。因此看似完美的底层设计理论上会带来极高的峰值效能。不过AMD当时并没意识到此架构对于游戏引擎以及驱动的依赖十分大。

如此并行的执行依靠极高的优化技巧来避开指令的相关性。因为,如果指令只运用到流处理器的一个执行单元的话那么就有4/5的资源被浪费掉。因此这也是此架构执行效率低下的原因之一。

同时,这里有一个原因便是超越函数单元。当用软件(通过一系列指令来实现)来插值时效率会陡然下降,因此现在的GPU都会配合特殊处理单元来快速处理此类运算。而且我们可以看到流处理器中用于插值运算的超越单元并不常用到。因此,Cayman的4D设计巧妙地解决了这个矛盾问题。

Cayman单元中采用耦合硬件的设计,4个单元可以执行32bit运算同时也可以耦合执行64bit运算以及超越运算。因此,并不会像之前5D架构那样当没有插值指令时特殊单元便浪费了。现在的4D架构是当没遇到超越函数指令时,便可以多出4个常规指令单元来执行其他运算。

然而,AMD的此次4D变化只是开端。到底真正的变革会参考NVIDIA现在的1D标量指令还是继续减少到其他数量?这个笔者猜测4D架构是一个相对有优势的体系,因为一般图形空间是4D空间(如上文分析),同时此4个对等的执行单元可以耦合成为一个超越单元,这样既可以减少晶体管数量,同时有助于提升执行效率。

当然,4D架构也不是没有问题,首先在GPU通用上宽度较大的执行并不适合通用算法,因此加大通用效能的方向有可能是在每个流处理器当中增加控制单元。

延续双引擎设计:第八代曲面细分引擎领衔

Cypress的双图形引擎,到Barts的双超线程派分单元,一直以来都是为了HD6900(Cayman)的双前段设计做铺垫。在RV770之后,AMD放弃了继续增加SIMD阵列的数量,改为用两个RV770组成Cypress核心。

当然,Cayman核心依旧沿用了AMD的双图形架构的设计,不过由于每个流处理器的执行单元从5个减少到4个,因此流处理器单元的数量则由2(双引擎)×10(SIMD阵列)×16(流处理器单元)×5(5D)=1600个减少到2×12×16×4=1356个。

Cayman的双图形引擎最大变化在于20组SIMD引擎增加到24组。同时纹理单元升级到了96个。在意义上,Cayman才是真正的双引擎,因为它具备双前端单元。在过去的设计当中,一直被前端引擎的面细分的限制,因此在几何性能上一直受到限制。不过,随着DX11逐渐成熟的今天,AMD也在Cayman上增加了“双”第八代曲面细分器。

提升画质:增强型抗锯齿技术

GPU更新的同时,都会伴随着画质的提升。当然,这需要硬件在后端处理单元的加强,同时还有优化的纹理过滤以及新的抗锯齿算法。一般来说,最原始的抗拒锯齿算法是以增加渲染像素来达到高精度的采样点。不过该算法的缺点是大大增加渲染单元的压力,所以一般改进为多重采样抗锯齿。它应用到图形边缘检测等方式来进行“针对性”的高精度采样,而减少渲染单元的压力。

AMD在HD6800系列便同步了新的抗锯齿技术:形态抗锯齿技术(Morphological Anti-Aliasing),用以进一步提升画质。并且,在HD6900中更新增了增强效果型抗锯齿(Enhanced Quality AA)。该技术同时采用了覆盖采样技术以及颜色采样点对每个像素进行滤波,从而得到极高的图像效果。

全新的能耗管理系统

在Cayman中,AMD明显加强了电源管理的效能。AMD通过PowerTune技术来对核心的频率进行实时的调节,但功耗不能超过TDP。

调节选项设置在驱动控制面板下,调节范围在正负二十之间,当调到正二十的时候显卡的频率将固定在最大频率上。而负二十是把核心频率一直限定在最低频率,当然这样会大大影响性能,不过在节能方面却起到很大的作用。

在测试过程当中,笔者并没发现功耗控制时对性能有明显影响。不过当性能值调到-20%时候,性能会明显下降,同时功耗会也会有大幅的下降。此模式适合运行一些负载不高的游戏,譬如普通网游等可以使用该模式来做到节能的效果。因为在一些游戏来说,150帧率和80帧率来说区别不大。AMD历经了5代产品后,终于对GPU微架构进行了重大的改进,为我们带来了HD6900系列。不过,对手已经在其间经历了3次重要变革,那么此变化究竟为我们带来什么?曾经对技术同样执着的ATI(AMD),在R600进化当中而变得缓慢。相对G80的劣势一直到RV770的出现才为ATI(AMD)带来了生机。可以说,RV770是AMD一个重要的开始,其产品设计理念开始往中端“小核心”的策略靠拢。并且此理念一直影响到Cayman以及后续的核心。

在设计路线上,AMD更趋向于切入市场的中端主流,并且用双核心策略占领性能王者位置。那么,现在HD6900的第七次变化,带来了什么新的特性,以及它的意义何在?同时读者也想了解显卡的具体性能,这些下文将为你一一解答。

Cayman架构:4D体系只是开端

AMD的第一代DX10产品是R600核心,其对应的是NVIDIA的G80核心。虽然说R600是AMD首款基于DX10的GPU,不过,其已经是XBOX 360后的第二代统一流处理器架构。该架构也就是我们常说的5D架构,正确说是5DVLIW体系。它的含义是每个流处理器有五个执行单元。而且,此底层架构一直沿用到HD6800系列中,一共经历了5代的设计路线。最终在Cayman中从新设计为效率更高的4DVLIW架构。

之前的5DVLIW采用的是非对称5个执行单元,其中包括4个常规运算单元和1个超越指令执行单元(执行超越函数例如Sin、Cos、Log等)。前代的5D设计思想主要是出于对图形指令的考虑,因为图形指令一般包含3颜色向量加一个深度值或透明值,而第五个超越单元主要是用来像素插值用。因此看似完美的底层设计理论上会带来极高的峰值效能。不过AMD当时并没意识到此架构对于游戏引擎以及驱动的依赖十分大。

如此并行的执行依靠极高的优化技巧来避开指令的相关性。因为,如果指令只运用到流处理器的一个执行单元的话那么就有4/5的资源被浪费掉。因此这也是此架构执行效率低下的原因之一。

同时,这里有一个原因便是超越函数单元。当用软件(通过一系列指令来实现)来插值时效率会陡然下降,因此现在的GPU都会配合特殊处理单元来快速处理此类运算。而且我们可以看到流处理器中用于插值运算的超越单元并不常用到。因此,Cayman的4D设计巧妙地解决了这个矛盾问题。

Cayman单元中采用耦合硬件的设计,4个单元可以执行32bit运算同时也可以耦合执行64bit运算以及超越运算。因此,并不会像之前5D架构那样当没有插值指令时特殊单元便浪费了。现在的4D架构是当没遇到超越函数指令时,便可以多出4个常规指令单元来执行其他运算。

然而,AMD的此次4D变化只是开端。到底真正的变革会参考NVIDIA现在的1D标量指令还是继续减少到其他数量?这个笔者猜测4D架构是一个相对有优势的体系,因为一般图形空间是4D空间(如上文分析),同时此4个对等的执行单元可以耦合成为一个超越单元,这样既可以减少晶体管数量,同时有助于提升执行效率。

当然,4D架构也不是没有问题,首先在GPU通用上宽度较大的执行并不适合通用算法,因此加大通用效能的方向有可能是在每个流处理器当中增加控制单元。

延续双引擎设计:第八代曲面细分引擎领衔

Cypress的双图形引擎,到Barts的双超线程派分单元,一直以来都是为了HD6900(Cayman)的双前段设计做铺垫。在RV770之后,AMD放弃了继续增加SIMD阵列的数量,改为用两个RV770组成Cypress核心。

当然,Cayman核心依旧沿用了AMD的双图形架构的设计,不过由于每个流处理器的执行单元从5个减少到4个,因此流处理器单元的数量则由2(双引擎)×10(SIMD阵列)×16(流处理器单元)×5(5D)=1600个减少到2×12×16×4=1356个。

Cayman的双图形引擎最大变化在于20组SIMD引擎增加到24组。同时纹理单元升级到了96个。在意义上,Cayman才是真正的双引擎,因为它具备双前端单元。在过去的设计当中,一直被前端引擎的面细分的限制,因此在几何性能上一直受到限制。不过,随着DX11逐渐成熟的今天,AMD也在Cayman上增加了“双”第八代曲面细分器。

提升画质:增强型抗锯齿技术

GPU更新的同时,都会伴随着画质的提升。当然,这需要硬件在后端处理单元的加强,同时还有优化的纹理过滤以及新的抗锯齿算法。一般来说,最原始的抗拒锯齿算法是以增加渲染像素来达到高精度的采样点。不过该算法的缺点是大大增加渲染单元的压力,所以一般改进为多重采样抗锯齿。它应用到图形边缘检测等方式来进行“针对性”的高精度采样,而减少渲染单元的压力。

AMD在HD6800系列便同步了新的抗锯齿技术:形态抗锯齿技术(Morphological Anti-Aliasing),用以进一步提升画质。并且,在HD6900中更新增了增强效果型抗锯齿(Enhanced Quality AA)。该技术同时采用了覆盖采样技术以及颜色采样点对每个像素进行滤波,从而得到极高的图像效果。

全新的能耗管理系统

在Cayman中,AMD明显加强了电源管理的效能。AMD通过PowerTune技术来对核心的频率进行实时的调节,但功耗不能超过TDP。

调节选项设置在驱动控制面板下,调节范围在正负二十之间,当调到正二十的时候显卡的频率将固定在最大频率上。而负二十是把核心频率一直限定在最低频率,当然这样会大大影响性能,不过在节能方面却起到很大的作用。

在测试过程当中,笔者并没发现功耗控制时对性能有明显影响。不过当性能值调到-20%时候,性能会明显下降,同时功耗会也会有大幅的下降。此模式适合运行一些负载不高的游戏,譬如普通网游等可以使用该模式来做到节能的效果。因为在一些游戏来说,150帧率和80帧率来说区别不大。AMD历经了5代产品后,终于对GPU微架构进行了重大的改进,为我们带来了HD6900系列。不过,对手已经在其间经历了3次重要变革,那么此变化究竟为我们带来什么?曾经对技术同样执着的ATI(AMD),在R600进化当中而变得缓慢。相对G80的劣势一直到RV770的出现才为ATI(AMD)带来了生机。可以说,RV770是AMD一个重要的开始,其产品设计理念开始往中端“小核心”的策略靠拢。并且此理念一直影响到Cayman以及后续的核心。

在设计路线上,AMD更趋向于切入市场的中端主流,并且用双核心策略占领性能王者位置。那么,现在HD6900的第七次变化,带来了什么新的特性,以及它的意义何在?同时读者也想了解显卡的具体性能,这些下文将为你一一解答。

Cayman架构:4D体系只是开端

AMD的第一代DX10产品是R600核心,其对应的是NVIDIA的G80核心。虽然说R600是AMD首款基于DX10的GPU,不过,其已经是XBOX 360后的第二代统一流处理器架构。该架构也就是我们常说的5D架构,正确说是5DVLIW体系。它的含义是每个流处理器有五个执行单元。而且,此底层架构一直沿用到HD6800系列中,一共经历了5代的设计路线。最终在Cayman中从新设计为效率更高的4DVLIW架构。

之前的5DVLIW采用的是非对称5个执行单元,其中包括4个常规运算单元和1个超越指令执行单元(执行超越函数例如Sin、Cos、Log等)。前代的5D设计思想主要是出于对图形指令的考虑,因为图形指令一般包含3颜色向量加一个深度值或透明值,而第五个超越单元主要是用来像素插值用。因此看似完美的底层设计理论上会带来极高的峰值效能。不过AMD当时并没意识到此架构对于游戏引擎以及驱动的依赖十分大。

如此并行的执行依靠极高的优化技巧来避开指令的相关性。因为,如果指令只运用到流处理器的一个执行单元的话那么就有4/5的资源被浪费掉。因此这也是此架构执行效率低下的原因之一。

同时,这里有一个原因便是超越函数单元。当用软件(通过一系列指令来实现)来插值时效率会陡然下降,因此现在的GPU都会配合特殊处理单元来快速处理此类运算。而且我们可以看到流处理器中用于插值运算的超越单元并不常用到。因此,Cayman的4D设计巧妙地解决了这个矛盾问题。

Cayman单元中采用耦合硬件的设计,4个单元可以执行32bit运算同时也可以耦合执行64bit运算以及超越运算。因此,并不会像之前5D架构那样当没有插值指令时特殊单元便浪费了。现在的4D架构是当没遇到超越函数指令时,便可以多出4个常规指令单元来执行其他运算。

然而,AMD的此次4D变化只是开端。到底真正的变革会参考NVIDIA现在的1D标量指令还是继续减少到其他数量?这个笔者猜测4D架构是一个相对有优势的体系,因为一般图形空间是4D空间(如上文分析),同时此4个对等的执行单元可以耦合成为一个超越单元,这样既可以减少晶体管数量,同时有助于提升执行效率。

当然,4D架构也不是没有问题,首先在GPU通用上宽度较大的执行并不适合通用算法,因此加大通用效能的方向有可能是在每个流处理器当中增加控制单元。

延续双引擎设计:第八代曲面细分引擎领衔

Cypress的双图形引擎,到Barts的双超线程派分单元,一直以来都是为了HD6900(Cayman)的双前段设计做铺垫。在RV770之后,AMD放弃了继续增加SIMD阵列的数量,改为用两个RV770组成Cypress核心。

当然,Cayman核心依旧沿用了AMD的双图形架构的设计,不过由于每个流处理器的执行单元从5个减少到4个,因此流处理器单元的数量则由2(双引擎)×10(SIMD阵列)×16(流处理器单元)×5(5D)=1600个减少到2×12×16×4=1356个。

Cayman的双图形引擎最大变化在于20组SIMD引擎增加到24组。同时纹理单元升级到了96个。在意义上,Cayman才是真正的双引擎,因为它具备双前端单元。在过去的设计当中,一直被前端引擎的面细分的限制,因此在几何性能上一直受到限制。不过,随着DX11逐渐成熟的今天,AMD也在Cayman上增加了“双”第八代曲面细分器。

提升画质:增强型抗锯齿技术

GPU更新的同时,都会伴随着画质的提升。当然,这需要硬件在后端处理单元的加强,同时还有优化的纹理过滤以及新的抗锯齿算法。一般来说,最原始的抗拒锯齿算法是以增加渲染像素来达到高精度的采样点。不过该算法的缺点是大大增加渲染单元的压力,所以一般改进为多重采样抗锯齿。它应用到图形边缘检测等方式来进行“针对性”的高精度采样,而减少渲染单元的压力。

AMD在HD6800系列便同步了新的抗锯齿技术:形态抗锯齿技术(Morphological Anti-Aliasing),用以进一步提升画质。并且,在HD6900中更新增了增强效果型抗锯齿(Enhanced Quality AA)。该技术同时采用了覆盖采样技术以及颜色采样点对每个像素进行滤波,从而得到极高的图像效果。

全新的能耗管理系统

在Cayman中,AMD明显加强了电源管理的效能。AMD通过PowerTune技术来对核心的频率进行实时的调节,但功耗不能超过TDP。

调节选项设置在驱动控制面板下,调节范围在正负二十之间,当调到正二十的时候显卡的频率将固定在最大频率上。而负二十是把核心频率一直限定在最低频率,当然这样会大大影响性能,不过在节能方面却起到很大的作用。

在测试过程当中,笔者并没发现功耗控制时对性能有明显影响。不过当性能值调到-20%时候,性能会明显下降,同时功耗会也会有大幅的下降。此模式适合运行一些负载不高的游戏,譬如普通网游等可以使用该模式来做到节能的效果。因为在一些游戏来说,150帧率和80帧率来说区别不大。AMD历经了5代产品后,终于对GPU微架构进行了重大的改进,为我们带来了HD6900系列。不过,对手已经在其间经历了3次重要变革,那么此变化究竟为我们带来什么?曾经对技术同样执着的ATI(AMD),在R600进化当中而变得缓慢。相对G80的劣势一直到RV770的出现才为ATI(AMD)带来了生机。可以说,RV770是AMD一个重要的开始,其产品设计理念开始往中端“小核心”的策略靠拢。并且此理念一直影响到Cayman以及后续的核心。

在设计路线上,AMD更趋向于切入市场的中端主流,并且用双核心策略占领性能王者位置。那么,现在HD6900的第七次变化,带来了什么新的特性,以及它的意义何在?同时读者也想了解显卡的具体性能,这些下文将为你一一解答。

Cayman架构:4D体系只是开端

AMD的第一代DX10产品是R600核心,其对应的是NVIDIA的G80核心。虽然说R600是AMD首款基于DX10的GPU,不过,其已经是XBOX 360后的第二代统一流处理器架构。该架构也就是我们常说的5D架构,正确说是5DVLIW体系。它的含义是每个流处理器有五个执行单元。而且,此底层架构一直沿用到HD6800系列中,一共经历了5代的设计路线。最终在Cayman中从新设计为效率更高的4DVLIW架构。

之前的5DVLIW采用的是非对称5个执行单元,其中包括4个常规运算单元和1个超越指令执行单元(执行超越函数例如Sin、Cos、Log等)。前代的5D设计思想主要是出于对图形指令的考虑,因为图形指令一般包含3颜色向量加一个深度值或透明值,而第五个超越单元主要是用来像素插值用。因此看似完美的底层设计理论上会带来极高的峰值效能。不过AMD当时并没意识到此架构对于游戏引擎以及驱动的依赖十分大。

如此并行的执行依靠极高的优化技巧来避开指令的相关性。因为,如果指令只运用到流处理器的一个执行单元的话那么就有4/5的资源被浪费掉。因此这也是此架构执行效率低下的原因之一。

同时,这里有一个原因便是超越函数单元。当用软件(通过一系列指令来实现)来插值时效率会陡然下降,因此现在的GPU都会配合特殊处理单元来快速处理此类运算。而且我们可以看到流处理器中用于插值运算的超越单元并不常用到。因此,Cayman的4D设计巧妙地解决了这个矛盾问题。

Cayman单元中采用耦合硬件的设计,4个单元可以执行32bit运算同时也可以耦合执行64bit运算以及超越运算。因此,并不会像之前5D架构那样当没有插值指令时特殊单元便浪费了。现在的4D架构是当没遇到超越函数指令时,便可以多出4个常规指令单元来执行其他运算。

然而,AMD的此次4D变化只是开端。到底真正的变革会参考NVIDIA现在的1D标量指令还是继续减少到其他数量?这个笔者猜测4D架构是一个相对有优势的体系,因为一般图形空间是4D空间(如上文分析),同时此4个对等的执行单元可以耦合成为一个超越单元,这样既可以减少晶体管数量,同时有助于提升执行效率。

当然,4D架构也不是没有问题,首先在GPU通用上宽度较大的执行并不适合通用算法,因此加大通用效能的方向有可能是在每个流处理器当中增加控制单元。

延续双引擎设计:第八代曲面细分引擎领衔

Cypress的双图形引擎,到Barts的双超线程派分单元,一直以来都是为了HD6900(Cayman)的双前段设计做铺垫。在RV770之后,AMD放弃了继续增加SIMD阵列的数量,改为用两个RV770组成Cypress核心。

当然,Cayman核心依旧沿用了AMD的双图形架构的设计,不过由于每个流处理器的执行单元从5个减少到4个,因此流处理器单元的数量则由2(双引擎)×10(SIMD阵列)×16(流处理器单元)×5(5D)=1600个减少到2×12×16×4=1356个。

Cayman的双图形引擎最大变化在于20组SIMD引擎增加到24组。同时纹理单元升级到了96个。在意义上,Cayman才是真正的双引擎,因为它具备双前端单元。在过去的设计当中,一直被前端引擎的面细分的限制,因此在几何性能上一直受到限制。不过,随着DX11逐渐成熟的今天,AMD也在Cayman上增加了“双”第八代曲面细分器。

提升画质:增强型抗锯齿技术

GPU更新的同时,都会伴随着画质的提升。当然,这需要硬件在后端处理单元的加强,同时还有优化的纹理过滤以及新的抗锯齿算法。一般来说,最原始的抗拒锯齿算法是以增加渲染像素来达到高精度的采样点。不过该算法的缺点是大大增加渲染单元的压力,所以一般改进为多重采样抗锯齿。它应用到图形边缘检测等方式来进行“针对性”的高精度采样,而减少渲染单元的压力。

AMD在HD6800系列便同步了新的抗锯齿技术:形态抗锯齿技术(Morphological Anti-Aliasing),用以进一步提升画质。并且,在HD6900中更新增了增强效果型抗锯齿(Enhanced Quality AA)。该技术同时采用了覆盖采样技术以及颜色采样点对每个像素进行滤波,从而得到极高的图像效果。

全新的能耗管理系统

在Cayman中,AMD明显加强了电源管理的效能。AMD通过PowerTune技术来对核心的频率进行实时的调节,但功耗不能超过TDP。

调节选项设置在驱动控制面板下,调节范围在正负二十之间,当调到正二十的时候显卡的频率将固定在最大频率上。而负二十是把核心频率一直限定在最低频率,当然这样会大大影响性能,不过在节能方面却起到很大的作用。

在测试过程当中,笔者并没发现功耗控制时对性能有明显影响。不过当性能值调到-20%时候,性能会明显下降,同时功耗会也会有大幅的下降。此模式适合运行一些负载不高的游戏,譬如普通网游等可以使用该模式来做到节能的效果。因为在一些游戏来说,150帧率和80帧率来说区别不大。AMD历经了5代产品后,终于对GPU微架构进行了重大的改进,为我们带来了HD6900系列。不过,对手已经在其间经历了3次重要变革,那么此变化究竟为我们带来什么?曾经对技术同样执着的ATI(AMD),在R600进化当中而变得缓慢。相对G80的劣势一直到RV770的出现才为ATI(AMD)带来了生机。可以说,RV770是AMD一个重要的开始,其产品设计理念开始往中端“小核心”的策略靠拢。并且此理念一直影响到Cayman以及后续的核心。

在设计路线上,AMD更趋向于切入市场的中端主流,并且用双核心策略占领性能王者位置。那么,现在HD6900的第七次变化,带来了什么新的特性,以及它的意义何在?同时读者也想了解显卡的具体性能,这些下文将为你一一解答。

Cayman架构:4D体系只是开端

AMD的第一代DX10产品是R600核心,其对应的是NVIDIA的G80核心。虽然说R600是AMD首款基于DX10的GPU,不过,其已经是XBOX 360后的第二代统一流处理器架构。该架构也就是我们常说的5D架构,正确说是5DVLIW体系。它的含义是每个流处理器有五个执行单元。而且,此底层架构一直沿用到HD6800系列中,一共经历了5代的设计路线。最终在Cayman中从新设计为效率更高的4DVLIW架构。

之前的5DVLIW采用的是非对称5个执行单元,其中包括4个常规运算单元和1个超越指令执行单元(执行超越函数例如Sin、Cos、Log等)。前代的5D设计思想主要是出于对图形指令的考虑,因为图形指令一般包含3颜色向量加一个深度值或透明值,而第五个超越单元主要是用来像素插值用。因此看似完美的底层设计理论上会带来极高的峰值效能。不过AMD当时并没意识到此架构对于游戏引擎以及驱动的依赖十分大。

如此并行的执行依靠极高的优化技巧来避开指令的相关性。因为,如果指令只运用到流处理器的一个执行单元的话那么就有4/5的资源被浪费掉。因此这也是此架构执行效率低下的原因之一。

同时,这里有一个原因便是超越函数单元。当用软件(通过一系列指令来实现)来插值时效率会陡然下降,因此现在的GPU都会配合特殊处理单元来快速处理此类运算。而且我们可以看到流处理器中用于插值运算的超越单元并不常用到。因此,Cayman的4D设计巧妙地解决了这个矛盾问题。

Cayman单元中采用耦合硬件的设计,4个单元可以执行32bit运算同时也可以耦合执行64bit运算以及超越运算。因此,并不会像之前5D架构那样当没有插值指令时特殊单元便浪费了。现在的4D架构是当没遇到超越函数指令时,便可以多出4个常规指令单元来执行其他运算。

然而,AMD的此次4D变化只是开端。到底真正的变革会参考NVIDIA现在的1D标量指令还是继续减少到其他数量?这个笔者猜测4D架构是一个相对有优势的体系,因为一般图形空间是4D空间(如上文分析),同时此4个对等的执行单元可以耦合成为一个超越单元,这样既可以减少晶体管数量,同时有助于提升执行效率。

当然,4D架构也不是没有问题,首先在GPU通用上宽度较大的执行并不适合通用算法,因此加大通用效能的方向有可能是在每个流处理器当中增加控制单元。

延续双引擎设计:第八代曲面细分引擎领衔

Cypress的双图形引擎,到Barts的双超线程派分单元,一直以来都是为了HD6900(Cayman)的双前段设计做铺垫。在RV770之后,AMD放弃了继续增加SIMD阵列的数量,改为用两个RV770组成Cypress核心。

当然,Cayman核心依旧沿用了AMD的双图形架构的设计,不过由于每个流处理器的执行单元从5个减少到4个,因此流处理器单元的数量则由2(双引擎)×10(SIMD阵列)×16(流处理器单元)×5(5D)=1600个减少到2×12×16×4=1356个。

Cayman的双图形引擎最大变化在于20组SIMD引擎增加到24组。同时纹理单元升级到了96个。在意义上,Cayman才是真正的双引擎,因为它具备双前端单元。在过去的设计当中,一直被前端引擎的面细分的限制,因此在几何性能上一直受到限制。不过,随着DX11逐渐成熟的今天,AMD也在Cayman上增加了“双”第八代曲面细分器。

提升画质:增强型抗锯齿技术

GPU更新的同时,都会伴随着画质的提升。当然,这需要硬件在后端处理单元的加强,同时还有优化的纹理过滤以及新的抗锯齿算法。一般来说,最原始的抗拒锯齿算法是以增加渲染像素来达到高精度的采样点。不过该算法的缺点是大大增加渲染单元的压力,所以一般改进为多重采样抗锯齿。它应用到图形边缘检测等方式来进行“针对性”的高精度采样,而减少渲染单元的压力。

AMD在HD6800系列便同步了新的抗锯齿技术:形态抗锯齿技术(Morphological Anti-Aliasing),用以进一步提升画质。并且,在HD6900中更新增了增强效果型抗锯齿(Enhanced Quality AA)。该技术同时采用了覆盖采样技术以及颜色采样点对每个像素进行滤波,从而得到极高的图像效果。

全新的能耗管理系统

在Cayman中,AMD明显加强了电源管理的效能。AMD通过PowerTune技术来对核心的频率进行实时的调节,但功耗不能超过TDP。

调节选项设置在驱动控制面板下,调节范围在正负二十之间,当调到正二十的时候显卡的频率将固定在最大频率上。而负二十是把核心频率一直限定在最低频率,当然这样会大大影响性能,不过在节能方面却起到很大的作用。

在测试过程当中,笔者并没发现功耗控制时对性能有明显影响。不过当性能值调到-20%时候,性能会明显下降,同时功耗会也会有大幅的下降。此模式适合运行一些负载不高的游戏,譬如普通网游等可以使用该模式来做到节能的效果。因为在一些游戏来说,150帧率和80帧率来说区别不大。AMD历经了5代产品后,终于对GPU微架构进行了重大的改进,为我们带来了HD6900系列。不过,对手已经在其间经历了3次重要变革,那么此变化究竟为我们带来什么?曾经对技术同样执着的ATI(AMD),在R600进化当中而变得缓慢。相对G80的劣势一直到RV770的出现才为ATI(AMD)带来了生机。可以说,RV770是AMD一个重要的开始,其产品设计理念开始往中端“小核心”的策略靠拢。并且此理念一直影响到Cayman以及后续的核心。

在设计路线上,AMD更趋向于切入市场的中端主流,并且用双核心策略占领性能王者位置。那么,现在HD6900的第七次变化,带来了什么新的特性,以及它的意义何在?同时读者也想了解显卡的具体性能,这些下文将为你一一解答。

Cayman架构:4D体系只是开端

AMD的第一代DX10产品是R600核心,其对应的是NVIDIA的G80核心。虽然说R600是AMD首款基于DX10的GPU,不过,其已经是XBOX 360后的第二代统一流处理器架构。该架构也就是我们常说的5D架构,正确说是5DVLIW体系。它的含义是每个流处理器有五个执行单元。而且,此底层架构一直沿用到HD6800系列中,一共经历了5代的设计路线。最终在Cayman中从新设计为效率更高的4DVLIW架构。

之前的5DVLIW采用的是非对称5个执行单元,其中包括4个常规运算单元和1个超越指令执行单元(执行超越函数例如Sin、Cos、Log等)。前代的5D设计思想主要是出于对图形指令的考虑,因为图形指令一般包含3颜色向量加一个深度值或透明值,而第五个超越单元主要是用来像素插值用。因此看似完美的底层设计理论上会带来极高的峰值效能。不过AMD当时并没意识到此架构对于游戏引擎以及驱动的依赖十分大。

如此并行的执行依靠极高的优化技巧来避开指令的相关性。因为,如果指令只运用到流处理器的一个执行单元的话那么就有4/5的资源被浪费掉。因此这也是此架构执行效率低下的原因之一。

同时,这里有一个原因便是超越函数单元。当用软件(通过一系列指令来实现)来插值时效率会陡然下降,因此现在的GPU都会配合特殊处理单元来快速处理此类运算。而且我们可以看到流处理器中用于插值运算的超越单元并不常用到。因此,Cayman的4D设计巧妙地解决了这个矛盾问题。

Cayman单元中采用耦合硬件的设计,4个单元可以执行32bit运算同时也可以耦合执行64bit运算以及超越运算。因此,并不会像之前5D架构那样当没有插值指令时特殊单元便浪费了。现在的4D架构是当没遇到超越函数指令时,便可以多出4个常规指令单元来执行其他运算。

然而,AMD的此次4D变化只是开端。到底真正的变革会参考NVIDIA现在的1D标量指令还是继续减少到其他数量?这个笔者猜测4D架构是一个相对有优势的体系,因为一般图形空间是4D空间(如上文分析),同时此4个对等的执行单元可以耦合成为一个超越单元,这样既可以减少晶体管数量,同时有助于提升执行效率。

当然,4D架构也不是没有问题,首先在GPU通用上宽度较大的执行并不适合通用算法,因此加大通用效能的方向有可能是在每个流处理器当中增加控制单元。

延续双引擎设计:第八代曲面细分引擎领衔

Cypress的双图形引擎,到Barts的双超线程派分单元,一直以来都是为了HD6900(Cayman)的双前段设计做铺垫。在RV770之后,AMD放弃了继续增加SIMD阵列的数量,改为用两个RV770组成Cypress核心。

当然,Cayman核心依旧沿用了AMD的双图形架构的设计,不过由于每个流处理器的执行单元从5个减少到4个,因此流处理器单元的数量则由2(双引擎)×10(SIMD阵列)×16(流处理器单元)×5(5D)=1600个减少到2×12×16×4=1356个。

Cayman的双图形引擎最大变化在于20组SIMD引擎增加到24组。同时纹理单元升级到了96个。在意义上,Cayman才是真正的双引擎,因为它具备双前端单元。在过去的设计当中,一直被前端引擎的面细分的限制,因此在几何性能上一直受到限制。不过,随着DX11逐渐成熟的今天,AMD也在Cayman上增加了“双”第八代曲面细分器。

提升画质:增强型抗锯齿技术

GPU更新的同时,都会伴随着画质的提升。当然,这需要硬件在后端处理单元的加强,同时还有优化的纹理过滤以及新的抗锯齿算法。一般来说,最原始的抗拒锯齿算法是以增加渲染像素来达到高精度的采样点。不过该算法的缺点是大大增加渲染单元的压力,所以一般改进为多重采样抗锯齿。它应用到图形边缘检测等方式来进行“针对性”的高精度采样,而减少渲染单元的压力。

AMD在HD6800系列便同步了新的抗锯齿技术:形态抗锯齿技术(Morphological Anti-Aliasing),用以进一步提升画质。并且,在HD6900中更新增了增强效果型抗锯齿(Enhanced Quality AA)。该技术同时采用了覆盖采样技术以及颜色采样点对每个像素进行滤波,从而得到极高的图像效果。

全新的能耗管理系统

在Cayman中,AMD明显加强了电源管理的效能。AMD通过PowerTune技术来对核心的频率进行实时的调节,但功耗不能超过TDP。

调节选项设置在驱动控制面板下,调节范围在正负二十之间,当调到正二十的时候显卡的频率将固定在最大频率上。而负二十是把核心频率一直限定在最低频率,当然这样会大大影响性能,不过在节能方面却起到很大的作用。

在测试过程当中,笔者并没发现功耗控制时对性能有明显影响。不过当性能值调到-20%时候,性能会明显下降,同时功耗会也会有大幅的下降。此模式适合运行一些负载不高的游戏,譬如普通网游等可以使用该模式来做到节能的效果。因为在一些游戏来说,150帧率和80帧率来说区别不大。

3D理论性能测试

3DMarkVantage测试

测试可以看出H6970性能可以压制到GTX570,同时HD6950的成绩也紧跟其后。该测试由于CPU权重较大,因此较为准确地考察整机性能。在AMD纵向对比当中,HD6970比前代顶级单核心产品高出20%左右。即使流处理器单元更少的情况下也做出了性能的大幅反超,从而可知4D架构的高效。

天堂2.1测试

天堂2.1可以说N方面有明显的优势,不过在加强了DX11性能的Cayman核心上,两者的优势在伯仲之间。在常规曲面细分设定中,HD6900性能比GTX570、GTX480等更高。同时在在A卡纵向测试当中,性能是HD5870两倍有多。

3DMark11测试

继3DMarkVantage之后,3DMark11又是一个权威DX11测试工具。其较为全面且平衡地测试GPU在DX11环境下的性能。同时,程序还分不同的侧重点对GPU进行测试,最终得出综合成绩。测试中可以得知,除了GTX580之外,所有N卡都不低HD6900系列,不过在X级别测试上两者的距离拉近。

DX10游戏测试

《孤岛危机:弹头》测试

在以往测试当中,《孤岛危机:弹头》的优势在A卡上表现更为明显。鉴于本次评测的均为顶级显卡,因此测试画质调节到“热衷”。测试成绩反映出Cayman核心的效率十分之高。

《孤岛惊魂2》测试

《孤岛惊魂2》测试当中,Cayman性能依然强劲。对应对手GTX470表现出大幅的领先,同时HD6970接近上代N卡王者GTX480的性能。在与前代A卡王者的对比当中,Cayman的性能有大幅度的提升。

《正当防卫2》测试

测试当中,Cayman核心的性能较为中肯,测试结果同样是GTX580最强。而GTX480于HD6970相差不大。A卡纵向比较当中,性能有较大的提升。相对于流处理器单元减少的核心来说,此表明了执行效率的大大增强。

DX11游戏测试

《尘埃2》测试

《尘埃2》采用了局部DX11特效,不过N卡比较占优。HD6970性能介于GTX580与GTX480之间,8倍抗锯齿状态下优于GTX570。在A卡对比当中Cayman相对于HD5870有较大的优势。

《战地:叛逆连队2》测试

《叛逆联队2》测试同样采用DX11引擎。测试方法为一段非人手控制的过场渲染场景。测试中N卡表现占优。HD6900系列只比GTX470有优势。并且HD6970与HD6950的测试差距不大。

《失落星球2》测试

测试当中画质设定最高,不过考虑到实际游戏中曲面细分的效果并没造成很大变化,因此该特效设为中等。《失落星球2》有着the way含义的游戏。因此N卡优势较为明显。即使GTX470也强于HD6970,不过在A卡对比测试中,HD6900还是相对于“前辈”有较大的性能优势。

3D理论性能测试

3DMarkVantage测试

测试可以看出H6970性能可以压制到GTX570,同时HD6950的成绩也紧跟其后。该测试由于CPU权重较大,因此较为准确地考察整机性能。在AMD纵向对比当中,HD6970比前代顶级单核心产品高出20%左右。即使流处理器单元更少的情况下也做出了性能的大幅反超,从而可知4D架构的高效。

天堂2.1测试

天堂2.1可以说N方面有明显的优势,不过在加强了DX11性能的Cayman核心上,两者的优势在伯仲之间。在常规曲面细分设定中,HD6900性能比GTX570、GTX480等更高。同时在在A卡纵向测试当中,性能是HD5870两倍有多。

3DMark11测试

继3DMarkVantage之后,3DMark11又是一个权威DX11测试工具。其较为全面且平衡地测试GPU在DX11环境下的性能。同时,程序还分不同的侧重点对GPU进行测试,最终得出综合成绩。测试中可以得知,除了GTX580之外,所有N卡都不低HD6900系列,不过在X级别测试上两者的距离拉近。

DX10游戏测试

《孤岛危机:弹头》测试

在以往测试当中,《孤岛危机:弹头》的优势在A卡上表现更为明显。鉴于本次评测的均为顶级显卡,因此测试画质调节到“热衷”。测试成绩反映出Cayman核心的效率十分之高。

《孤岛惊魂2》测试

《孤岛惊魂2》测试当中,Cayman性能依然强劲。对应对手GTX470表现出大幅的领先,同时HD6970接近上代N卡王者GTX480的性能。在与前代A卡王者的对比当中,Cayman的性能有大幅度的提升。

《正当防卫2》测试

测试当中,Cayman核心的性能较为中肯,测试结果同样是GTX580最强。而GTX480于HD6970相差不大。A卡纵向比较当中,性能有较大的提升。相对于流处理器单元减少的核心来说,此表明了执行效率的大大增强。

DX11游戏测试

《尘埃2》测试

《尘埃2》采用了局部DX11特效,不过N卡比较占优。HD6970性能介于GTX580与GTX480之间,8倍抗锯齿状态下优于GTX570。在A卡对比当中Cayman相对于HD5870有较大的优势。

《战地:叛逆连队2》测试

《叛逆联队2》测试同样采用DX11引擎。测试方法为一段非人手控制的过场渲染场景。测试中N卡表现占优。HD6900系列只比GTX470有优势。并且HD6970与HD6950的测试差距不大。

《失落星球2》测试

测试当中画质设定最高,不过考虑到实际游戏中曲面细分的效果并没造成很大变化,因此该特效设为中等。《失落星球2》有着the way含义的游戏。因此N卡优势较为明显。即使GTX470也强于HD6970,不过在A卡对比测试中,HD6900还是相对于“前辈”有较大的性能优势。

3D理论性能测试

3DMarkVantage测试

测试可以看出H6970性能可以压制到GTX570,同时HD6950的成绩也紧跟其后。该测试由于CPU权重较大,因此较为准确地考察整机性能。在AMD纵向对比当中,HD6970比前代顶级单核心产品高出20%左右。即使流处理器单元更少的情况下也做出了性能的大幅反超,从而可知4D架构的高效。

天堂2.1测试

天堂2.1可以说N方面有明显的优势,不过在加强了DX11性能的Cayman核心上,两者的优势在伯仲之间。在常规曲面细分设定中,HD6900性能比GTX570、GTX480等更高。同时在在A卡纵向测试当中,性能是HD5870两倍有多。

3DMark11测试

继3DMarkVantage之后,3DMark11又是一个权威DX11测试工具。其较为全面且平衡地测试GPU在DX11环境下的性能。同时,程序还分不同的侧重点对GPU进行测试,最终得出综合成绩。测试中可以得知,除了GTX580之外,所有N卡都不低HD6900系列,不过在X级别测试上两者的距离拉近。

DX10游戏测试

《孤岛危机:弹头》测试

在以往测试当中,《孤岛危机:弹头》的优势在A卡上表现更为明显。鉴于本次评测的均为顶级显卡,因此测试画质调节到“热衷”。测试成绩反映出Cayman核心的效率十分之高。

《孤岛惊魂2》测试

《孤岛惊魂2》测试当中,Cayman性能依然强劲。对应对手GTX470表现出大幅的领先,同时HD6970接近上代N卡王者GTX480的性能。在与前代A卡王者的对比当中,Cayman的性能有大幅度的提升。

《正当防卫2》测试

测试当中,Cayman核心的性能较为中肯,测试结果同样是GTX580最强。而GTX480于HD6970相差不大。A卡纵向比较当中,性能有较大的提升。相对于流处理器单元减少的核心来说,此表明了执行效率的大大增强。

DX11游戏测试

《尘埃2》测试

《尘埃2》采用了局部DX11特效,不过N卡比较占优。HD6970性能介于GTX580与GTX480之间,8倍抗锯齿状态下优于GTX570。在A卡对比当中Cayman相对于HD5870有较大的优势。

《战地:叛逆连队2》测试

《叛逆联队2》测试同样采用DX11引擎。测试方法为一段非人手控制的过场渲染场景。测试中N卡表现占优。HD6900系列只比GTX470有优势。并且HD6970与HD6950的测试差距不大。

《失落星球2》测试

测试当中画质设定最高,不过考虑到实际游戏中曲面细分的效果并没造成很大变化,因此该特效设为中等。《失落星球2》有着the way含义的游戏。因此N卡优势较为明显。即使GTX470也强于HD6970,不过在A卡对比测试中,HD6900还是相对于“前辈”有较大的性能优势。

3D理论性能测试

3DMarkVantage测试

测试可以看出H6970性能可以压制到GTX570,同时HD6950的成绩也紧跟其后。该测试由于CPU权重较大,因此较为准确地考察整机性能。在AMD纵向对比当中,HD6970比前代顶级单核心产品高出20%左右。即使流处理器单元更少的情况下也做出了性能的大幅反超,从而可知4D架构的高效。

天堂2.1测试

天堂2.1可以说N方面有明显的优势,不过在加强了DX11性能的Cayman核心上,两者的优势在伯仲之间。在常规曲面细分设定中,HD6900性能比GTX570、GTX480等更高。同时在在A卡纵向测试当中,性能是HD5870两倍有多。

3DMark11测试

继3DMarkVantage之后,3DMark11又是一个权威DX11测试工具。其较为全面且平衡地测试GPU在DX11环境下的性能。同时,程序还分不同的侧重点对GPU进行测试,最终得出综合成绩。测试中可以得知,除了GTX580之外,所有N卡都不低HD6900系列,不过在X级别测试上两者的距离拉近。

DX10游戏测试

《孤岛危机:弹头》测试

在以往测试当中,《孤岛危机:弹头》的优势在A卡上表现更为明显。鉴于本次评测的均为顶级显卡,因此测试画质调节到“热衷”。测试成绩反映出Cayman核心的效率十分之高。

《孤岛惊魂2》测试

《孤岛惊魂2》测试当中,Cayman性能依然强劲。对应对手GTX470表现出大幅的领先,同时HD6970接近上代N卡王者GTX480的性能。在与前代A卡王者的对比当中,Cayman的性能有大幅度的提升。

《正当防卫2》测试

测试当中,Cayman核心的性能较为中肯,测试结果同样是GTX580最强。而GTX480于HD6970相差不大。A卡纵向比较当中,性能有较大的提升。相对于流处理器单元减少的核心来说,此表明了执行效率的大大增强。

DX11游戏测试

《尘埃2》测试

《尘埃2》采用了局部DX11特效,不过N卡比较占优。HD6970性能介于GTX580与GTX480之间,8倍抗锯齿状态下优于GTX570。在A卡对比当中Cayman相对于HD5870有较大的优势。

《战地:叛逆连队2》测试

《叛逆联队2》测试同样采用DX11引擎。测试方法为一段非人手控制的过场渲染场景。测试中N卡表现占优。HD6900系列只比GTX470有优势。并且HD6970与HD6950的测试差距不大。

《失落星球2》测试

测试当中画质设定最高,不过考虑到实际游戏中曲面细分的效果并没造成很大变化,因此该特效设为中等。《失落星球2》有着the way含义的游戏。因此N卡优势较为明显。即使GTX470也强于HD6970,不过在A卡对比测试中,HD6900还是相对于“前辈”有较大的性能优势。