dp线驱动认证1.2、1.4、2.0需要芯片的支持芯片达到对应的带宽么,还是不同版本的线缆标准不一样?

  在经历了2010年底Cayman核心对AMD经典图形架构的改良之后,2011年底我们终于引来的了年底压轴产品——基于Tahiti构架的Radeon HD 7900系列显卡。在中关村在线之前的架构分析文章中我们已经领略了这一代显卡的不同之处,它彻底打碎了延续4年的VLIW超长字节指令流处理器结构,同时引入了多级可读写Cache,这是一颗更加趋近于CPU的高性能GPU。

  那么除了在常规图形架构方面的改进之外,AMD还非常重视显卡的多功能化发展,ATI于1996年推出的的All-in-Wonder系列无疑是市场上的领导者,在随后的15年中我们看到即便在图形性能方面经常受到NVIDIA的强势挑战,但是AMD依然坚持在图形输出、视频编解码处理、多媒体处理方面的过人之处,同时显卡易用性也让更多用户认同。

  随着GPU周边功能的不但增强,这已经不简单是一台桌面PC或者笔记本中的,而是一个多功能的智能处理器。未来的显卡市场不但不会消亡,反而会成为帮助用户进行工作、学习融入高端计算领域和日常生活的重要工具。


南方群岛演绎架构之外的精彩

  Radeon HD系列早在2006年发布第一代HD2000就透露出多功能化的发展方向,下文就让我们用最精炼的文字来描述Radeon HD 7900系列显卡在周边和输出方面的特性,我们将体会到AMD如何使用新的思想来定义GPU在PC中的地位。

  ● 全面支持 11.1

  DirectX 11.1包含大量的D3D新特性支持,其中大多数是针对程序员编程进行的更新,包括为shader绑定作为子区间的常buffer、通过新的copy选项改进资源体系以及引入更多的UAV操作等等。整体更新量很大,甚至超过了DirectX 8.1以及10.1的更新规模。

  Radeon HD 7900系列显卡在图形架构设计之初就提供了对DirectX 11.1的支持,其主要原因是已经在双精度浮点处理方面达到了一个新的技术层级,之前Cayman要通过3个ALU单元实现双精度计算,而本次Tahiti构架拥有独立的双精度加法、乘法、加乘处理器。

  除了负责浮点吞吐的SIMD CORE之外,Tahiti构架的每个CU单元还拥有在一个Scalar Unit,Scalar单元中包含Int ALU单元,可以用来处理整数指令以及特殊函数。另外,对线程效率至关重要的原子操作(Atomic)也在该单元中执行。

shader具备了远高于常规shader的运算精度,配合FMA的应用,DP shader可以称得上桌面应用范围内完全无损的shader类型。

  精度更高的DP shader的引入,对光线追踪的交汇检查计算过程是至关重要的;TBDR的引入则代表着移动图形编程的需求。微软此次在DirectX 11.1中实现了上述两个功能,基本上意味着为光线追踪在桌面的应用以及DirectX进军移动图形领域打开了大门。两者无论哪一个,都是值得我们给予高度关注的。

  尽管PCI-E吞吐带宽从诞生以来就不是系统瓶颈,但是业界依然在推进这一传输标准的带宽提升。之前PCI-E 3.0标准长期不受各家厂商青睐,GPU芯片厂商一度被怀疑根本不会支持,现在终于出来了,并且通过强吞吐测试证明在一些并行计算应用和全局显存调用中,PCI-E 3.0的优势会凸显出来。

  PCI-E 3.0标准主要是将信号传输率提高到8GT/s,两倍于PCI-E 2.0,同时还有一系列的信号增强、数据完整性优化,包括收发均等、PLL改进、时钟、已支持拓扑的通道增强等等。

  PCI-E到目前为止进行了2次重大革新,PCI-E 2.0相比1.0的区别如下:

  带宽翻倍:将单通道PCI-E X1的带宽提高到了500MB/s,也就是双向1GB/s
  通道翻倍:接口标准升级到PCI-E X32,带宽可达32GB/s
  插槽翻倍:芯片组/主板默认应该拥有两条PCI-E X32插槽
  功率翻倍:目前PCI-E插槽所能提供的电力最高为75W,2.0版本可能会提高至200W以上,目前还不确定


三代PCI-E标准的带宽变化

    PCI-E 3.0相比2.0来说主要在速度上进行了提升,毕竟PCI-E 2.0版已经相当完善了,而且PCI-E 2.0所提供的带宽还未达到瓶颈。这样来看的话,PCI-E 3.0的降临似乎来的有点过早了一些。最近, Intel的Light Peak高速传输技术最终正式定名为“雷电”(ThunderBolt),该技术也提供了对PCI Express总线传输技术的支持。


带宽提升带来跨显卡显存调用效率提升

  随着后期在并行计算市场的发展路径,新的可以让多个GPU以及CPU统一调用GPU显存以及CPU内存,并将处理器(CPU+GPU)和存储器(内存+显存)视为统一整体。未来的AMD多CPU和多GPU融合之后可以为整个系统带来大容量存储设备并且进行统一寻址。

  在多屏拼接方面一直走在前面,直到今天如果想组建3屏显示来运行游戏,在NVIDIA提供的方案下必须使用两张,而使用AMD HD6000高端系列显卡,只需要一张就可以组建三屏输出。目前AMD官方发布的Radeon

  首先我们说说这项技术的核心改进:Eyefinity 2.0时代,Eyefinity多屏输出技术和HD3D立体技术终于走到了一起,也就是说A卡用户可以在多屏系统上体验立体游戏、电影了,从而一举反超NVIDIA。后者在SLI系统上早就实现了3D Vision,但始终需要至少两块卡。

  新的EYEFINITY 2.0率先采用了DisplayPort 1.2认证接口和HDMI 1.4a规范,在传输带宽和速度上能够通过更高的速度,为多屏3D应用提供更好的条件。AMD提供的HD3D技术始终是开放的,让更多的厂商都能够参与到AMD的HD3D立体显示技术当中,在这里我们通过AMD单卡通过DisplayPort 3D显示器可以单卡实现三屏Stereo 3D效果。


AMD多屏允许不同尺寸显示器

  曾今的Eyefinity技术至少需要3台分辨率一致的显示器才能组建多屏输出,这要求很多用户采购新显示器,组建成本并不低。在Radeon HD 7900系列显卡中,AMD把多屏拼接技术升级为Eyefinity 2.0,并加入更多的新特性,满足高端发烧玩家多屏体验需求,同时针对预算及其有限的用户,AMD还可以允许不同尺寸显示器组成一套Eyefinity多屏显示系统。


全新的独立多路音频输出

  音频输出能力也是A的特长之一,备受音频发烧友青睐,HD7900支持独立数字多点音频(Discrete Digital Multi-Point Audio),简称DDM Audio。在HD7900之前的多显方案只能输出一路音频信号,HD 7970显卡已经可以实现独立多路音频输出了,这样看电影或者玩游戏都可以享受到独立的音画输出。

  ● 异构计算的VCE加速引擎

  VCE是用来处理高清编解码的整套方案,它集成于Radeon HD 7900系列中,不过和以前的思路不同,它有多种工作模式,不断可以用专用DSP完成,也可以用通用流处理器完成,也可以通过专用和通用电路混合完成视频编解码计算。

  在2003年提出的CPU+GPU异构运算平台能够借此差异提供出色的整机性能,各部件能充分发挥自己的优势,处理拿手的应用,如传统的串行计算可以交给CPU负责,并行计算可通过AMD Stream流处理计算技术交给GPU运算。

  在可以预见的未来,借助异构计算(Heterogeneous computing),AMD高端CPU甚至是未来整数性能极强的CPU会在OpenCL接口的帮助下,和高端GPU产品在异构模式下共处。而低端市场的APU产品,也会受益于OpenCL接口而支持更多应用,释放CPU和GPU的计算特性,本次VCE将DSP处理器视作CPU看待,是一次异构计算的完美尝试。


VCE技术的工作模式1


VCE技术的工作模式2

  Radeon HD7900会具备被称作“VCE”的硬件多视频流编码器,能够实现1080p@60FPS以上的硬件H.264视频编码,并支持全硬件固定功能编码和GPU Shader辅助混合编码模式。的色彩空间编码为4:2:0,有多种压缩品质可供选择。

  本次VCE单元之所以备受关注就是因为其运行方式灵活多样,借助OpenCL接口专用处理器DSP和GPU通用计算单元能够做到协调一致的工作状态,最大限度保证硬件资源不被浪费。VCE异构计算技术实际上是在为未来实现更完整的CPU与GPU合并做准备。AMD希望用这项技术向我们传达:不一定所有工作都要有通用单元来实现,那样占用太多,也不一定所有工作都要由DSP专用电路实现,那不符合通用化的发展趋势。

  ● 软硬件结合的多媒体改进

  知道它拥有完整的CPU和GPU产品线,并且这是Intel和NVIDIA无法触及到的优势,所以像APU这类融合型芯片通过合理的并行计算接口可以实现对高浮点密度项目CPU领地的抢占,也可以通过这一行为不断增强GPU的可编程性。在硬件不断偏向自由Shader和可编程性发展的同时,AMD也没有忘记众多开发商,它们直接面向最终用户,拥有对GPU通用计算能力的使用权力,当然也意味着这些开发商有权力拒绝使用AMD推荐的异构计算编程环境。

  在之前APU发布时我们已经看到了利用通用处理器计算出现的视频稳定防抖技术,而现在HD7900出现也意味着这一技术的升级。第二代稳定视频技术Steady Video 2.0可以利用下图提到的QSAD实现硬件加速,并支持隔行模式视频、提供左右对比模式。

  多媒体指令方面引入了QSAD、MQSAD,每个周期内每个计算单元都可以对256个像素执行SAD操作,整体下来相当于每秒钟执行7.6万亿个像素。新的QSAD能够提供10倍速率的图像增强处理,同时新的Steady Video 2.0能够更好的加速和处理抖动的视频。

  除此之外AMD也没有忘记自己GPU的长项,那就是强大浮点吞吐能力所带来的密码编码与破解能力。根据AMD提供的信息,WinZIP 16.5开始提供OpenCL硬件加速特性,可以支持文件和加速以及AES加密处理,HD 7900具备超高硬件规格,所以在这方面可以带来很高的性能表现。

  当我们看到各种浮华的GPU多功能化表现之后,不妨想一想这背后的强大硬件支撑,HD 7900通过更新之后的CU单元在计算能力和效率方面有了长足的进步,不仅令Compute Shader处理能力大幅提升,进而提升了GPU在 11环境下的图形性能,在通用计算领域也获得了更加广阔的前景和更多样化的发展可能。

我要回帖

更多关于 dp1.4和2.0的区别 的文章

 

随机推荐