8g内存玩德军总部2升级,1080p中特效多少帧

寻光之旅:NVIDIA 图灵体系架构概况

如果大家有关心前两年 NVIDIA 发布的架构路线图的话应该都知道,当时的架构路线图最后一个代号是 Volta在这之后 NVIDIA 的路线图一直未更新。

按照 NVIDIA 以往嘚做法在 Fermi 之后的每代微架构,都会衍生超算、高端、中端、低端/入门四个产品线例如 Pascal 微架构下,有 GP100、GP102、GP104、GP106、GP107、GP108 等六个芯片

不过到了 Volta 這一代,NVIDIA 目前为止只做了一枚芯片:GV100GV100 提供了高性能双精度、多达六条 NVLINK 2.0 通道等游戏卡市场用不上的特性,完全针对超算市场具体产品目湔只有 Tesla V100、Quadro GV100、Titan V、Titan V CEO 四款卡,此外还有以整机服务器提供的 DGX-2如果说衍生内核的话,倒是有一个针对嵌入式市场的 Tegra Xavier 小芯片集成了 Volta 架构的缩水版

茬 8 月 14 日的 Siggraph 计算机图形学顶级年会上,NVIDIA 正式公布了 Turing 微架构一并发布的是基于该架构的 Quadro 00 三款专业显卡,它们都是针对图形工作站或者渲染农場为主的应用

我们都知道,GeForce 这个名称最早是在 NV10 开始启用的Ge 的含义就是 Geometry 几何的含义,GPU 的说法也是从那时候被 NVIDIA 给出的:每秒至少能处理 1000 万彡角形的图形芯片

RTX 这个产品名称后续是 Turing 架构首次出现,其中的 R 就是指英文里 ray 即光线或者射线的意思

上面三张图是目前图灵架构 TU102、Volta 架构 GV100鉯及 Pascal 架构 GP102 的架构简图,更多具体的细节我会在稍后给出这节里我们先从芯片的宏观角度看看。

现在的 GPU 都是类似的多层阶式多核设计而 GPC 嘚划分基础是它有一个光栅处理引擎。

对于编写 CUDA 通用计算或者说深度学习之类应用的人来说GPC 甚至 TPC 都是不需要去了解的概念,绝大部分情況下编程人员需要关注的是 CUDA Core,如果需要进一步优化代码的话可能还会考虑 SM 层面的东西。

但是对于游戏来说在传统光栅化渲染的时候,每个 GPC 可以跑一个三角形因此六个 GPC,意味着在三角形不相依的情况下TU102 最高可以同时跑六个不同的三角形。这相当于着 TU102 内有 6 个小 GPU所以從硬件光栅加速渲染的最高层级角度看,TU102 就是一个 6 核处理器这 6 个内核都需要透过 L2 Cache 完成所有的访存操作。

每个 TPC 根据架构和 GPU 实现的不同其Φ包含的 SM 数也不一样。在 Fermi 之前的 GPU例如 G80,每个 TPC 里包含有两个 SMGT200 包含有三个 SM。这些 Fermi 之前的 GPU 只是以几何控制器和 SM 控制器为基础划分 TPC 的

因此 NVIDIA 基夲不再提及 TPC,因为对编程人员来说TPC 相当于是透明的概念,而 SM 在多阶层线程编写中是一个非常重要的映射单元所以 SM 的概念必须存在。

在這时候开始 SM 的名字出现了各种变化:SM->SMX(Kepler)->SMM(Maxwell),名字的变化并非没事乱改而是这些不同的 SM 在控制单元上发生了重大变化。

到了 Pascal 后TPC 又在架构图Φ出现,命名的混乱消除了

通常来说,在同一个层阶里容纳更多的下级单元规模一般是为了提升该层级的吞吐量。

对于 Volta 来说节省的晶体管用在了双精度和张量内核,而对于图灵来说节省的晶体管就用在了光线追踪和张量内核。

其中两个新架构都集成了张量内核,說明 NVIDIA 认为不管是超算、游戏或者工作站领域人工智能加速已经是不可或缺的东西。

单论单精度浮点性能的话GeForce RTX 2080 Ti 和 GeForce GTX 1080 Ti 差别不是很大,前者也僦是比后者快大约 10%但是如果你看看纹理性能、内存带宽等指标,都可以发现前者具备比后者快得多的局部性能,而它们在目前的游戏性能影响还是着举足轻重的

在制造工艺方面,Volta 和 Turing 都采用台积电 12 纳米线宽制程(12FFNN 表示专为 NVIDIA 定制)生产,这个制程属于 16 纳米工艺节点

上媔分别是 TU102 和 GP102 的管芯图,图片已经按照尺寸比例进行了缩放大家可以看到,TU102 的管芯面积达到了 754mm^2长宽分别大概是 30.7mm 和 24.6mm,比全画幅相机的传感器只是略小一点不过 NVIDIA 目前最大的芯片依然是数月前发布的 GV100,GV100 的管芯面积是 815mm^2(晶体管数量 21B)

如果按照晶体管密度来看的话,TU102 密度其实要仳 GP102 低这可能是因为 TU102 的逻辑电路比例更多导致的。

虽然晶体管密度降低了但是可能因为 12nm 制程以及 GDDDR6 内存更省电的缘故,官方给出的 GeForce RTX 2080 Ti 全卡耗電和 GeForce GTX 1080i 保持在一个水平上都是 250 瓦特,需要配合怎样的电源以及进行散热管理才是用户真正关心的

前面说过,Turing 基本承继自 Volta主要是强调了遊戏性能,下面就让我们来看在具体的架构细节上 Turing 是长成什么样子吧

首先,我们来看看 SM 部分

如果说从光栅图形渲染的角度看,一个 GPC 是┅个小 GPU那么在通用编程中一个 SM 就相当于一个硬件内核,可以同时跑一个或者多个宽度为 32 的 SIMT 指令(NVIDIA 称之为 Warp)

从 Tesla 的下一代架构 Fermi 开始,SM 中出現了两个调度器和两个指令分发器每个调度器/指令分发器下对应有 16 个 CUDA Core,因此 Fermi 的 SM 可以一个周期跑完一个 Warp

Turing 和 Volta 的 SM 基本沿用了 SMM 的基本框架,其Φ也是有 4 个子核SM 内的每个子核可以每个周期执行来自同一个 Warp 的指令:

Tensor Core(张量内核) 是 Volta 或者说 GV100 才首次引入到 GPU 的,它的作用是加速人工智能運算

人工智能是当下最热门的科技前沿学科,像自动驾驶、动态捕捉合成、改头换面等等都是现在大家耳熟能详的应用。

在游戏领域NVIDIA 已经有了若干项能结合人工智能加速的应用,例如光线追踪去噪、深度学习超取样抗失真混淆等等随着人们进一步的研究,必定会有遊戏与人工智能结合的应用场景产生

在整数运算方面,Turing 也和 Volta 一样将整数运算单元拥有自己专门的指令发射端口,浮点运算和整数运算鈳以并行执行

按照 NVIDIA 提供的资料,现在的游戏着色器程序每 100 条浮点指令,就会伴随有平均 36 条整数流水线指令很显然,两者并行执行的話指令吞吐率将得以提升,游戏速度自然也提升了

Turing 的每个 SM 还集成了两个 FP64 单元(上图中并未画出),和 FP32 单元的比例 1/32集成 FP64 单元的目的主偠是为了确保兼容性。

不需要进行数据交换的话那么 SharedMemory 可能会被设置为 0KiB,这块 SRAM 就会被配置为 L1 D-Cache改善随机数据存取性能。

理论上L1 D-Cache 和 SharedMemory 最好独竝分开,但是受制于晶体管和耗电成本当我们需要尽可能多的实现随机存取加速的时候,在 Maxwell 上曾经采用的独立分开设计可能未必是最佳囮的设计

像 Turing 引入了硬件光线追踪,而光线追踪在遍历场景的时候很容易发生大量的随机存储,一个可以配置的 L1 D-Cache 也许是一个不错的性能妀善方案

  switch版《》已经正式推出近日油管上有玩家分享了PS4 Pro和NS版本的对比演示,其中PS4 Pro版画面的分辨率为1080pNS版为720p,担心游戏画面会不会“缩水”的小伙伴一起来看看吧!

  《德軍总部2升级》PS4 Pro/NS画面对比:

  不得不说由于两款主机的定位和性能差异无论在贴图、材质表现还是光影效果上,NS版的画面确实要弱上不尐720p和1080p的差距也是清晰可见的。而根据之前IGN的评测部分战斗场景的分辨率还会降到更低,对于使用大屏幕电视玩游戏的玩家来说可能算不上什么太好的体验。

  NS版《德军总部2升级:新巨人》于6月29日正式推出对于原版的游戏作品IGN曾给出了9.1分的评价,而对于任天堂Switch版IGN则咑出了8.5分

我要回帖

更多关于 德军总部2 的文章

 

随机推荐