2019年的台北ComputeX电脑展上,NVIDIA首次公布了神秘的RTX 20系SUPER序列新品,并陆续在RTX 2070、RTX 2060和RTX 2080 GPU上推出了SUPER升级版,随后又在基于同为Turing架构的GTX 16系产品上推出了GTX 1660 SUPER和GTX 1650 SUPER两款入门级的SUPER产品。不过在RTX 30系产品的时期,或许是由于受疫情和矿潮的双重影响导致显卡市场异常混乱,NVIDIA并未在Ampere架构核心的GPU上推出SUPER升级产品,而是将它放在了Ada Lovelace架构的RTX 40系身上。CES 2024上,NVIDIA一口气公布了三款基于SUPER序列的RTX 40产品,分别是RTX 4080 SUPER、RTX 4070 Ti SUPER和RTX 4080 SUPER,最先上市的正是我们本次评测的主角——NVIDIA GeForce RTX 4070 SUPER。
编者注:首先给读者解释一个可能存在的认知误区。受RTX 20 SUPER系产品的影响,不少读者可能都默认SUPER是介于普通版和Ti版GPU之间的固定产品序列,即SUPER比普通版强但比Ti版弱。但按照NVIDIA的产品定位并非如此,SUPER只是一个代表着更强性能的产品系列后缀,它能出现在普通版GPU的后面,也能出现Ti版的后面,都寓意着比原版更强。所以我们看到本次NVIDIA也发布了GeForce RTX 4070 Ti SUPER这样命名的产品系列。
复习:Ada Lovelace架构的性能优势本次NVIDIA发布的三款RTX 40系SUPER产品同样都是基于Ada Lovelace架构,在评测之前,我们还是简单复习一下Ada Lovelace架构的核心技术精简概览,目的是为此前没有阅读过相关技术信息的玩家更好理解后续评测之用。如果您对此部分内容已经非常了解,请跳过直接阅读后文的评测部分即可。
作为首先亮相的RTX 40系“SUPER”成员,RTX 4070 SUPER GPU在架构上是完全传承了RTX 40系GPU Ada Lovelace核心的全部精髓。采用第三代光追核心和第四代AI核心设计,第三代 RT Cores 的有效光线追踪计算能力达到 191 TFLOPS,是上一代产品 2.8 倍。新的 Tensor Cores 新增 FP8 引擎,具有高达 1.32 petaflops 的张量处理性能,超过上一代的5倍。
同时,在SM单元的设计上也是全新进化,效率达到了上一代的2倍。RTX 40系GPU所支持的着色器执行重排序SER可以重新调度着色器的工作排序,从而避免部分着色器在等待中浪费算力和电能,以获得更好的效率和性能。着色器执行重排序 SER 为光线追踪带来最高可达 3 倍的性能提升,整体游戏性能提升可高达 25%以上。
DLSS 3与OFA光流加速器
基于Ada光流加速器的DLSS 3最高可带来相对于DLSS 2达2 倍的性能提升,使 DLSS 3 能够预测场景中帧和帧之间的运动变化,使神经网络能够在保持图像质量的同时提高帧率。DLSS 3 技术支持 GeForce RTX 40 系列 GPU,它包括 3 个功能:帧生成技术、超分辨率(DLSS 2 的关键创新)和 NVIDIA Reflex。开发者只需整合 DLSS 3,即可默认支持 DLSS 2。
为DLSS 3优化,更高效的GPU存储系统设计
GPU的存储系统整体由L1缓存、L2缓存、显存(位宽、带宽、频率)以及系统内存四部分组成。
▲L1缓存位于SM单元内,与CUDA核心几乎是一体的。
▲L2缓存,位于RTX 40系GPU芯片内,通过高速总线桥梁与SM单元(GPC)通信,由所有SM单元共享。
▲显存位于显卡的PCB板上,通过显存控制器总线与GPU核心通信。
GPU在工作时需要频繁且有效地访问数据,数据访问越快、越准确,那么GPU所表现出来的游戏或创作性能就越高。在RTX 40系GPU的每个SM单元内都存在一个超低延迟的L1缓存,这是CUDA核心、AI核心和光追核心在进行计算时的数据访问首选项,理论速度上它是最快的。但由于L1缓存位于SM单元内,因此不可能设计得非常大(空间、散热与成本的综合考虑)。
如果GPU的核心在L1中访问不到所需要的运算数据,那么就会转向L2缓存中寻找,在L2缓存中如果找到了所需数据,则会直接调用到GPU内核,这叫缓存信息命中。反之,如果在L2缓存中仍然找不到数据(缓存信息缺失),那么就要由GPU的显存控制器通过显存总线接口去访问GPU外部更大容量的显存,这一速度是远低于访问GPU内部缓存的,而且产生了额外的工作流程。相比L1、L2缓存的信息访问而言,在性能和功耗效率上都大大降低了。
▲传统GPU的存储系统设计中,如果在较低的L2缓存设计下,访问未命中的情况会比较多(图中红色部分),此时这些访问未命中的数据就需要通过总线接口到显存(VRAM)中寻找,速度大大降低。如果显存中仍然未找到需要的数据,那么就要通过系统总线去访问系统内存,并复制到显存中进行调用,这一过程是效率最低的。
▲RTX 40系GPU上,L2缓存容量得到了极大增强,RTX 4070 SUPER GPU配置了48MB的大容量缓存,大大提高了L2缓存中的访问命中率。因此在相同甚至更低的显存带宽下,大容量的L2缓存设计能有效提升GPU核心的效率,表现在游戏性能上就是大幅度提升了游戏帧率。
简单来讲,更高的L2缓存设计能极大提升GPU的数据访问命中率,从而让GPU核心能在整体显存带宽和容量成本控制上有更大的冗余空间,且拥有更高的效率。尤其是对于DLSS 3来说,更大的L2缓存也在很大程度上提升了DLSS 3的执行效率,对整体游戏性能的表现提升有着巨大贡献。
第八代NVIDIA编码器(NVENC)
RTX 40系GPU全部采用了第八代NVENC编码器的配置,能够将视频导出时间至多缩短一半,并支持 AV1 编码。OBS、Blackmagic Design DaVinci Resolve、Discord 以及更多公司都已在采用 NVENC AV1 编码器。RTX 4070 SUPER 也搭配了第八代NVENC编码器和第五代NVDEC解码器。
更强的Studio性能
除了游戏性能之外,RTX 40系GPU也是用于内容创作的优秀GPU,在加速3D设计创作、视频剪辑处理和AI计算方面,都有非常不错的表现。
同时,专用的NVIDIA Studio Driver在顶级创意应用上经过全面测试,能够最大限度地提高可靠性,比如:
●主播可以用支持AV1的全新第八代编码器来提高现场直播质量,利用 NVIDIA Broadcast AI 特效改善麦克风和网络摄像头,并进入AI驱动的 VTubing。
●得益于RTX 40 系列的第八代NVENC编码器和最高可达2倍的AI工具性能,视频编辑的输出速度最高可提升2倍。
●得益于第三代RT Core、SER、DLSS 3和NVIDIA Omniverse,3D 设计创作者可以在4K@60fps 下进行创作。
●Modder可以重制经典游戏,并通过RTX Remix开启RTX。
GeForce RTX 4070 SUPER GPU简析首先了解一下GeForce RTX 4070 SUPER GPU(后文简称RTX 4070 SUPER)的硬件规格配置,这也是我们后续评测的基础所在。
和此前发布的RTX 40系GPU一样,RTX 4070 SUPER同样基于NVIDIA目前最新一代的Ada Lovelace架构,核心代号为AD104-350,仍然是属于RTX 4070系的AD104序列,但350的后缀则清晰地表明了它的性能应该是介于AD104-400的RTX 4070 Ti和AD104-250的RTX 4070之间,而且从350的后缀数字上也可以猜测一下,它的性能会不会只比400后缀的RTX 4070 Ti弱一点点,但比250后缀的RTX 4070则要强不少呢?
从规格上来看,RTX 4070 SUPER包含了5个GPC模块,跟RTX 4070 Ti一样,不过在最后一个GPC模块内相比RTX 4070 Ti减少了2个TPC。因此RTX 4070 SUPER总共有28个TPC,包含56个SM单元,CUDA核心为7168个,光追核心为56个,AI核心Tensor Core为224个。从减少的2个TPC配置可以算出,这部分硬件规格上相比RTX 4070 Ti的缩减仅有3%~4%。在核心频率上,RTX 4070 SUPER的1980MHz~2475MHz公版指导频率设置略低于RTX 4070 Ti的2205MHz~2610MHz指导频率,而在显存部分二者则完全保持一致——192bit、504GB/s带宽的12GB GDDR6X。所以从整体的硬件规格差距上来看,RTX 4070 SUPER的理论3D性能和RTX 4070 Ti的差距大致应该在5%左右。当然,在具体的应用中应该会有一些波动,但想来差距也不会太大。
再来看和RTX 4070的规格比较。相比只有46个SM单元配置的RTX 4070,RTX 4070 SUPER的硬件规格领先约20%,显存部分二者则完全一样,加上二者几乎没有差距的核心频率设置,因此我们估计RTX 4070 SUPER相比RTX 4070的性能领先优势约在20%左右。考虑到具体应用环境的不同,这个数值可能在±5%以内浮动。但RTX 4070 SUPER的实际性能到底表现如何?我们还得用实际的评测说话。
NVIDIA GeForce RTX 4070 SUPER FOUNDERS EDITION赏析在外形架构上,RTX 4070 SUPER FOUNDERS EDITION(后文简称RTX 4070 SUPER FE)与RTX 4070 FE保持了完全的一致。板型设计上采用了“小卡”设计,整体感觉非常轻盈。在外观结构上,仍然是我们非常熟悉的,传承了RTX 40系公版显卡的风格——X形的金属中框搭配正反交错的散热风扇,而散热片仍然是外露的分布式散热片。不过,或许是为了凸显SUPER系产品的特殊定位,X形的金属中框从RTX 40系传统的香槟银色变为了与散热片一致的黑色,这也让整体外观显得更加沉稳和内敛。
▲正反面交错放置的两只7叶类镰刀风扇,静音效果感觉比较优秀。较大扇叶面积的风扇能够提供更高的风压与风量,而风扇采用的流体动力轴和反方向旋转的设计,让RTX 4070 SUPER FE可以更安静、凉爽地运行。
▲600W供电的ATX 3.0电源PCIe 5 16Pin 12VHPWR接口,已经成为RTX 40系的标配。
▲正面的LOGO
▲输出接口仍然是传统设置,3DP 1.4a+1HDMI 2.1。
产品资料
核心架构:Ada Lovelace
核心代号:AD104-350
制程工艺:TSMC 4N NVIDIA定制工艺
GPC:5
TPC:28
SM单元:56
CUDA核心数:7168
光追核心数(RT Cores):56(第三代)
AI核心数(Tensor Cores):224(第四代)
核心频率:1980MHz~2475MHz
显存容量:12GB GDDR6X
显存速率:21Gbps
显存位宽:192bit
显存带宽:504GB/s
L2缓存:48MB
支持DLSS版本:DLSS 3
TGP:220W
建议电源:650W
首发参考价:4899元
游戏性能测试,甩开RTX 4070,超越RTX 3090在具体的性能测试部分,我们将会通过一系列的测试软件和工具,来考察RTX 4070 SUPER FE的游戏性能、设计创作性能以及日渐被各大厂商所重视的AI性能。作为性能的参考,我们在测试中会主要加入RTX 4070 Ti、RTX 4070以及前一代的对位产品RTX 3070 Ti作为主要对比对象。同时,我们也将RTX 3090纳入了对比范畴,想看看RTX 4070 SUPER在游戏性能上能否超越这一前一代的次旗舰顶级产品。在市场竞争产品的选择上,从目前的价格来看,与RTX 4070 SUPER最贴切的当属AMD前段时间上市的Radeon RX 7900 GRE,其首发价格为5299元,目前市场价格在5000元左右,价格略高于首发价格4899元的RTX 4070 SUPER。因此我们也将Radeon RX 7900 GRE加入了游戏性能的对比测试之中,并单独列出供玩家参考。
编者注:后文所有参与测试的GPU,除了在测试平台介绍中特别指出的产品之外,其余皆基于公版产品。
测试平台
GPU:NVIDIA GeForce RTX 4070 SUPER、RTX 4070 Ti(AIC产品,NVIDIA指导频率设置)、RTX 4070、RTX 3070 Ti、RTX 3090、AMD Radeon RX 7900 GRE(AIB产品,AMD官方指导频率设置)
CPU:英特尔酷睿i9-14900K
主板:英特尔Z790
内存:DDR5 5200 16GB×2
硬盘:长江存储致态 1TB PCIe SSD三体版
显示器:戴尔UP3218K(7680×4320@60Hz)
驱动程序:NVIDIA Game Ready Driver 546.52
AMD Radeon Software Adrenalin Edition 23.12.1(7900 GRE)
操作系统:Windows 11 Pro 22H2
▲NVIDIA GeForce RTX 4070 SUPER FE的GPU-Z截图,由于评测期间产品尚未上市,可以看到GPU-Z尚不能完全识别显卡的所有信息,但基本硬件信息已经能够正确识别。
3DMark理论性能测试
3DMark的理论性能测试结果基本和我们之前分析硬件规格差距时得到的猜测相差无几。综合DX11性能、DX12性能和光追性能的理论测试成绩来看,RTX 4070 SUPER的平均性能领先RTX 4070约20%,平均领先RTX 3070 Ti则达到了43%。相比RTX 4070 Ti,RTX 4070 SUPER与其的平均性能差距仅在5%左右。
传统游戏性能测试
▲游戏测试的DLSS超分辨率模式统一设置为“平衡”
在传统游戏性能的考察上,我们此次测试一共选择了18款新旧搭配的热门游戏进行了测试,其中既包括《全面战争:战锤3》《骑马与砍杀2》等较老的非光追游戏,也包括《心灵杀手2》《魔咒之地》《星空》等需求较高的3A级新光追游戏。
从测试的结果来看,RTX 4070 SUPER的性能还是表现非常强悍的。开启DLSS之后,在1440p分辨率下可以非常流畅地运行所有参测游戏。相比前一代的对位产品RTX 3070 Ti,RTX 4070 SUPER的整体性能领先达到了40%以上,越是在高光追效果的游戏中,领先优势越明显,比如《传送门:序曲》RTX版中的领先幅度甚至达到了100%以上。相比RTX 4070,RTX 4070 SUPER的整体游戏性能领先也达到了17%左右,符合预期值。与RTX 4070 Ti相比,RTX 4070 SUPER的性能与其的差距在6%左右,也基本与我们的测试前的猜测符合。
DLSS 3,游戏性能更进一步提升
我们曾说过很多次,DLSS真的是一款值得让人真心“吹爆”的游戏黑科技技术。DLSS超分辨率巨大的帧率提升和画质优化效应让NVIDIA显卡进入了“神之领域”,而DLSS 3带来的帧生成和融合其中的NVIDIA Reflex低延迟技术则完全让RTX 40系显卡进入了“超神”的境界。随后伴随DLSS 3.5升级带来的光线重建技术则让光追游戏的画质得到了质的进化与改变,同时对帧率的影响还非常小。可以说DLSS发展到现在,已经算是彻底地将RTX 40系GPU的所有潜能激发,为玩家们创造了一个无与伦比的游戏体验环境。有了DLSS 3的辅助,RTX 4070 SUPER又能激发出怎样的性能表现呢?
在DLSS 3性能的测试上,我们选择了总共11款支持DLSS 3的游戏,在1440p分辨率、最高光追效果、最高画质和DLSS超分辨率平衡模式的设置下进行了细致的考察。
从测试结果来看,DLSS 3的确又为RTX 4070 SUPER带来了性能上的大飞跃。就测试游戏而言,开启DLSS 3之后,相对原生游戏帧率的提升幅度达到了100%~300%,平均性能增幅在180%左右。相对不开启帧生成功能的DLSS 2,DLSS 3所带来的游戏性能的提升也基本达到了50%左右。比如在《心灵杀手2》这款游戏中,不开启DLSS时的原生帧率仅为44fps左右,开启DLSS 2平衡模式后游戏帧率可以达到88fps的流畅运行效果,而在开启帧生成功能之后,游戏平均运行帧率则可以猛增到131fps左右,达到了绝对流畅的120fps+运行效果。
DLSS 3开启之后的另一个好处就是系统延迟PCL的整体下降和1%L fps的升高。像在《巫师3:狂猎》游戏中,DLSS关闭时的系统延迟达到了113毫秒,但开启DLSS 3之后,系统延迟则降低到了40毫秒左右。同样,在《传送门:序曲》RTX版游戏中,DLSS关闭时的系统延迟高达131毫秒,开启DLSS 3之后系统延迟瞬间降低到了38毫秒,带来了更加流畅丝滑的游戏体验。
DLSS 3.5,为光追游戏进一步优化画质与帧率
再来看DLSS 3.5的性能表现。DLSS 3.5的核心在于名为Ray Reconstruction(光线重建)的核心算法。这一重新构建光追游戏画面的算法技术本质上是一种全新的人工智能模型,能够为密集型的光追游戏和设计创作领域内的渲染应用程序提供更高质量的实时光追图像。很明显,DLSS 3.5是基于NVIDIA的增强型AI神经网络渲染训练的产品,其背后依托的显然是NVIDIA的模型训练超算电脑。Ray Reconstruction光线重构作为DLSS 3.5的核心技术,其最主要的功能就是在光追游戏中用基于超算的AI网络模型训练结果,来代替传统渲染流程中的降噪算法模块(传统降噪渲染模块),从而明显地提升光追游戏的图像质量。
▲各代DLSS所包含的技术核心内容
目前已经上市的游戏中,一共有两款游戏支持DLSS 3.5的完整功能,分别是《赛博朋克2077》和《心灵杀手2》(《传送门》RTX版尚未正式实装DLSS 3.5)。在这两款游戏中开启光线重建功能后,我们能够清晰地看到游戏画质表现得到了飞跃式的提升。
▲《赛博朋克2077》,DLSS超分辨率平衡,DLSS帧生成开,DLSS光线重建关闭。
▲《赛博朋克2077》,DLSS超分辨率平衡,DLSS帧生成开,DLSS光线重建开启。
▲《心灵杀手2》游戏截图,左为DLSS 3(光线重建关闭),右为DLSS 3.5(光线重建开启)。
从游戏画面的实际呈现中可以看到,开启光线重建功能之后,光追游戏下的画质表现有了非常大的提升,游戏中的降噪性能得到了完美的体现,整体画质表现更加清晰,细节更突出,属于肉眼可见的画质增强。
而且,在开启光线重建之后,相对于DLSS 3的设置,游戏帧率仅有小幅度下降,在3%~5%左右,基本不会对游戏体验带来任何影响。比如在《赛博朋克2077》游戏中,1440p分辨率下开启DLSS超分辨率平衡模式和DLSS帧生成时,游戏帧率为128fps左右。此时打开光线重建充能后,游戏画质表现有了大幅度的提升,但帧率仅下降了6fps,不到5%,完全不影响游戏体验。
游戏性能,完爆RTX 3090金币RTX 4070 SUPER在前面的测试中体现出了相对于前一代的对位产品RTX 3070 Ti的较大性能优势,那么如果面对前一代的顶级序列产品,比如RTX 3090来说,它是否还有足够的性能优势呢?我们决定尝试测试来看看。
测试中选择了7款比较有代表性的游戏进行考察。从全部7款游戏的测试情况来看,在不开启DLSS的原生游戏环境情况下,RTX 3090有三款游戏的性能表现领先于RTX 4070 SUPER,另外三款游戏性能表现落后于RTX 4070 SUPER,而在《赛博朋克2077》游戏中二者的性能基本相当。
开启DLSS超分辨率平衡模式之后,RTX 4070 SUPER在5款游戏性能的表现上领先于RTX 3090,《心灵杀手2》游戏中性能略逊色于RTX 3090,而在最近备受关注的网易最新开放世界RPG游戏《燕云十六声》内测版的性能测试中则是和RTX 3090持平,但开启DLSS 3 后,游戏性能则实现大幅提升,平均游戏性能领先RTX 3090达40%。
当RTX 4070 SUPER进一步开启帧生成功能之后,此时相对于只能开启DLSS超分辨率的RTX 3090来说,RTX 4070 SUPER的性能已经实现了全面超越,在所有游戏的测试中,DLSS 3状态下的RTX 4070 SUPER相比DLSS 2状态下的RTX 3090,性能领先平均达到了50%,已经完胜RTX 3090,后者惨遭“爆金币”。
总的来看,即使不开启DLSS,RTX 4070 SUPER的游戏性能表现也基本不输于RTX 3090,甚至还有小幅占优,开启DLSS 3更是完美胜过DLSS 2状态下的RTX 3090,赞一个!
竞争对手PK,综合性能强于RX 7900 GRENVIDIA目前公布的RTX 4070 SUPER首发指导价格为4899元,在竞争对手方面,AMD目前市场价格在5000元左右的Radeon RX 7900 GRE算得上是一个合适的对位产品。在差不多的价格段上,相对来说二者谁更有购买价值呢?我们也来简单地测试一下。
在光栅游戏性能部分,我们选了六款游戏进行实际测试。测试结果显示RTX 4070 SUPER在《赛博朋克2077》这款游戏中RTX 4070 SUPER遥遥领先,达到了平均35%左右的程度。除此之外,RTX 4070 SUPER在1440p分辨率下其余五款游戏测试中有不同程度的小幅度落后,平均约在4%左右。在1080p分辨率下,除了遥遥领先的《赛博朋克2077》之外,其余5款游戏有4款也有微小幅度的领先,不过在《光明记忆:无限》中小幅度落后。整体来看,如果不考虑绝对领先的《赛博朋克2077》,光栅游戏环境下RTX 4070 SUPER相比RX 7900 GRE在1440p分辨率下小幅度落后,在1080p分辨率下则与对手旗鼓相当。当然我们本次测试限于时间,没能针对更多游戏做全面测试,成绩仅供大家参考。
在光追游戏性能部分,RTX 4070 SUPER远远超过了RX 7900 GRE,在选择的六款光追游戏的实际测试中,RTX 4070 SUPER的平均性能领先RX 7900 GRE达到了33%左右,远远地甩开了竞争对手。(时间所限,没能测试更多的游戏得出全面结论,仅供玩家参考)
综合光栅和光追游戏性能来看,RTX 4070 SUPER在整体性能上是有不小领先优势的,整体性价比相比RX 7900 GRE来说应该更出色一些。
AI性能,加速在路上随着近年来AI应用愈发得到上下游厂商的重视,GPU在AI计算上的优势也愈发得以凸显。无论是NVIDIA、英特尔还是AMD,都对自家芯片的AI性能寄予了厚望。
事实上,从2006年在8800 GTX上实装CUDA核心之后,NVIDIA就一直在探索GPU核心的通用计算能力和AI相关的运算。2018年RTX GPU的发布,更是借着堪称划时代的RT Core和Tensor Core的设计,在游戏内实现了实时光线追踪效果的渲染。
到了2023年,NVIDIA在AI计算性能方面更是发了猛力,在基于PC本地生成式AI计算的基础上,NVIDIA着重扩展了基于Tensor Core和RT Core的用于高性能深度学习推理计算的SDK——TensorRT,在基于LoRA、LLM等生成式AI应用上,充分解放了RTX GPU的计算性能。
而在2024年,NVIDIA在AI应用上还有更深远的计划,在CES 2024上,NVIDIA还正式发布了基于混合式AI应用(Hybrid AI)计算而生的NVIDIA ACE。在NVIDIA ACE的应用框架下,基于云端的训练模型和基于本地PC的RTX GPU将共同协作,来自玩家的语音指令将通过语音-文本的AI转换传输到云端,云端服务器上的NPC语音训练LLM大模型将对其做出响应,并通过AI训练来反馈玩家指令,并给予NPC回应指令。在云端通过文本-语音的转换之后,再传回基于RTX GPU的本地PC,通过语音-唇形的AI匹配,由游戏引擎通过RTX GPU的计算最终生成游戏NPC的回应。显然,在NVIDIA ACE的作用下,游戏中的NPC将不再是冷冰冰、一成不变地按照设定的指令回应玩家,而是会经过AI计算来对玩家的对话内容、指令等做出不一样的合理反应和对话,甚至还可能会带上自己的情绪。想一想,是不是有点虚拟现实游戏的那味儿了?
关于NVIDIA Hybrid AI和ACE的内容,我们将在后续的文章中专门为大家撰文解析。言归正传,回到RTX 4070 SUPER的AI性能测试本身。在这部分测试中,我们将通过三个应用来测试RTX 4070 SUPER的AI性能,分别是基于AIGC应用的Stable Diffusion Automatic1111、基于图片AI处理的ON1 Resize AI 2023和基于视频AI缩放的RTX视频超分辨率(NVIDIA RTX VSR)。
Stable Diffusion Automatic1111+TensorRT
Stable Diffusion想必大家都非常熟悉了,这是当下最为火热的AIGC应用,在TensorRT的扩展支持下,RTX GPU的AIGC性能能有多大提升呢?我们在评测室部署了基于Automatic1111的Stable Diffusion WEB UI本地应用,并安装了基于SD_XL大模型和SD_1.5标准模型的NVIDIA TensorRT扩展。让我们一起来通过三个实例看看RTX 4070 SUPER在AIGC应用上的表现吧。
关键词:宇宙大战
采样步数50,生成图片数10,生成次数1,采样方法Euler a,分辨率:SD_XL模型1024×1024,SD_1.5模型512×512。
关键词:卡通修女
采样步数50,生成图片数10,生成次数1,采样方法Euler a,分辨率:SD_XL模型1024×1024,SD_1.5模型512×512。
关键词:湖畔别墅
采样步数50,生成图片数5,生成次数1,采样方法Euler a,分辨率:SD_XL模型1024×1024,SD_1.5模型512×512。
从三个不同关键词的AI图片生成测试来看,可以明显地看到,在加入了TensorRT扩展之后,RTX 4070 SUPER的AIGC性能得到了极大的增长。相对于不采用TensorRT扩展的纯SD_XL模型或SD_1.5模型,TensorRT扩展支持下的图片生成速度和显卡推理效率(迭代效率)都提升了150%之多。比如在“宇宙大战”这一组10张图片的生成过程中,如果仅在SD_XL模型基础上生成,总耗时达到了251秒,显卡推理效率为2.53it/s,每分钟生成图片数约为2.39张。当采用基于SD_XL模型的TensorRT扩展部署时,图片生成总时间缩短到了108秒,每分钟生成图片数也提高到了5.56张,同时RTX 4070 SUPER在该部署下的显卡推理效率也提高到了6.13it/s,整体性能提升幅度超过了150%。
三款RTX 4070系产品的同比来看,RTX 4070 SUPER的出图效率领先RTX 4070约10%,而RTX 4070 Ti的出图效率又领先RTX 4070 SUPER约10%。
在和前一代对位产品RTX 3070 Ti的比较中,通过SD_1.5模型的简单出图效率测试,可以看到RTX 4070 SUPER的性能领先RTX 3070 Ti约20%左右。
从Stable Diffusion的整体测试结果来看,我们确实能感受到Tensor RT这类SDK扩展给RTX 4070 SUPER带来的强大的AI性能提升。同时,必须要注意到的是,从RTX 20系开始,NVIDIA就已经开始在PC的AI性能上着重布局,包括后续几代产品的迭代进化也无一不体现出了NVIDIA对RTX GPU PC的AI性能上重视,并逐渐引导着整个产业朝向AIPC领域不断前进和发展。
从RTX 4070 SUPER在Stable Diffusion Automatic11111+TensorRT扩展上所表现出来的性能上看,它无疑具有非常宽泛的适用面。专业的静态CG图片工作者可以用它创作自己心中理想的图片,相比此前的产品能节省一半以上的时间,大大提升自己的工作效率;游戏、动漫的角色设计师也完全可以在TensorRT扩展支持下更自由、更轻松地创作自己理想中的人物形象;艺术创作者更是可以借着RTX 4070 SUPER+TensorRT的高效出图更快地审视和修改自己的作品;甚至是淘宝、京东等电商平台的店主,也完全可以用RTX 4070 SUPER+TensorRT的高效率快速为自己的商品建模甚至是生成AI的服装试穿等照片,节省大量的额外费用……RTX GPU在AIGC领域的应用前景是一片光明的。
ON1 Resize AI 2023
ON1 Resize AI是一款能够通过AI计算实现图片无损缩放处理的软件。在本次测试中,我们将通过5张图片的GPU AI运算无损放大到200%来测试各款GPU的AI图片处理性能。
测试结果显示,RTX 4070 SUPER在AI图片处理性能上与RTX 4070 Ti的差距非常小,仅在3%~4%之间。相比RTX 4070,RTX 4070 SUPER性能领先约20%,与硬件规格差距比较相符。相对于前一代的对位产品RTX 3070 Ti来说,在图片AI处理性能上已经落后RTX 4070 SUPER约40%,被远远地甩在了身后。
RTX 视频超分辨率,AI生成更清晰视频RTX视频超分辨率这一NVIDIA开发的基于RTX GPU的视频缩放增强技术我们在之前的RTX 40系GPU评测时也多次讲过了,这里对其技术细节就不过多深究。简单来说,NVIDIA RTX 视频超分辨率可以通过AI计算的细节增强让视频播放更加清晰。要实现RTX 视频超分辨率需要两个硬性条件,其一是必须基于RTX 30系以上的GPU并得到驱动程序的支持,其二则是需要支持RTX 视频超分辨率功能的浏览器或播放器,比如浏览器EDGE或Chrome,播放器VLC等。
▲勾选RTX视频增强选项下的“超分辨率”,就能在支持RTX 视频超分辨率功能的浏览器中开启RTX 视频增强。
在测试中,我们选择了Bilibili网站上NVIDIA GeForce官方账号发布的三段游戏视频进行了测试,分别是《赛博朋克2077》终极典藏版、《龙之信条2》预告片和《黑神话:悟空》最新CG片段。首先用不支持RTX 视频超分辨率的FireFox浏览器对三段视频(设置清晰度为1080p)进行全屏播放,同时用GFE的录像功能对播放效果进行录屏。然后在驱动控制面板中开启RTX 视频超分辨率,并使用最新的EDGE浏览器对同样的三段视频进行播放并使用GFE录屏。录制完成后,对比视频放入NVIDIA iCAT软件中进行画质对比,考察RTX 视频超分辨率开关两种情况下视频画质是否有变化。
▲《龙之信条2》游戏CG,左RTX 视频超分辨率关闭(FireFox),右RTX 视频超分辨率开启(EDGE)。
▲《黑神话:悟空》游戏CG,左RTX 视频超分辨率关闭(FireFox),右RTX 视频超分辨率开启(EDGE)。
▲《赛博朋克2077》终极典藏版游戏CG,左RTX 视频超分辨率关闭(FireFox),右RTX 视频超分辨率开启(EDGE)。
事实上,效果还是非常显著的。当开启RTX 视频超分辨率之后,视频质量得到了肉眼可见的极大提升,细节表现更丰富,画面呈现更加清晰通透,尤其是原片中较为模糊的部分,在RTX 视频超分辨率的AI运算加持下也变得比较清晰,在一定程度上提升了观影体验。
设计创作性能,3D渲染、视频创作全无忧GPU的设计创作性能也一直是NVIDIA所关心的重点,并为此专门建立了目前已经非常成熟的Studio生态圈。对于SUPER系的新品RTX 4070 SUPER来说,它的设计创作性能又会有怎样的表现呢?我们将从3D渲染性能和视频转码创作性能这两大主要方面对其进行考察。
在Davinci Resolve 18 Studio的视频转码测试中,RTX 4070 SUPER与RTX 4070 Ti的差距并不太大,整体约为7%左右,不过在4K视频转AV1的测试项上,二者的性能差距达到了20%左右,这应该和RTX 4070 Ti的双NVENC编码器配置相关。和RTX 4070相比,RTX 4070 SUPER的视频转码输出性能与前者相差不大,基本可以视为相当。不过在基于AI应用的魔法遮罩处理上,RTX 4070 SUPER的性能领先RTX 4070约20%,落后RTX 4070 Ti约10%。而与RTX 3070 Ti相比,RTX 4070 SUPER的平均性能领先仍然在30%以上。
在剪映Pro的测试中,RTX 4070 SUPER的性能基本与RTX 4070 Ti相当,与RTX 4070相比8K视频转码领先约5%,4K视频转码领先约20%,整体平均性能领先约为12%。和前一代的对位产品RTX 3070 Ti相比,RTX 4070 SUPER在视频转码性能上的整体领先程度达到了35%以上。
在3D渲染性能部分,我们主要通过V-Ray Benchmark、Blender Opendata Benchmark、Blender 3.5实际模型渲染和D5渲染器CG渲染输出四项来考察RTX 4070 SUPER的3D渲染能力。因为D5渲染器相对比较特殊,我们放在后面单独来讨论。
从Blender Opendata Benchmark的测试来看,RTX 4070 SUPER的理论渲染性能与RTX 4070 Ti有大约10%的性能差距,而相比RTX 4070,理论的渲染性能领先约5%。与RTX 3070 Ti相比,RTX 4070 SUPER的性能领先则达到了31%。
在Blender 3.5的实际模型渲染测试中,和Benchmark理论测试有一点差异。和RTX 4070 Ti相比,在实际渲染输出性能上,RTX 4070 SUPER与前者仅有平均4%的差距,与RTX 4070相比则领先13%左右。在实际模型渲染性能比较上,RTX 4070 SUPER性能领先RTX 3070 Ti更是达到了80%以上。
再看V-Ray Benchmark,这项测试的结果相对比较稳定。无论是5.x版本还是最新的6.0版本,RTX 40709 SUPER在性能上与RTX 4070 Ti都仅有4%上下的差距,而相对于RTX 4070来说则领先约20%。对比前一代的对位产品RTX 3070 Ti,RTX 4070 SUPER的测试性能领先前者近50%。
最后来看下D5渲染器。之所以把D5渲染器的测试情况单列出来,是因为这是一个干货较多的3D渲染器,而且支持NVIDIA最新的DLSS 3.5。
在D5渲染器的测试中,我们将通过开关DLSS 3.5各个选项——DLSS超分辨率采样,光线重建、实时高帧率(帧生成)来测试RTX 4070 SUPER在不同设置下的实时渲染帧率,同时与RTX 4070 Ti、RTX 4070和RTX 3070 Ti进行对比。测试所用模型为Minimalist Villa,其内含大量高级光追效果,实时渲染时对GPU的性能要求非常高。
测试结果显示,在DLSS 3.5的帮助下,RTX 4070 SUPER的实时渲染帧率有了飞跃的提升。在关闭全部DLSS功能的情况下,RTX 4070 SUPER仅能实现8fps左右的实时渲染帧率,但开启DLSS 3.5之后,实时渲染帧率则可以猛增到39fps左右,增幅接近400%。同时我们可以看到,开启光线重建之后,RTX 4070 SUPER的实时渲染帧率有约15%的提升,这应该是由于RR降噪器统一取代了内置的多种繁杂降噪器,简省了更多的工作流程而带来的处理效果。
与RTX 4070 Ti相比,在开启DLSS之后,RTX 4070 SUPER的整体渲染输出性能落后约5%,关闭DLSS的原始状态下,RTX 4070 SUPER的实时渲染性能落后RTX 4070 Ti约12%。
同比RTX 4070,在开启和关闭DLSS的状态下,RTX 4070 SUPER的性能领先则分别为22%和33%。另外,我们在测试中遇到了RTX 3070 Ti无法开启该测试版本D5渲染器的问题,应该是程序兼容性问题,本次测试缺失了RTX 3070 Ti的该项目成绩,后续有机会再为大家补上吧。
D5渲染器中加入了对DLSS 3.5功能的支持,除了在实时渲染帧率上获得极大幅度提升之外,实时渲染CG的画质也得到了大幅度的提升,降噪效果相比传统降噪器可谓一个在天,一个在地。从以下两幅渲染截图的对比就能清晰地看出,开启光线重建之后,画面的噪点得到了有效抑制,整体细节表现更清晰,画质更优秀。
▲D5渲染器,左光线重建开,右光线重建关。
▲D5渲染器,左光线重建开,右光线重建关。
散热与功耗最后说说RTX 4070 SUPER FE这张显卡的功耗和散热控制情况。我们用5款游戏的1080p和1440p分辨率下的综合平均游戏功耗对其进行考察,最后发现RTX 4070 SUPER FE的平均游戏功耗约在192W左右,低于TGP设计的220W。结合对比RTX 3070 Ti 210W的游戏功耗和300W以上的满载功耗,RTX 4070 SUPER在能耗比上已经远远超过了前一代的对位产品。
在温度的控制上,RTX 4070 SUPER FE的烤机温度为66℃,仅比同为公版设计的RTX 4070 FE高2℃左右,更是远低于RTX 3070 Ti FE的74℃满载温度,在整体散热的控制还是比较不错的。
或许会成为5000元级显卡的新王者惯例,评测结束之后先来点直接的结论:
1.RTX 4070 SUPER的性能相比RTX 4070 Ti仅差5%左右,领先RTX 4070在15%~20%。
2.和前一代对位的RTX 3070 Ti相比,即使不开启DLSS 3的帧生成功能,整体性能也领先达40%,尤其是在新游戏中的性能领先优势更明显。
3.和前一代的次旗舰RTX 3090相比,RTX 4070 SUPER的基础游戏性能与前者相当,开启DLSS之后游戏性能领先5%左右,开启DLSS 3之后,对比只能开启DLSS 2的RTX 3090,在游戏性能上的领先程度已经达到了50%以上。
4.与价格相差不大的竞争对手RX 7900 GRE相比,RTX 4070 SUPER在光追游戏环境下全面胜出,性能超过竞争对手30%以上。在光栅游戏环境下部分游戏遥遥领先,部分游戏则小幅度落后,整体而言与RX 7900 GRE的光栅游戏性能差距并不太大。
5.借助新的TensorRT扩展,RTX 4070 SUPER在AIGC性能上又有了质的进化提升,RTX GPU的AI性能正在逐步被激发,未来完全可以期望有更大的进步。
6.借助RT Core和Tensor Core、第八代NVENC以及Ada Lovelace架构的CUDA核心,RTX 4070 SUPER在3D渲染、视频处理方面都有非常出色的表现,应对常见的设计创作工作完全不在话下。
聊聊RTX 4070 SUPER这款GPU的市场定位。这款产品在国内的首发指导价格为4899元,说实话不能算低,毕竟这是一款定位在中高端1440p游戏市场的GPU。从性能上来看,它完全有能力在1440p分辨率下开启DLSS之后实现全特效下绝大部分3A级游戏100fps+的运行水准,甚至在DLSS 3的支持下还能实现非常不错的全特效4K游戏体验,这一点是完全合格的。从性能对比上来看,比其高一个档次的RTX 4070 Ti或许会比较难受了,毕竟与RTX 4070 SUPER的性能差距不太大,平均来看也都在5%~8%,但RTX 4070 Ti的价格普遍在6000元左右,整体性价比来说RTX 4070 SUPER显然更占优。更何况后面还要面临RTX 4070 Ti SUPER的夹击。对RTX 4070来说,或许在RTX 4070 SUPER上市之后,价格如果有一定幅度的下探(比如到4000元左右),应该还有一定的市场空间。
不过对AMD Radeon RX 7900 GRE来说,RTX 4070 SUPER的上市或许会让AMD头疼了,综合游戏性能被爆,价格还更高,对一款才上市不太久的产品来说,AMD会怎样应对RTX 4070 SUPER的攻势呢?
总的来看,RTX 4070 SUPER在RTX 4070的基础上仅增加了100元的首发指导价格,但性能上却提升了15%~20%之多,可以说是比较良心的了。这种加量几乎不加价的产品首发,无疑是玩家最喜欢的。当然,AIC的非公版产品上市相比公版的指导价格肯定会有一定的上扬,但估计不会太多,主流线应该还会保持在5000元左右。
另外还需要强调的是,在目前基于生成式AI应用的所有场合之下,NVIDIA的RTX GPU尤其是RTX 40系GPU从各种测试结果来看,不说它是最好,但我们可以非常肯定地说相比任何其他同类产品,RTX GPU仍然是能带给用户更好AI应用体验的那个独一无二的GPU选择。尤其是在NVIDIA持续不断地对RTX GPU的AI性能进行优化扩展的重拳出击下,围绕RTX GPU建立的生成式AI应用的生态圈已经初见雏形,对用户来说,从软件SDK到硬件架构,都能带给用户更好、更快响应的生成式AI体验。
从整体测试结果来看,RTX 4070 SUPER在性能、功耗和散热方面表现非常均衡且优秀,同时也有较为不错的性价比优势,而且在AI性能上也基本算是一枝独秀,是绝对有潜力成为5000元左右这个价位段上的游戏显卡最佳选择的,甚至是没有之一。
英伟达GeForce RTX 40 Super系列现已上市,玩家请到京东DIY Super超能年货节上选购GeForce RTX 4070 Super/80 Super公版和合作伙伴显卡。
微软资讯推荐
win10系统推荐
系统教程推荐