1月的最后一天,也是NVIDIA RTX 40 SUPER系列最后一张显卡:RTX 4080 SUPER解禁上市的日子。这张显卡的AI Tensor Core数量也是三张SUPER系列中最高的,836 AI TOPS、52 SHADER TFLOPS、121 RT TFLOP。
这次的主角是ROG STRIX RTX 4080 SUPER,让我们一起来看一下这块号称拥有着超快的生成式AI,分辨率、画质都可拉满的显卡究竟表现如何。
外观:
ROG STRIX猛禽相信大家都不陌生,全身覆盖金属装甲,正面能隐隐约约看见藏在风扇后面的败家之眼。蓝色与红色的色彩碰撞,让这张显卡更抓眼球。整体重量偏重,厚度偏厚,拿在手上也是需要格外小心。
背面整块金属背板能给很好的支撑起GPU,右侧镂空通风背板加速热量的排除,上面浮雕了“败家之眼”的LOGO,一条一条的手感摸上去非常奇特。设有双BIOS开关可以在性能和安静模式间切换。
左侧不锈钢I/O面板区域,三个DP 1.4a和两个HDMI 2.1接口,相比传统接口设计多出了一个HDMI。
右侧设计了两个PWM风扇连接口,将风扇连接到显卡上,会根据CPU和GPU温度进行调整。
电源供电采用了12VHPWR,包装盒内能找到一根双8pin转接线。在通电后,右侧一圈附有ARGB灯效,底下的“REPUBLIC OF GAMERS”也会亮起。
散热上,轴流风扇在双滚珠轴承上,转速和尺寸进一步增强,可多出23.8%的风量。两侧风扇和中央风扇旋转方向相反,可以减少散热模组内部的空气乱流。散热鳍片也有着更大高度,3.15插槽设计,配合风扇能更高效的散热。
测试环境:
性能:
在参数性能上,ROG STRIX GeForce RTX 4080 SUPER,使用Ada Lovelace架构,核心代号AD103-400,核心工艺TSMC 4N,10240个流处理器,光栅单元112颗,纹理单元320颗,位宽256bit、带宽736GB/s,基础频率2295MHz,加速频率2640MHz,TGP功耗320W。相比RTX 4080,增加了512个CUDA核心,整体规格涨幅5.2%。
ROG STRIX GeForce RTX 4080 SUPER使用的NVIDIA Ada Lovelace 架构,它涵盖了如下创新技术:
(1)全新SM多单元流处理器可以提供高达 2 倍的性能和功耗效率。
(2)第四代张量核心(Tensor Core)能实现和加速变革性 AI技术,我们熟知的 DLSS 技术就得益于它。
(3)第三代光线追踪核心(RT Core),有着高达 2 倍的光线追踪性能,提供令人难以置信的细节,带玩家前往前所未有的虚拟世界。
(4)着色器执行重新排序(SER)将光线追踪操作提高了2倍。
(5)拥有64MB的 L2 缓存,提供更好的性能、减少内存总线流量和更高的能效。
(6)DLSS 3.5,AI 驱动图形的革命性突破,可大幅提升性能,并通过神经渲染提升光线追踪质量,带来极为逼真的画面。
(7)全新的第八代NVENC双硬件编码器,支持AV1,有效提升了生产力方面的表现,对于创作型用户、游戏主播等群体来说更是如虎添翼。
我们使用3DMark进行了几项常规测试,并与RTX 3080 Ti来进行对比。毫无疑问,4080 SUPER都是碾压的,平均涨幅超过了50%,达到了51%。仅仅是数据上就有如此大的差距,如果在游戏中进行实测,开启DLSS 3、Reflex等黑科技后,恐怕还会更加夸张。
我们使用Furmark进行十分钟左右的烤机,显卡平均温度在59.6度,功率约320W,显存频率2875Mhz。
待机时,显卡温度37.7度,功耗12W,非常节能。
NVIDIA的DLSS技术本质是通过深度学习算法将单帧的低分辨率提升成高分辨率,让游戏帧率获得大幅度提升。DLSS 3在超分辨率、DLAA的基础上增加了帧生成技术:利用AI技术生成更多的帧,以进一步提高性能。当我们在游戏中开启DLSS 3后,游戏渲染分辨率降低,运算压力也就变小了,AI就会智能的根据当前的图像以及之前渲染好的图像,自动运算构建出在高分辨率下的画面。
目前已经有超过500款游戏和应用支持NVIDIA RTX技术,RTX游戏玩家每周花费8700万小时玩光追游戏,其中97%的时间都是在玩《赛博朋克2077》.我们也期待未来有越来越多的游戏支持这项技术。
我们在4k分辨率下,在最高画质下开启DLSS,平均帧数都在120朝上,相比3080 Ti,涨幅高达66%。
接下来是4k分辨率下,赛博朋克2077接近100帧,反观3080Ti则是电影画质。平均差距超过110%。
目前DLSS已经升级到了3.5,主要是针对光追游戏,增加了光线重建技术,这个AI模型可以进一步提升密集型光追游戏和应用的光线追踪图像。光线重建将此前人工设计的图形降噪器替换成了经过NVIDIA 超级计算器训练的AI网络。光线重建可以从训练数据中识别光照模式,例如全局光照或环境光遮蔽的光照模式,其最终效果比需要人工设计的降噪器更出色。
《赛博朋克2077》就是一款支持DLSS 3.5的游戏,我们开启和关闭光线重建来进行对比。这是一处水塘,正好反射出了一块霓虹广告牌,在没有开启DLSS3.5时,水面上非常模糊,几乎看不清楚广告上面的字。而开启后,则是非常清晰,游戏体验拉满。
《心灵杀手2》也支持DLSS3.5,地面上阳光照射在建筑物上的倒影,通过肉眼我们能明显的看出光线重建开关的区别。没开时,地上的阴影就是一团黑,而开启后建筑的轮廓和边缘能清晰的分辨。
NVIDIA Reflex技术普遍运用在FPS游戏上,这一技术主要是同步GPU和CPU,通过删除CPU到GPU之间的渲染队列,优化响应速度并降低系统延迟。它包含两项技术:一项是 Reflex 低延迟模式,用于缩短游戏中的系统延迟,以帮助玩家提升竞技表现;另一项是 Reflex 分析器,用于轻松快速地测量系统延迟。
我们可以在FPS游戏内将NVIDIA Reflex设置为开启+增强,我们也是选择了几款热门FPS游戏如《Apex英雄》,《无畏契约》在2k和4k下都进行了测试。
1%low帧是将帧数进行从大到小排序,取最后1%范围内的平均。可以发现它还是比较接近平均帧的,说明跳帧幅度很小。PC性能延迟也都小于10ms,在竞技游戏中能更好的展现水准。
ROG STRIX GeForce RTX 4080 SUPER的功耗在320W左右。但是不同游戏的温度和功耗也会不同,就像帧率一样。我们在2k和4k分辨率下都进行了测试。2k到4k功率大约提升了30W,但是温度大约提升了1度。
除了游戏方面,在STUDIO创作,SUPER系列也迎来了重大提升。NVIDIA STUDIO可为有110多款应用加速,影驰GeForce RTX 4070 Ti SUPER大将在3D渲染方面可以缩短渲染时间,DLSS功能的加入也能提升画面帧数;支持AV1解码器可以增加视频清晰度;还有比如超分图片的全新生成式AI软件的加入。
使用Blender Open Data benchmark进行测试,它会自动渲染官方支持的Blender基准测试场景,并显示其渲染时间。他有三项测试,monster,junkshop和classroom,成绩分别为4509,2108,2189个样本每分钟。
OctaneRender是一个公正且准确的 GPU 渲染引擎,能够利用NVIDIA的CUDA和RTX系列GPU为创作者提供快速、高质量的渲染输出。OctaneRender可用于所有创作3D软件。该基准测试将测量 4 个单独场景的渲染性能,每个场景使用 3 个不同的OctaneRender、Info Channels、Direct Lighting和Path Tracing 中的渲染选项,默认状态下为开启光追得分975.83,关闭光追后,得分732.80。
GeForce RTX 40系列GPU使用第八代NVENC为AV1视频编码器提供硬件加速编码功能。AV1与H.265/H.264在相同的比特率下可以提供更好的视觉质量,在画面质量相同的情况下使用AV1,比特率会更低,文件大小更小,视频上传更快。除了添加AV1编码支持外,40系列GPU还具有生成改进功能用于H.265(HEVC)编码的NVENC。
在剪映专业版上已经支持AV1编解码器加速。我们尝试渲染导出了4k30帧,时长为10分钟的视频,来对比AV1和H.264。AV1编码导出视频的大小在1.52GB,而H.264编码导出视频的大小则是1.98GB。
在观看直播时也有AV1和H.264两种编解码器,在4k 60fps、10 Mbps体验一下两者的视觉质量。不难看出AV1下观看直播,视频会高清非常多,H.264则模糊不清。
ON1 Resize A是图片无损放大软件软件,搭载最先进的神经网络和领先的AI人工智能技术以及全新的超分辨率技术。原本一张6M的照片在放大后变成了30M,下图是我们将两张图片放大3倍,可以直观的图像并没有任何失真,色彩过渡自然,根本看不出这是经过放大过后的图片。
D5渲染器是一款基于实时光线追踪技术的3D渲染软件,支持多种模型、材质和光源。它也融合了最新的 NVIDIA DLSS 3.5技术,例如DLSS光线重建以及现有的DLSS技术,例如DLSS超分辨率,以及DLSS帧生成。
我们渲染了一段视频并通过开启或关闭DLSS来观察帧率的变化。在开启DLSS后平均帧率翻了将近2.5倍,1%low帧与平均帧的差值也减少了。
接下来我们再来看一下开启或者关闭光线重建画面会有什么样的变化。第一张椅子脚的照片,可以看到关闭光线重建,噪点肉眼可见。第二张是桌子对窗外景色的反射,光线重建未开启时噪点依旧非常明显,而且画面比较模糊。反观两幅图在开启光线重建后噪点大幅度减少了画面也清晰了。
RTX VSR是一种AI技术用于提升视频播放质量上,在NVIDIA控制面板中,我们可以打开RTX视频增强,同时也有自动、1、2、3、4五个挡位可以调节。1是最低,4是最高。
我们观看了一段视频从关闭,质量1,质量3,三个挡位来对比画面质量,肉眼就能非常直观的发现,从充满像素颗粒到清晰。
Stable Diffusion是一个基于图像的AI模型,使用户能轻松地将文本描述转换为复杂的视觉表现。Stable Diffusion AI模型利用GPU加速优势,使创作者能进行快速创建和完善,以获得理想输出,其速度比在CPU上处理AI模型快数百倍。
在1024×1024图像数据上运行SDXL模型并开启TRT加速,耗时82秒,经计算得出每分钟7.6张图片。关闭TRT加速,耗时150秒,每分钟4张图片。
在512×512图像数据上运行SD1.5模型并开启TRT加速,耗时约17秒,经计算得出每分钟33张图片。关闭TRT加速后,耗时37秒,每分钟16张图片。慢了将近一倍的时间。
仅在SD1.5模型下使用更高批量大小来测试TRT性能,在512×512图像下,耗时60秒,每分钟可生成20张图片。在768×768图像下,耗时177秒,每分钟可生成7张图片。
在SD测试上,两种模型在开启TRT加速后,每分钟生成的图片都翻了一倍。RTX 4080 SUPER上拥有着SUPER GPU中最多的AI Tensor Core,全新的生成式AI,将AI应用的浪潮推向了PC,也将这张显卡的受众拓展到了更加广泛的领域,建模师,剪辑等职业都非常适合。
总结:
从上述众多测试中不难看出ROG STRIX 4080 SUPER在生成式AI的帮助下,提升还是很明显的。美中不足的是显存没有上到24GB还是16GB以及736GB/s的带宽。但是在画质拉满的4k分辨率下,游戏帧数有着100+的优秀表现。不光适合游戏发烧友,就连艺术工作者、视频剪辑也能购买一块4080S。