1引言规格比较外观观赏
引言
RTX4090发布后,给很多玩家带来了巨大的惊喜。 新架构、新技术和性能的提升并不大,但高昂的售价让很多玩家望而却步。 RTX408016GB显卡的出现给许多中高端玩家带来了新的选择。 在同一个体系结构中,对更多的人来说,低级别的性能是优先的。
影驰作为NVIDIA的核心AIC合作伙伴之一,也发布了旗下的RTX4080显卡。 这次收到的是影驰GeForceRTX408016GB星期天OC显卡。 这一代的星设计全新升级,更强大的散热系统强势释放显卡,更明亮的ARGB带来卓越的视觉体验,让我们来看看这一代的星星到底有什么魔力
*以下“影驰GeForceRTX408016GB星OC”简称“影驰RTX4080星OC”
规格比较
在此之前,此次的主角RTX4080采用了AD103-300内核,采用TSMC4N工艺制造,芯片面积达到379平方毫米,晶体管密度达到459亿,晶体管数量比前代产品明显提高了近两倍
关于其他参数,因为RTX4080RTX4080标准配置了9728个CUDA、128个第三代RTCores和512个第四代TensorCores,并且使用了16GB的GDDR6X显存
目前,RTX4080显卡上的AD103-300核心不是完整的AD103核心。 完整的AD103核心需要256位内存带宽,配备7个GPC、40个TPC、80个SM和8个32位内存控制器。 因此,推测RTX4080可能不是AD103核心下的最终产物,之后,AD103核心的RTX4080Ti也应该会完全上市。
观察下面的RTX4080核心结构图,与完整版的AD103核心相比,更容易看出区别。 RTX4080的核心号码是AD103-300,它有4个完全规范的GPC (图形处理群集,每一个都内置6个TPC )和3个不完全的GPC ( 2个内置5个TPC,1个内置4个TPC )
但是,RTX4080上的AD103-300内核为编解码器增添了刀刃。 不得不说,破旧的黄色刀刃是正确的,编解码器的数量直接减半。 由于采用与RTX4090相同的标准,只剩下2个NVENC编码器和1个NVDEC解码器,所以完整版的AD103核心的视频编解码速度应该很快,但是以前测试过RTX4090,比编解码速度快
外观:影驰GeForce RTX 4080 16GB周日OC
影驰的星期天系列一直以年轻时尚的气息为主,这一代人也不例外,光是外包装就让人眼前一亮,包装盒外部采用了彩色镀膜技术,不同的角度会出现不同的颜色变化。
外包装也与其他品牌一贯的产品渲染图不同,机甲形状的星曜娘站在中间,相当二次元,给人一种脱胎换骨的视觉效果。
正面包装还显示了该显卡的型号和售后服务,支持3年质保和个人保修。
后置的是全新升级的星卓散热系统、ARGB灯光效果展示、黑科技DLSS3、8K多屏输出支持等,影驰RTX4080星OC的产品特点。
除显卡主机外,机箱内还附带了一个星级定制显卡底座、一根12VHPWR转3*8Pin电源中继电缆、一根5VARGB同步电缆、一根显卡同步电缆,还有手册
接下来,我们来看看这个显卡的真容。 在大箱子里,影驰RTX4080星曜OC的体积也不容小觑。 与RTX3090Ti星期天相比,该显卡的大小达到了352*153*69mm毫米。
正面依旧是熟悉的设计,继承了前代纯白的美学设计。 上盖采用经典的钻石切割技术制作,全透明的设计为ARGB灯的效果提供了出色的展示舞台。
放大来看,显卡周围和风扇边缘也采用了钻石切割设计,视觉效果尤为明显。 另外,这个透明的上盖可以取下,玩家可以在白色面板上制作自己的外观。
正面除了透明的上盖外,另一个引人注目的是3个102mm的散热风扇。 三个风扇被水晶盒包围着,像棱镜一样的钻切花边可以折射出五颜六色的ARGB效果。
玩家还可以使用影驰官方的魔盘XtremeTuner工具定制照明效果。 当然,不仅可以调节RGB,还可以显示图形卡的信息,并调节风扇曲线和超频等。 稍后使用此工具测试影驰RTX4080星OC的超频。
另外,回散热风扇,每个风扇都有11片磨砂材质的静霜扇叶,不仅风力风量更大,磨砂材质对ARGB的折射有特殊的效果,具有科技感。
和其他高端显卡一样,影驰RTX4080周日OC的背板是一体压铸金属背板,设计几乎雪白,与正面协调。 要知道,上一代的RTX3080还是黑色背板,雪白的设计质感很快就会显现出来。
金属背的尾部是大面积的镂空设计,配合新的散热系统,有助于热量的导出。
图形板的顶部非常平坦,首先看到的是中间的信仰标志“Boomstar”。 多层折射镜面设计因ARGB灯而闪耀,与定制图形支架一起使用时具有不同的视觉效果
此外,上方的logo指示灯具有检测功能,黄色指示灯表示显卡外部供电异常,红色指示灯表示主板异常。
logo灯旁边有GEFORCERTX的文字,扁平的设计排列着散热片的吹出口,因此气流的阻断减少,散热效果值得期待。
您也可以看到显卡底部也有一个大散热片出风口,PCB上有铝合金保护中框。 您也知道RTX4080的重量,金属中框为了防止显卡折断具有很好的保护能力。
显卡电源采用全新的12VHPWR电源接口,一口即可提供600W供电能力,支持RTX4080。 1根12VHPWR的电源线可以满足电源需求,用户使用ATX2.0标准电源时,也可以使用附带的电源线进行布线。
显卡的金手指是标准的PCIe4.0x16速率,在使用之前必须在主板上打开ResizableBAR功能,才能完全释放显卡的性能。
全新的星卓III散热系统相当厚实,整个显卡厚度达到3个插槽以上,接口还只有3个DP1.4a和1个HDMI2.1,完美支持8KUHD60Hz输出。
总的来说,影驰RTX4080星曜OC的外观设计是众多AIC非公显卡中个人绝对最好的一款,整体灯光效果恰到好处,与极具设计感的造型相得益彰。
2拆卸显卡
显卡分解:视频奇奇GeForce RTX 4080 16GB周日OC
打开显卡的包装后,进行简单的分解吧。 让我们一起看看这款RTX4080配备了哪些豪华硬件。 拧下金属背板螺钉,可以分离显卡PCB和较大的散热器。
首先,让我们来看看视频RTX4080星期天OC的PCB。 这显然是非官方版PCB,采用12层标准流程制作。 过肩设计比普通显卡多高一块,但PCB接口、电源、核心、内存和辅助电源的位置相当合理和准确。
PCB的核心是此次的核心——AD103-300-A1内核,采用全新的AdaLovelace架构和TSMC4N工艺,性能功耗比最高可达两倍。
周围有8个美国光的GDDR6X显存,型号为2PU47D8BZF,1个显存容量为2GB,8个显存容量为16GB,显存宽度为256Bit,速度为22.4Gbps。
RTX4080作为子旗舰,供电规模也相当豪华,旗下RTX4080星OC的供电模块配置在PCB两侧,采用18 3相数字供电。 其中18相是图形核心电源,3相是视频存储器电源。
各相供电使用安森美的独立DrMos芯片,型号为NCP302150,连续输出电流为50A。
核心供电DRM操作系统
带视频内存电源的DRM操作系统
PWM供电控制芯片位于PCB的背面,型号分别为uP9512R、uP9529Q和uS5650Q。 其中,uP9512R可以与uP9529Q共同管理核心供电,进行精细化供电管理,uS5650Q主要负责存储器供电部分。
uP9512R芯片
uP9529Q芯片
S5650Q芯片
video RTX 4080星OC采用全新的12VHPWR电源接口,1根12VHPWR电源线即可为显卡供电。
看完堆栈的配置后,让我们看看这个显卡的散热怎么样了。 此次的星卓III散热系统与RTX4090上搭载的相同规格,配置相当豪华。 散热器中间为大面积均热板,影石在均热板上显著、电感、MOS管接触的地方采用高系数导热垫辅助散热。
GPU核心也厚厚地涂了硅脂。 与前几代显卡不同,这一代显卡的显存与真空室的均热板紧密接触,GDDR6X显存的超高性能产生的发热量也非常巨大。
此外,显存位于PCB前端,而固定PCB的金属背板在显存和GPU核心的位置贴有导热垫,可以从背板散热,散热性能非常好。
较大的散热片分为左右2级结构,使用了散热性能更高的流动散热片。
散热器正面更是全面的纯散热片,确保风道,提高散热能力。 另外,散热片的外框增加了保护散热片不变形的加强材料。
隐藏在散热片列下的是8mm6mm4根镀镍复合热管,贯穿整个散热器,通过加强回流焊接工序保证了高效的热传导。
星卓III散热系统有三个102mm的大直径风扇作为主动散热,厚度达到20mm,与普通15mm风扇相比散热性能显著提升。
风扇也进行了新的升级,每个风扇都配备了11片静霜扇叶。 进气量比上一代更大,风流更强,支持智能启停,显卡空闲时也能“冷静”。
3测试平台理论/博弈性能
测试平台介绍
高端卡的自然配置不能低。 另外,为了测试,我们搬出了目前地表最强大的硬件。 CPU为Inteli9-13900K,主板为ROGMAXIMUSZ790HERO,内存已满,直接使用金斯敦64GBDDR5-6000,保证视频RTX4080星OC性能释放充分
以前,在测试RTX4090的时候,看到了能够跑到8K分辨率的实力,但是作为副旗舰的RTX4080星期天OC当然不容小觑。 因此,爱玩保时捷联名设计的AGONPD32M、miniLED背光、4K、144Hz一应俱全,是体验新一代显卡性能的最佳选择。
在测试之前,还是按照惯例,先看一下GPU-Z,从软件上看影驰RTX4080星OC的基准频率为2205MHz,Boost频率达到2580MHz,高于Fepublic的2505MHz,而此时
此外,GPU-Z最近也进行了更新,可监控16Pin的电源输入。 我也知道这个显卡的温度和功耗的限制。 视频RTX4080星OC的TGP设置为320W,与公开版一致,最多允许450W。 温度控制的上限为84,但可以向上调整为88。 我认为这是给极客玩家留出超频空间。
理论性能测试
按照国际惯例,首先测试了电影凯RTX4080星OC的理论性能,为了更直观地表达性能,加入了前代卡皇RTX3090Ti进行了比较。
在3DMark的FireStrike测试中,影驰RTX4080周日OC在4K分辨率上领先RTX3080Ti38%以上。 在以DX12为代表的TimeSpy测试中,在相同的4K分辨率下,新显卡的得分为13917,摆脱了前作的几个方面。 总的来说,影驰RTX
光追和DLSS作为NVIDIA的看家本领,影驰RTX4080周日OC的成绩依然很强。 RTX4080的追光性能在这一代产品中确实有了很大的提升,RTX3090Ti在PortRoyal上获得了1W4,而影驰RTX4080周日OC的得分为18043,性能领先30%以上
在AIDA64GPGPU的理论性能测试中,视频RTX4080星OC也展现了作为高端显卡的实力。 无论是前代的RTX3080Ti比还是RTX3090Ti比,其性能都被称为碾压水平,引线宽度达到40%以上。 视频RTX4080星期天OC的性能明显只是被复制了
游戏性能测试
虽然理论性能提高很大,但俗话说“不看广告看疗效”。 我们选择了多款游戏以不同分辨率实测了该显卡的性能表现。
上一代RTX3080Ti的性能让1080P分辨率的3A大作能够流畅地玩下去。 这一代人不用说,1080P分辨率下,《古墓丽影:暗影》突破了300FPS,达到了很多电竞游戏的水平。
2K分辨率相对于视频RTX4080周日OC也较轻,测试的游戏几乎都达到了144FPS,整体游戏性能也领先于前几代的近35%。
4K分辨率下,RTX4080星OC优势更加明显,架构创新和大缓存在游戏中大显身手。 在开启超光通道的条件下,如优化不太顺利的《赛博朋克2077》,影驰RTX4080星OC依然接近90FPS,优化不顺利的《地平线5》、影驰RTX4080星OC更是如此
虽然8K分辨率对RTX4080有些压力,但一些游戏仍然可以达到60FPS或更高。 像《荒野大镖客2》一样,视频RTX4080星期天OC取得了67FPS的成绩。 8K游戏是以前几乎想不到的存在,但至今仍指日可待。 这一代显卡的强大性能可以升级视频RTX4080星期天OC
总的来说,视频RTX4080星OC在2K、4K分辨率上与前代RTX3080Ti相比有着明显的优势,很多以前只能以60FPS速度运行的游戏在这一代显卡上运行的更加流畅,可以与DLSS配合使用
4DLSS 3性能测试
DLSS 3性能测试
使用20系以上显卡的玩家应该对DLSS不太了解。 玩家被称为“巨人水手”。 之所以这样称呼,是因为DLSS可以在不影响画质的情况下提高游戏的性能。 今年的RTX40系列的DLSS也更新到了3.0版,增加了帧生成和NVIDIAReflex技术,游戏性能提高了两倍。 我们也选择了多个软件和游戏实测了这个技术,看看是否有这么多神。
3DMarkDLSS3性能测试
首先是DLSS3的理论性能测试。 影驰RTX4080星期OC在3DMark的DLSS3Benchmark上具有惊人的性能,4K分辨率下交换机DLSS3的性能差可达到3倍以上。 害怕的不仅仅是4K。 在8K的分辨率下,如果关闭DLSS3,帧数仅为1.56FPS,将直接变为PPT,但如果打开DLSS3,帧数将接近70FPS,不得不说旧的黄色DLSS3中确实有某种东西。
《光明记忆:无限》游戏实测
我想很多玩家也很感兴趣DLSS3在实际游戏中是如何表现的,这里我们使用《光明记忆:无限》这个游戏进行比较实测。
在不打开DLSS的情况下,实际上视频RTX4080星OC可以在4K分辨率下顺利运行,打开DLSS2的话,性能会增加一倍,帧数会达到137FPS,而打开DLSS3的话,性能会进一步提高,170 结合上面提到的AGONPD32M,体验高端显卡带来的游戏全新体验。
2K分辨率和4K分辨率的DLSS性能测试
我们还实测了很多游戏,但因为篇幅的关系不能一个个展示。 这里总结成一个表作为参考。 但是,从实测中可以看出,框架的创新和流程的进步确实使影驰RTX4080星期天OC的游戏性能有了很大的进步。 在2K中,仅运行DLSS2就超过了RTX3080Ti。
在4K分辨率上更是出现了差距,加上DLSS3的支持,完全是电影院RTX4080星期天OC的主场,在部分测试软件上游戏性能约是RTX3080Ti的2倍。
8K分辨率DLSS3性能测试
在测量了2K和4K之后,相信很多人都会感兴趣,这款RTX4080能否顺利玩8K游戏。 经实测,不得不说黄先生的小刀使用方法还是正确的。 即使持有DLS S3,8k游戏的占有量也太大了,显卡存在爆炸性的内存问题,只需要很少的游戏和项目就可以跑到60FPS。 如果后续游戏厂商能够优化占有量,RTX4080就可以体验8K@60Hz
unreal engine 5元素守护进程
最后,我们还测试了由UnrealEngine5引擎制作的EnemiesDEMO。 UE5作为新的游戏开发引擎,对显卡的压力不小。 另一方面,影驰RTX4080周日OC在DLSS3的加持下显示出强大的实力,在4K分辨率下可达到77AVG/661%FPS/55ms的水平
另外,从视频中可以看出,即使打开DLSS3,画质也几乎没有区别,因为DLSS利用AI进行渲染,所以在部分细节上,DLSS模式下的画质比本地人的画质更清晰。
5创作者双编码器测试
创作者的性能测试
16GB的大内存和运算能力的升级不仅是为了游戏的性能,影视RTX4080星期天OC在一些生产力软件上也很出色。 在此选择PugetBench、PCMark10等常用测试软件,测试该显卡在日常工作、视频内容生产等方面的性能。
模拟日常工作的PCMark10测试表明,影驰RTX4080星OC在数字内容创作方面有明显提升; 虽然在Adobe软件上也有一定的提高,但Adobe软件并没有吃掉图形的性能。 视频RTX4080星OC的优势在于,像RTX3080Ti12GB这样的显存在处理复杂的特殊效果时容易崩溃,而新显卡则没有这种烦恼。
另外,由于达芬奇支持新的AV1码,电影凯RTX4080星OC在这方面也有不小的优势,与前代相比领先16%以上。 视频工作人员不要错过这个显卡。 那个能力比你想象的还要多。
测试视频生产力后,我们不知道影驰RTX4080星期天OC是建模、渲染、工业设计等软件。 令人惊讶的是,仅在Blender渲染软件中,影子RTX4080星OC就比上一代RTX3080Ti提升了50%以上,面对RTX3090Ti一点也不惊讶
在与SPECviewperf2023集成的8个工业软件测试中,得益于大内存和体系结构创新,英雌RTX4080星OC仍处于全方位领先地位,性能比RTX3080Ti高出34%以上
双NVENC编码器特殊试验
RTX40系列的第二个升级是双编码器NVENC。 虽然支持当前流行的AV1编码,但AV1作为下一代主流视频编码技术具有独特的优势,具有更快的编码速度和更高质量的流媒体性能。 达芬奇、万兴喵影、剪辑影像等常见剪辑软件已经支持AV1编码,B站等主要视频网站也参与了AV1解码,未来AV1将是AV1
于是我们还测试了影驰RTX4080星OC的AV1编码能力。 在NVIDIA提供的8K电影源代码和工程文件中,影驰RTX4080星期天OC的实力不亚于自己的老大哥RTX4090。 同一素材使用AV1编码时,比H.265编码所需的时间短,即使使用相同的H.265编码,视频RTX4080星OC的双编码器也比上一代快62%。
此外,用AV1编码的文件对文件的占有率也有很多好处。 从下图可以看出,无论是4K还是8K,使用AV1编码的视频文件都小于H.265格式,平均可降低25%的占有率。
AV1编码不仅大幅减少了文件大小,画质也与H.265相同。 截取几个画面进行比较,用肉眼看,其实画质几乎完全一样。 这意味着AV1能够以更小的占地面积实现与H.265同等的画质表现。 如果你是视频后期,请考虑升级这个视频RTX4080星期天OC。 强大的性能和独特的AV1编解码器将大大加强你的创作。
6超频功耗评测汇总
电力消耗和发热
以前测试RTX4090时,已经对其功耗和发热感到惊讶。 烤面包机虽然只有60多摄氏度,但是使用了4090种散热器的视频RTX4080星期天怎么样了,我们到底怎么样了,进行了探究。
使用Furmark单烤15分钟后,卡占比满时,影院RTX4080星OC的GPU频率稳定在2700MHz左右,核心温度只有62.8,显存结温也只有54。 如果是待机温度的话,这一代显卡的温度也相当惊人,GPU在待机时低于30,比CPU还凉快。
只有温度低是不够的。 该显卡的功耗和噪声控制良好,功耗最多只能达到330W左右。 但是,上一代卡皇RTX3090Ti的功耗变成了390W。 影驰RTX4080星期天OC以更低的功耗实现了更强的性能,风扇转速也还很满,噪音也几乎没有。
超频试验
上面提到的视频RTX4080星OC最多可支持420瓦的显卡。 表示确保了超频的空间。 因此,这款显卡的超频不容错过。 以下,让我们用显卡的XTREMETUNER魔力盘稍微超频一下这个显卡。
在将风扇转速提高到100%,同时解除了GPU核心的电压限制、功耗限制、温度限制后,我们成功将影驰RTX4080星OC的GPU频率提高到了3075MHz。 该频率已经接触到许多RTX4090的尾灯,GDDR6X显现的频率更高,即使直接超频1000MHz也完全没有问题。
默认状态TimeSpy测试
超频状态TimeSpy测试
超频后,我们在3DMark上进行了TimeSpy测试。 视频RTX4080星期天OC取得了30496分的成绩,比隐含频率状态的28488分上升了约7%。 另外,此时,由于GPU内核和显存在高频率状态下运行,可以看出这一代显卡的性能很出色,星卓III散热系统的效率高。
评测总结
经过实测,RTX40系显卡诚意满满,Ada架构与DLSS3双重,进一步提升了原本强悍的游戏性能,双NVIDIA编解码器的加入,专业性能也有了飞跃,这一代功耗比温度管理更“离谱”,全新的RTX40系列显卡无论从里到外都令人惊叹
回到此次测试的视频clue geforce RTX 408016 GB的星期天OC与上一代的RTX3080Ti相比,性能有所下降。 与之前的旗舰RTX3090Ti相比,游戏性能和创作能力一点也不逊色,虽然功耗较低,但带来了更强大的性能,保持了独特的黑科技。 也有DLSS3和双编码器等的加入
谈谈影驰RTX4080星期天OC的设计、白色透明设计、时尚前卫的外观,以及高度个性化的DIY空间。 这才是DIY应有的样子。 加上新版的ARGB灯的效果,RGB灯在水晶中被挖出,发出美丽的光,所以脸部的值很明显。
笔者认为,虽然电影凯RTX4080周日OC在性能上无可挑剔,但相比旗舰RTX4090,它更适合游戏爱好者的选择。 如果你打算升级性能强大的高端显卡,电影凯RTX4080星期天OC是你的不二选择。
7ADA体系结构说明
Ada Lovelace体系结构说明
Turing、Ampere两代架构的核心都是以人物命名的。 前者是计算机科学之父——艾伦马西森图灵; 后者是“电力中的牛顿”——安德烈玛丽安培,电流的国际单位安培因其姓而得名。 AdaLovelace决定了非凡的人。 度娘果然是有着“数字女王”之称的阿达罗芙丝,编写了历史上第一个计算机程序,也是世界公认的第一个计算机程序员,真是一代比一代牛。 PS :她的父亲是《唐璜》的作者,诗人拜伦吧。
从Turing架构开始,NVIDIA首次在图形卡上增加了加速光线跟踪的RTCore单元和用于AI推理的TensorCore单元。 这一革命性的创新使实时光线跟踪成为可能。 Ampere体系结构是一种全面的体系结构改进,除了新一代的第二代RTCore和第三代TensorCore之外,还有更先进的SM单元设计,使图形卡工作效率提高了一倍。 另外,来到AdaLovelace架构,是以效率化为大前提的,所以当然引入了最新的第三代RTCores和第四代TensorCores单元,同时也引入了很多新颖的黑科技。 从执行效率来说,AdaLovelace架构是前代Ampere架构的2倍以上,光线跟踪能力更是达到了4倍于恐惧的性能。
一种新的SM流媒体多处理器
AdaLovelace体系结构中最大的亮点之一是新的SM流多处理器,每个SM有128个CUDA内核、1个第三代RTCores、4个第四代TensorCores、4个texture UE
过去的Turing体系结构INT32计算单元与FP32的数量一致,但两者加起来构成了64个CUDA核。 但是,Ampere架构开始,左侧的计算单元实现了FP32 INT32的计算单元的同时运行。 也就是说,CUDA核心数量达到了128个。
让我们来看看AdaLovelace体系结构的SM。 FP32/INT32的计算单元组合同样实现了每个SM包含128个CUDA的设计,虽然看起来没有什么提高,但GeForceRTX4080有76个SM,9728个CUDA内核
缓存的AdaLovelace体系结构也得到了重大改进,首先每个SM单元都有128KB的单独缓存,RTX4080显卡提供了97MBL1/共享内存。 其次,核心二级高速缓存经过重新设计,完整的AD103核心和RTX4080都是64MB二级高速缓存,与RTX3080Ti相比,质量更上一层楼。
技术解说:第三代RT Cores和第四代Tensor Cores
我还以为刚才的CUDA数量和超大型L2缓存已经来势汹汹,实现AdaLovelace体系结构最大提升的是第三代RTCores和第四代TensorCores。
第三代RTCores
RTCores用于光线跟踪加速,第三代RTCores的有效光线跟踪计算能力达到191TFLOPS,是上一代产品的2.8倍。
在Ampere体系结构中,第二代RTCores支持边界相交测试( BoxIntersectiontesting )和三角形相交测试,以加快BVH遍历速度并执行射线三角相交测试的计算。 光线跟踪处理能力高于第一代Turing架构,但随着环境和物体几何复杂性的持续增加,传统处理方式难以提高更高效、准确反应的现实世界光线特别是光线运动的准确性。
因此,第三代RTCores增加了两个重要的硬件单元: OpacityMicromapEngine和DisplacedMicro-MeshesEngine引擎。 OpacityMicromapEngine主要用于加速alpha通道,可以使alpha测试几何体的光线跟踪速度达到提高2倍。
在传统的光栅渲染中,开发人员使用alpha通道材料来更高效地渲染形状复杂的物体,例如alpha通道的叶子和火焰。 但是在光线跟踪的时代,这种传统方法对于光线跟踪波段会有很多无效的计算。 例如,每当运动光线多次穿过叶子且光线到达叶子时,它都会调用着色器来确定如何处理交点。 在这种情况下,将产生严重的执行成本和时间等待成本。
OpacityMicromapEngine用于直接分析具有不透明度光线交点的不透明度状态
三角形。 根据alpha通道的不透明度,它处理三种不同的块状态:透明度和未知度。 通过忽略透明度并继续查找下一个块,记录并命中不透明度块,然后将未知块交给着色器来确定处理方法,大部分GPU无需进行着色器调试过程,即可获得更高效的性能。
DisplacedMicro-MeshesEngine
如果说OpacityMicromapEngine正在加速表面处理,那么DisplacedMicro-MeshesEngine就是几何曲面细节的加速器。 如上图所示,AdaLovelace体系结构可以通过使用一个基础三角形移位贴图来创建高度详细的几何网格。 所需资源比第二代RTCores更低、更高效。
以NVIDIA展示的14:1珊瑚蟹的制作例来说,这里需要1.7万个微网格、160万个微三角形,在AdaLovelace体系结构中,BVH的制作速度变为7.6倍,存储空间缩小为8.1倍DisplacedMicro-MeshesEngine起着重要的作用,它将一个几何物体按细节划分为密度不同的微网络处理,红色密度超高,细节处理复杂。 合适的低密度微网络区域可以释放更多的资源和存储空间,从而“分布式微消息引擎”可以帮助BVH加速过程,降低内部版本时间和存储成本
此外,AdaLovelace体系结构SM中添加了着色器执行重新排序( ShaderExecutionReordering,SER )。 这不仅是因为光线跟踪强烈的灯光和阴影渲染处理,而且因为将来光线的移动会变得越来越多,光线变得越来越复杂,需要第三代RTCores和第四代TensorCores。着色器的执行“重新排序”( SER )提高的执行效率将光线跟踪速度提高两倍,更好地利用GPU资源。 但是还没有实例,要实现这个功能,需要游戏和开发工具的支持。
第四代TensorCores
TensorCores是为了执行张量/矩阵运算而特别设计的专用执行单元,这些运算是深度学习中使用的核心计算功能。 第四代TensorCores增加了FP8引擎,具有1.32petaflops的张量处理性能,超过了前几代的5倍。
8技术解说: DLSS 3
技术解说: DLSS 3
还是第四代TensorCores太硬了,不知道是什么? 提高的意义在哪里? 但是,作为TensorCores最经典的APP案例,DLSS应该知道AdaLovelace体系结构支持NVIDIA的最新DLSS3技术。
3359 images.NVIDIA.cn/cn/YouTube-replicates/r-Hu 006 p23i.MP4
之前也提到过DLSS技术,其设计之初是为了弥补开启光线跟踪技术后的性能损失,具体来说开启光线跟踪技术后的游戏帧数大幅减少,甚至难以保证游戏的顺利运行。 因此,DLSS使用低分辨率内容作为输入,使用AI技术输出高分辨率帧,从而提高光线跟踪的性能。
DLSS3包括三种技术: DLSS帧生成、DLSS超分辨率(也称为DLSS2 )和NVIDIAReflex。 DLSS3可以理解为向DLSS2添加了DLSS帧生成技术; 而且,在这两种技术中,DLSS的超分辨率只能在GeForceRTX显卡上使用,NVIDIAReflex可以在GeForce900系列以后的显卡上使用。
实现DLSS帧生成并不简单。 必须与AdaLovelace体系结构的GeForceRTX40系列显卡配合使用。 DSS帧生成技术的原理是通过利用AI技术生成更多的帧来提高性能。 DSS使用GeForceRTX40系列GPU中的新光流加速器分析连续帧和运动数据,以创建其他高质量帧,而不影响图像质量和响应速度。
从Ampere体系结构开始,NVIDIA显卡已经支持光流加速器。 此外,AdaLovelace架构的光流加速器升级至第二代,提供高达300teraops(tops ),以及安培架构的第一代光流加速器( opticalation ) OFA )更快。为了实现DLSS帧生成,OFA将发挥重要作用,并结合新的运行向量分析算法在DLSS3技术框架内实现精确高性能的帧生成能力。
另外,因为DLSS帧的生成是在GPU上作为后处理执行的,所以即使游戏受到CPU性能的限制,我们也可以从中获得更好的游戏性能的提高。 特别是在物理计算密集型游戏和大型场景游戏中,DLSS2使GeForceRTX40系列显卡能够以高达CPU计算的两倍的性能渲染游戏。
最后,DLSS3在游戏生态中被广泛应用,因为DLSS3是基于DLSS2的,并且游戏开发者可以将它快速集成到现有的支持DLSS2或NVIDIAStreamline的游戏中
阅读亮点: NVIDIAReflex
NVIDIAReflex也是DLSS3的一部分,可使GPU和CPU同步,确保最佳响应速度和低系统延迟。
要实现端到端的最小延迟,必须确保游戏、显示器和鼠标三者同时支持并打开Reflex技术。
GeForceRTX40系列显卡与NVIDIAReflex配合使用后,直接实现了1440p分辨率360FPS的体验。 这个确实性能有点强。
GTC2023大会采用1440p分辨率的新型g-syniled,包括采用迷你led技术的AOCAG274QGM-AGONPROMiniLED、MSIMEG271QMiniLED、ViewSonicXG272G-2KMiniLED等
但唯一的问题是,一些显示器制造商认为,如果这类产品的参与者很少,这类显示器的工作效率就会下降,或者产品会跌落到内部PASS。 1440p360Hz很棒,但现实是相当辛苦的感觉。
9技术解说:双NVIDIA编码器
技术解说:双NVIDIA编码器( MVENC ) )。
GeForceRTX40系列显卡还有一个新的升级:双编码器NVENC。 第八代NVENC双编码器不仅支持H.264和H.265,还支持开放视频编码格式AV1。
由于AV1是免版税的视频编码格式,上游软件制造商和下游游戏合作伙伴大力推广这种编码格式。 此外,许多硬件和软件都支持AV1格式,包括剪辑专业版、DaVinciResolve和AdobePremierePro的流行Voukoder插件,并通过编码预设提供了双核功能
不仅是视频制作软件,AV1格式也将成为播音员、游戏转播的p主们的新宠儿。 在保证屏幕最高质量的情况下,AV1编码器效率为提高40%,显卡占有率也较低。 包括OBSStudio在内的代软件也将添加对AV1格式的支持。 此外,GeForceExperience和OBSStudio最多可录制8K60内容,从而简化游戏录制。
包括我们后来用于测试的游戏录制视频在内,都支持AV1格式,但是双编码器NVENC的资源消耗和配置越来越好。