nvidia架构发展(NVIDIA亮点)

作者:陈寅初。
据NVIDIA的老板说,在公司名称存在之前,所有文件前面都有NV这个词,意思是下一个版本。直到有一天,由于公司的合并,公司的创始合伙人之一查阅了所有与这个词相关的词汇,最终选择了拉丁文invidia,与Envy(意为憧憬和羡慕)谐音,于是nvidia这个名字被大家所采用。经过20多年的发展,NVIDIA已经成为全球最受欢迎的芯片公司,拥有GeForce、Quadro、Tesla、Tegra等产品线。
四条产品线分工比较明确。GeForce主要面向游戏消费市场,Quadro面向专业图形和入门级科学计算,特斯拉面向超级计算机市场,Tegra面向物联网。与GeForce和特斯拉相比,Quadro在普通人看来有点孤独,但它在英伟达的营收中扮演着极其重要的角色,其专业可视化业务已经实现了连续16个季度的增长。
如前所述,Quadro是NVIDIA的专业显卡产品品牌,在其诞生的一年内(1999年)就接连取得了多项第一:全球首款集成硬件TL专业卡、首款移动工作站、首款Linux专业工作站驱动。作为后来者,Quadro凭借强大的产品实力,迅速扫平了当时主导工作站市场的3DLabs、FireGL等品牌。
自上市以来,Quadro在专业应用市场一直保持领先的市场份额。随着功能和性能的日益强大,基于GPU的专业应用越来越受到重视,Quadro可以扮演的角色也越来越多。
尤其是NVIDIA图灵架构发布后,不仅传统的工作站应用因为RT Core的加持而受益显著,人工智能和大数据也因为Tensor Core得到了进一步的拓展。此外,图灵还在多卡通信(NVLink)和视频加速方面做出了重大改进,为专业应用提供了面向未来的支持。
值得关注的是,NVIDIA这次打破常规,让Quadro RTX图灵架构产品线发布首款产品,可见NVIDIA对图灵架构专业产品的重视程度前所未有。
硬件追踪加速内核图灵架构最重要的创新是首次集成了名为RT Core的光线追踪内核。光线追踪被业界认为是目前实现真实渲染最强的技术。它从观察者发出光线,穿过屏幕像素到达渲染对象,产生反射、折射、阴影等衍生光线,结合对象材质和大气的特性决定像素的最终颜色。
理论上,光线追踪完全可以模拟真实世界中光线(和声音)的效果,但是真实世界中物体之间几乎有无数的光子在碰撞。因此,在真实光线追踪应用中,一般使用有限的主光线(穿过像素的光线)和导数光线,并结合一些随机算法,在有限的计算资源下实现可接受的真实效果渲染。
以前光线追踪是通过软件来完成的,也就是由CPU和GPU的通用计算单元来运行。由于光线跟踪是一个复杂的计算密集型应用,很难用软件实时呈现,所以光线跟踪一直基本局限于交互操作敏感度低的输出渲染。
当然这个时期也有实时光线追踪,但是速度快得让人抓狂,画面效果也不得不打折扣。毕竟要实现实时,允许的计算时间是有限的。在这种生态环境下,人们愿意投入的开发资源很少,像Keyshot这样的工业设计渲染器总是只用CPU。
Quadro RTX采用的图灵架构改变了这种情况。QuadroRTX推出的RT Core是将光线追踪中最耗时的光线求交计算和三角形筛选处理以硬件电路的方式集成到GPU中,大大提高了光线追踪计算的能耗比。结合混合渲染算法,最终实现了比以前效率更高的实时光线跟踪性能。
Tensor Core,增强张量核,是NVIDIA专门为Volta架构中的人工智能推出的混合精密计算加速单元。通过英伟达的自动混合计算精度(AMP),可以在各种深度学习框架中提供自动混合加速。Quadrotox的图灵架构还集成了张量核,并通过增加4位整数精度支持得到了进一步扩展,可以为精度要求不高的场合提供更高的吞吐量。
以基于TU102 GPU的Quadro RTX 8000为例。其单精度(32位浮点)性能为16.3 TFLOPS,但INT4(4位整数)的性能高达522 TOPS,INT8(8位整数)的性能为261 TOPS。
使用Quadro RTX作为深度学习或计算密集型计算方案,不仅可以保证灵活和强大的性能,而且在成本上比其他方案更具优势。NVIDIA的NGC容器镜像方案可以让用户几乎不需要考虑平台部署的复杂性。只要在平台上安装CUDA和Docker,然后复制粘贴几条指令,就可以快速部署各种主流深度学习框架容器镜像,快速编写和运行深度学习代码。
8K视频编解码图灵架构集成了升级后的NVDEC和NVENC,支持HEVC 4:4:4格式视频的解码和8K 30fps格式视频的HEVC编码。对于视频会议、在线直播、视频编辑和工作站流,HEVC编码的图像质量压缩率比H.264高30%以上,新的编解码器引擎意味着Quadro RTX用户的效率和图像质量更高。
特别是,图灵的HEVC编码器支持B帧压缩。b帧是指前一帧和当前帧的差值,比P帧有更高的压缩率(I帧效率最低)。因此,夸德罗RTX的HEVC编码器可以在相同的比特率下实现更高的图像质量。
高达48 GB板载内存Quadro RTX全线采用GDDR6内存,其中Quadro RTX 8000内存带宽高达672 GiB/s,内存容量高达48 GiB,远超游戏卡版本RTX 2080 Ti的11GiB,对于游戏发烧友来说也是泰坦RTX的两倍。即使与英伟达的顶级服务器加速器Telsa V100S PCIe相比,它的容量也高出50%。
此外,图灵架构还有一个名为NVLINK的通用输入输出接口,带宽高达100 GIB/s,在PC上可以作为多卡并行总线使用。此时,NVLINK相当于一条扩展内存总线。两个Quadro RTX 8000可以快速共享彼此的内存,这显著提高了多卡性能。
多屏能力Quadro RTX的另一个硬核专业应用领域是多屏应用。比如现在的舞台背景墙,往往采用复杂的三维和视频处理相结合的应用。不仅要实现多屏同步,还要有很强的实时处理能力和良好的第三方软件兼容性。
作为拥有多年经验的多屏显卡供应商,Quadro RTX在多屏处理方面也是相当强大的。它支持NVIDIA Quadro Sync II同步卡,可以以4个Quadro RTX 6000组合的形式提供16个屏幕的强大同步输出能力。如果对性能有更高的需求,还可以使用4台Quadro RTX 800组成32屏输出。这么强大的多屏解决方案,真的很难找到对手。
上一个CPU渲染死忠拥抱了Quadro RTX图灵架构,该架构于2018年在Siggraph上发布。作为一个革命性的架构,尤其是集成的硬件光线追踪加速能力,当时支持的应用并不多。随着Quadro RTX等图灵架构产品的上市,这些问题已经一扫而空。例如,在专业可视化应用领域,之前顽固的基于CPU的渲染器如Keyshot也加入了全面支持图灵架构的行列。
Luxion的Keyshot是一款独立的专业级实时光线追踪和全局光照渲染器,以其简单的使用方式和逼真的效果受到众多工业设计师的青睐。很长一段时间,Keyshot只支持CPU渲染模式。不过从9.0版本开始,Keyshot推出了基于NVIDIA OptiX的光线追踪渲染框架,支持GPU加速。
在Keyshot的实际使用中,在1920×1080的视图模式下,使用纯CPU (AMD锐龙3900X 3.8GHz 12核,64GB DDR4-3600内存)渲染一个场景(从视图更新开始到完成清晰流畅的画面)。在过去,CPU模式大约需要90秒。在启用GPU渲染的情况下,使用Quadro RTX 40000渲染仅需3秒左右,性能提升近30倍。
渲染模式下,3840×2160的分辨率是128个样本,从头到尾,同样的配置,CPU需要388秒,而GPU渲染只需要35秒,性能提升了10倍。
不妥协的Arnold渲染器相比Keyshot更偏向于视觉产品制造设计。不同的是,欧特克公司的阿诺德(Arnold)。没错,正式名称来源于手臂比你大腿还粗的总督,以示其为蛮力计谋。这里的蛮力指的是导数光线完全随机的路径追踪方法)是一个用于视觉艺术创作的三维渲染器。
Arnold最初是由Solid Angle公司的创始人Marcos Fajardo开发的。当时他为多伦多CAST软件公司的灯光设计软件WYSIWYG写了一个光线跟踪代码。所见即所得后来获得了工程艾美奖。
2004年,索尼影业和阿诺德合作开发代码,使用阿诺德作为主要渲染器。合作的结果是2006年获得奥斯卡提名的动画电影《怪兽屋》(怪物屋)。本片是暴力路径追踪渲染的动画长片,后面是《天降美食》和3360010。
Autodesk在2016年收购了Solid Angle Company,然后在其Maya和3ds Max 3D设计软件中加入了Arnold。在最新的Arnold 6中,集成了来自NVIDIA的OptiX光线追踪渲染框架,支持具有图灵架构的RT核心硬件光线追踪加速,使得马科斯所追求的蛮力光线追踪美学得到了强有力的推动。
上图是在Autodesk Maya中使用Arnold渲染器对Quadro RTX和CPU (2.4 GHz双核Xeon Gold 6126)进行性能对比。可以看出,使用Quadro RTX 6000后,Arnold的速度提高了近1.4倍。如果使用多卡渲染,性能还是可以达到不错的扩展比。如果使用8台Quadro RTX 8000或RTX服务器,性能甚至可以达到近17倍。
这是什么意思?这意味着如果你想用CPU运行这个渲染,你可能需要18台服务器。相比之下,如果你使用基于NVIDIA Quadro RTX的RTX服务器,一台服务器就可以做到。
上图中英伟达官网提供的RTX服务器供应商列表显示,可供客户选择的有很多。
使用RTX服务器进行渲染有很大的好处。在单机操作的情况下,如果系统渲染成品,本地系统的所有资源都会调用并运行渲染进程,几乎不能进行其他交互操作。
但是,如果渲染操作以队列的形式扔给网络中的RTX服务器,那么只需要将工作站处理过的更新数据传输给服务器(如上图所示)。服务器渲染时,工作站的交互操作完全不受渲染的影响。
人工智能辅助的好莱坞夸德罗RTX在电子艺术创作上的性能加速当然不仅限于三维渲染。随着图灵架构引入张量核,Quadro RTX在一些视频特效处理上也大放异彩。比如奥斯卡提名电影《爱丽丝漫游仙境》和《The Irishman(爱尔兰人)》都采用了人工智能加速来实现减龄效果,成功将很多演员的银幕年龄降低了几十年。
在电影《Avengers: Endgame(复仇者联盟:终局之战)》的剧照中,很多演员采用了ILM的人工智能减龄效果。
《爱尔兰人》的剧情跨越了60年,化妆部门自然无法再现三位明星2、30岁时的模样。为了保持画面的可信度,影片没有选择许多不同年龄的演员或特效化妆技巧来满足情节的需要,而是让演员罗伯特德尼罗(76岁,饰演二战老兵弗兰克‘爱尔兰人’希兰(Frank‘sheer an)等角色。影片以弗兰克回顾人生开始,讲述了他的黑手党杀手生涯)、阿尔帕西诺(79岁)和乔佩西(76岁)。
摄像师通过两个与主摄像头平行的改装Arri mini捕捉人物的红外特征(这样就不需要在脸上打上标记,原理类似于手机上的3D结构光),然后使用Quadro RTX专业卡进行人工智能技术进行减龄,从而在满足剧情需要的前提下实现可信度和一致性都非常高的影像和人物构建。
ILM公司采用了数千张演员过去的照片作为人工智能的学习对象,全程使用英伟达RTX技术来加速这一操作,使得这部有大量老化处理的电影顺利完成。
电影剧照《爱尔兰人》终极反角灭霸
电影《复仇者联盟之终局之战》包含了2500组特效镜头,号称史上特效镜头最多的电影。数字领域的特效团队使用机器学习技术为反派灭霸的扮演者乔什布洛林的表演构建了数字动画版本。
Digital使用一个名为Masquerade的机器学习系统来捕捉低分辨率版本的演员表演和表情,然后将其转换为高分辨率的灭霸人脸。通过这项技术,动画师的面部建模工作量明显减少,后期制作时间缩短。
Quadrotox实现全媒体全流程硬件加速现在是快媒体为王的时代。文字内容的影响力早已被图片和短视频所取代,图片和视频的创作往往密不可分。一个内容创建团队使用各种媒体创建工具,但这些工具可能都是由Adobe提供的。比如照片打印的Lightroom,图片后期处理的Photoshop,非线性视频编辑的Premiere Pro,视频特效的After Effect,生成三维纹理的Substance等等。英伟达Adobe有着密切的合作关系。通过Quadro RTX,可以为上述软件提供全程的硬件加速。
在超高分辨率视频处理方面,Quadro RTX可以提供比目前顶级工作站CPU快14倍的处理速度(具备强大的通用处理性能和视频编解码能力),时间大大缩短。
这是什么意思?
要知道创作者有时候要面对一些经常需要修改的客户。如果他们修改几次,用CPU运行N次超高清视频处理,会把人逼疯的。有了GPU加速,这个问题至少可以简单很多。
随着手机的日益普及,竖排视频成为网络短视频的主流,拍摄时可能会采用横排构图。如果要转换成竖排构图,为了保证拍摄主体在画面中的位置合适,需要重新构图。对于体育视频,人工处理需要耗费大量的精力,而Quadro RTX结合Premiere Pro的AI重构图技术可以实时完成这一操作。
Quadrotx和新的跨流程内容创建加速全流程加速可以提高内容创建的生产力。不过,NVIDIA除了硬件加速之外,还提供了一个名为Omniverse的开放网络协作平台,可以简化实时图形工作室团队的流程。
例如,使用Maya和Omniverse门户的艺术家可以使用UE4与另一位艺术家合作,双方可以看到应用程序修改的实时更新。这种情况就好比你用Word修改一个文档,同事可以马上看到修改的内容,然后根据修改的内容及时更新手持文档。
举个栗子:
以上是NVIDIA Omniverse的一个应用场景,右上是Omniverse Viewer的显示内容,下图是三个不同的设计师正在分别使用Maya (3D建模创建)、UE4(游戏场景开发)和Adobe Substance (3D纹理处理)进行飞机建模、3D场景设计和纹理贴图。三位设计师都使用Omniverse平台进行实时电子艺术资产数据通信。
右上方的Omniverse Viewer可以即时呈现UE4设计师制作的场景实时渲染,三位设计师都可以随时通过Omniverse Viewer观看彼此协作的实时结果。这个工具大大提高了团队协作的效率。
Omniverse Viewer使用CUDA内核、光线追踪内核和Quadro RTX的张量内核来加速逼真的实时渲染效果。来自世界各地的设计师和艺术家终于可以实现真正的合作。
Quadrotx与大数据应用大数据是近年来的热门话题。所谓大数据,一般是指Excel等办公电子表格软件无法处理的海量数据。随着互联网的发展,信息的膨胀速度已经远远超出了传统数据处理方法所能应对的能力。如何将大数据快速挖掘、清洗、整理,转换成人类能够理解的、具有分析意义的图表,已经成为一个蓬勃发展的新业务。
在这方面,英伟达提供了一个名为RAPIDS的解决方案,集合了英伟达之前在CUDA开发中的数学库和新开发的专门针对大数据处理的框架,让开发者可以使用Python语言调用Quadro RTX GPU,实现海量数据的快速处理。
OmniSci公司,原名MapD,使用RAPIDS处理海量WIFI节点数据。通过调用Quadro RTX,实现了对拥有5亿行数据的数据表的实时分析和处理,最终形成了仪表盘式的动态数据图表。该仪器中的地图可以实时缩放,然后地图中显示的热点分布状态会立即更新。
Quadro RTXQuadro,一个多功能的品牌,最初是针对图形工作站的,主要是为了在工作站软件中提供更快的视口交互渲染。专业卡是指在专业的平面设计软件上提供视口加速。
在引入Cg语言后,英伟达在2004年做出了一款名为意式冰淇淋的商用GPU渲染器,这是英伟达首次尝试使用GPU进行通用计算的开始。意式冰淇淋在某种程度上是实验性的,因为当时使用GPU渲染成品的渲染器非常少。然而,正是因为在意式冰淇淋的积累,NVIDIA在GPU通用计算开发方面获得了宝贵的经验。
2008年CUDA发布后,NVIDIA推出了OptiX基于GPU的光线追踪渲染框架。经过10多年的发展,OptiX已经被业界广泛采用。从意式冰淇淋到OptiX,再到后来遍地开花的第三方GPU渲染器,Quadro系列作为硬件的基石一直伴随着我们。回过头来看,“未来已经来了”这句话其实很适合Quadro产品线。
作为图灵架构的首款产品,Quadro RTX首次加速了从视口到最终帧渲染的全过程,NVIDIA以图形为主兼顾通用的渐进式开发策略也被证明是成功的。
总的来说,特斯拉T4只能胜任图像识别,但需要指出的是,特斯拉没有显示输出或者VDI还未能实现远程10位高精度显示输出的限制。Quadro RTX在显示输出方面具有独特的优势,因为它是为工作站设计的。比如CT医学图像经常需要高精度的灰度显示输出,Quadro RTX正好可以满足这种需求,做到一卡多用。
可以说,在大多数情况下,在大数据和人工智能应用方面,Quadro RTX并不逊色于特斯拉和其他专门针对服务器加速的产品。特斯拉和Quadro有很多共同的功能,比如GeForce没有的GPUDirect RDMA。相对于主要用于服务器的特斯拉,你可以把放置在(桌面或移动)工作站的Quadro RTX视为“你身边的Telsa”。
Quadro RTX本身具有显示输出、USB-C VR头盔连接能力、面向工作站的硬件加速特性,使其具有一专多能(图形工作站)、多能(大数据、人工智能等)的特殊定位。).
最后,值得一提的是,由于疫情,英伟达今年的GTC技术峰会被改为完全在线模式。网络广播讲座和课程将通过GTC数码提供,免费注册。届时,GTC数码将在网上发布大量技术讲座和课程,对于想了解图形学、深度学习、大数据等行业最新动态的读者来说,这将是一场非常好的年度盛宴。

其他教程

mother school什么意思(mother school对吗)

2022-8-22 2:37:27

其他教程

cg全球美术比赛(第四届cgs国际文化艺术节)

2022-8-22 2:39:43

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索