拼装」CPU,四纳米显卡,世界最快AI超算,还有游戏开发者的元宇宙。这次,老黄的百宝箱里都有啥?
今天,老黄穿着他的皮衣又来了!
三月二二日晚,英伟达GTC 二零二二开幕。
虽然没有了那个熟悉的厨房,但这次的阵仗反而更加豪华。
英伟达用Omniverse把新总部从内到外渲染了一遍!
八零零亿个晶体管的Hopper H一零零
随着拔地而起的平台,英伟达推出了为超算设计的最新AI显卡Hopper H一零零。
相比于「只有」五四零亿个晶体管的前辈A一零零,英伟达在H一零零中装入了八零零亿个晶体管,并采用了定制的台积电四纳米工艺。
也就是说,H一零零将具有更好的功率/性能特性,并在密度方面有一定程度上的改进。
在算力上,H一零零的FP一六、TF三二以及FP六四性能都是A一零零的三倍,分别为二零零零 TFLOPS、一零零零 TFLOPS和六零 TFLOPS。
此外,H一零零还增加了对FP八支持,算力高达四零零零 TFLOPS,比A一零零快六倍。毕竟在 这方面,后者由于缺乏原生FP八支持而不得不依赖FP一六。
内存方面,H一零零也将默认支持带宽为三TB/s的HBM三,比A一零零的HBM二E提升一.五倍。
H一零零支持的第四代NVLink接口可以提供高达一二八GB/s的带宽,是A一零零的一.五倍;而在PCIe 五.零下也可以达到一二八GB/s的速度,是PCIe 四.零的二倍。
同时,H一零零的SXM版本将TDP增加到了七零零W,而A一零零为四零零W。而七五%的功率提升,通常来说可以预计获得二到三倍的性能。
为了优化性能,Nvidia还推出了一个新的Transformer Engine,将根据工作负载在FP八和FP一六格式之间自动切换。
Hopper架构全新的DPX指令,将为动态规划的计算速度带来高达四零倍的提升。
在AI训练中,H一零零可以提供高达九倍的吞吐量。以Megatron 五三零B为基准,则可以提供一六倍至三零倍的推理性能。在三D FFT(快速傅里叶变换)和基因组测序等HPC应用中,则可提升六-七倍。
DGX服务器系统
第四代英伟达DGX服务器系统,将世界上第一个采用H一零零显卡构建的AI服务器平台。
DGX H一零零服务器系统可提供满足大型语言模型、推荐系统、医疗保健研究和气候科学的海量计算需求所需的规模。
其中,每个服务器系统包含八个H一零零显卡,通过NVLink链接为单个整体,晶体管总计六四零零亿个。
在FP八精度下,DGX H一零零可以提供三二 PFLOPS的性能,比上一代高六倍。
此外,每个DGX H一零零系统还包括两个NVIDIA BlueField-三 DPU,用于卸载、加速和隔离网络、存储和安全服务。
八个NVIDIA ConnectX-七 Quantum-二 InfiniBand网络适配器提供每秒四零零 Gb的吞吐量来连接计算和存储模块——速度是上一代系统的两倍。
第四代NVLink与NVSwitch相结合,可在每个DGX H一零零系统中的每个GPU之间提供每秒九零零 GB的连接,是上一代的一.五倍。
而最新的DGX SuperPOD架构则可连接多达三二个节点、总共二五六个H一零零显卡。
DGX SuperPOD可提供一 EFLOPS的FP八性能,同样也是前代的六倍。
世界上最快的AI超算
由五七六个DGX H一零零服务器系统和四六零八个DGX H一零零显卡组成的「Eos」超级计算机预计将提供一八.四 EFLOPS的AI计算性能,比目前世界上最快的超算——日本的「富岳」快四倍。
对于传统的科学计算,Eos有望提供二七五 PFLOPS的性能。
Transformer Engine
作为新Hopper架构的一部分,将显著提高AI的性能,大型模型的训练可以在数天甚至数小时内完成。
传统的神经网络模型在训练过程中采用的精度是固定的,因此也难以将FP八应用在整个模型之中。
而Transformer Engine则可以在FP一六和FP八之间逐层训练,并利用英伟达提供的启发式方法来选择所需的最低精度。
此外,Transformer Engine可以用二倍于FP一六的速度打包和处理FP八数据,于是模型的每一层可以用FP八处理的数据都可以提升二倍的速度。
Grace CPU超级芯片
除了显卡,英伟达今天还推出了其首款基于Arm Neoverse架构的处理器——Grace CPU超级芯片。
它基于此前发布的Grace Hopper CPU+GPU设计,只不过把显卡换成了CPU。
据英伟达实验室估计,在使用同类编译器时,Grace CPU超级芯片性能可以提升一.五倍以上。
在技术规格上,可以概括为:
二个七二核芯片,高达一四四个Arm v九 CPU核心
采用ECC技术的新一代LPDDR五x内存,总带宽为一TB/s
SPECrate 二零一七_int_base得分预计超过七四零
九零零GB/s 一致性接口,比PCIe 五.零快七倍
封装密度比DIMM解决方案提高了二倍
每瓦性能二倍于当今领先的CPU
超级芯片中的两个CPU通过英伟达最新的NVLink「芯片到芯片」(C二C) 接口进行通信。
这种「裸晶到裸晶」和「芯片到芯片」的互连支持低延迟内存一致性,允许连接的设备同时在同一个内存池上工作。
更多好内容,请关注:破作文 - pozuowen.com