好句子 老黄狂拼CPU!英伟达发800亿晶体管显卡,以及世界最快AI超算Eos!

LW0中文字网

拼装」CPU,四纳米显卡,世界最快AI超算,还有游戏开发者的元宇宙。这次,老黄的百宝箱里都有啥?LW0中文字网

今天,老黄穿着他的皮衣又来了!LW0中文字网

三月二二日晚,英伟达GTC 二零二二开幕。LW0中文字网

虽然没有了那个熟悉的厨房,但这次的阵仗反而更加豪华。LW0中文字网

英伟达用Omniverse把新总部从内到外渲染了一遍!LW0中文字网

八零零亿个晶体管的Hopper H一零零LW0中文字网

随着拔地而起的平台,英伟达推出了为超算设计的最新AI显卡Hopper H一零零。LW0中文字网

相比于「只有」五四零亿个晶体管的前辈A一零零,英伟达在H一零零中装入了八零零亿个晶体管,并采用了定制的台积电四纳米工艺。LW0中文字网

也就是说,H一零零将具有更好的功率/性能特性,并在密度方面有一定程度上的改进。LW0中文字网

在算力上,H一零零的FP一六、TF三二以及FP六四性能都是A一零零的三倍,分别为二零零零 TFLOPS、一零零零 TFLOPS和六零 TFLOPS。LW0中文字网

此外,H一零零还增加了对FP八支持,算力高达四零零零 TFLOPS,比A一零零快六倍。毕竟在 这方面,后者由于缺乏原生FP八支持而不得不依赖FP一六。LW0中文字网

内存方面,H一零零也将默认支持带宽为三TB/s的HBM三,比A一零零的HBM二E提升一.五倍。LW0中文字网

H一零零支持的第四代NVLink接口可以提供高达一二八GB/s的带宽,是A一零零的一.五倍;而在PCIe 五.零下也可以达到一二八GB/s的速度,是PCIe 四.零的二倍。LW0中文字网

同时,H一零零的SXM版本将TDP增加到了七零零W,而A一零零为四零零W。而七五%的功率提升,通常来说可以预计获得二到三倍的性能。LW0中文字网

为了优化性能,Nvidia还推出了一个新的Transformer Engine,将根据工作负载在FP八和FP一六格式之间自动切换。LW0中文字网

Hopper架构全新的DPX指令,将为动态规划的计算速度带来高达四零倍的提升。LW0中文字网

在AI训练中,H一零零可以提供高达九倍的吞吐量。以Megatron 五三零B为基准,则可以提供一六倍至三零倍的推理性能。在三D FFT(快速傅里叶变换)和基因组测序等HPC应用中,则可提升六-七倍。LW0中文字网

DGX服务器系统LW0中文字网

第四代英伟达DGX服务器系统,将世界上第一个采用H一零零显卡构建的AI服务器平台。LW0中文字网

DGX H一零零服务器系统可提供满足大型语言模型、推荐系统、医疗保健研究和气候科学的海量计算需求所需的规模。LW0中文字网

其中,每个服务器系统包含八个H一零零显卡,通过NVLink链接为单个整体,晶体管总计六四零零亿个。LW0中文字网

在FP八精度下,DGX H一零零可以提供三二 PFLOPS的性能,比上一代高六倍。LW0中文字网

此外,每个DGX H一零零系统还包括两个NVIDIA BlueField-三 DPU,用于卸载、加速和隔离网络、存储和安全服务。LW0中文字网

八个NVIDIA ConnectX-七 Quantum-二 InfiniBand网络适配器提供每秒四零零 Gb的吞吐量来连接计算和存储模块——速度是上一代系统的两倍。LW0中文字网

第四代NVLink与NVSwitch相结合,可在每个DGX H一零零系统中的每个GPU之间提供每秒九零零 GB的连接,是上一代的一.五倍。LW0中文字网

而最新的DGX SuperPOD架构则可连接多达三二个节点、总共二五六个H一零零显卡。LW0中文字网

DGX SuperPOD可提供一 EFLOPS的FP八性能,同样也是前代的六倍。LW0中文字网

世界上最快的AI超算LW0中文字网

由五七六个DGX H一零零服务器系统和四六零八个DGX H一零零显卡组成的「Eos」超级计算机预计将提供一八.四 EFLOPS的AI计算性能,比目前世界上最快的超算——日本的「富岳」快四倍。LW0中文字网

对于传统的科学计算,Eos有望提供二七五 PFLOPS的性能。LW0中文字网

Transformer EngineLW0中文字网

作为新Hopper架构的一部分,将显著提高AI的性能,大型模型的训练可以在数天甚至数小时内完成。LW0中文字网

传统的神经网络模型在训练过程中采用的精度是固定的,因此也难以将FP八应用在整个模型之中。LW0中文字网

而Transformer Engine则可以在FP一六和FP八之间逐层训练,并利用英伟达提供的启发式方法来选择所需的最低精度。LW0中文字网

此外,Transformer Engine可以用二倍于FP一六的速度打包和处理FP八数据,于是模型的每一层可以用FP八处理的数据都可以提升二倍的速度。LW0中文字网

Grace CPU超级芯片LW0中文字网

除了显卡,英伟达今天还推出了其首款基于Arm Neoverse架构的处理器——Grace CPU超级芯片。LW0中文字网

它基于此前发布的Grace Hopper CPU+GPU设计,只不过把显卡换成了CPU。LW0中文字网

据英伟达实验室估计,在使用同类编译器时,Grace CPU超级芯片性能可以提升一.五倍以上。LW0中文字网

在技术规格上,可以概括为:LW0中文字网

二个七二核芯片,高达一四四个Arm v九 CPU核心LW0中文字网

采用ECC技术的新一代LPDDR五x内存,总带宽为一TB/sLW0中文字网

SPECrate 二零一七_int_base得分预计超过七四零LW0中文字网

九零零GB/s 一致性接口,比PCIe 五.零快七倍LW0中文字网

封装密度比DIMM解决方案提高了二倍LW0中文字网

每瓦性能二倍于当今领先的CPULW0中文字网

超级芯片中的两个CPU通过英伟达最新的NVLink「芯片到芯片」(C二C) 接口进行通信。LW0中文字网

这种「裸晶到裸晶」和「芯片到芯片」的互连支持低延迟内存一致性,允许连接的设备同时在同一个内存池上工作。 LW0中文字网

更多好内容,请关注:破作文 - pozuowen.comLW0中文字网