好句子老黄狂拼CPU！英伟达发800亿晶体管显卡，以及世界最快AI超算Eos！

LW0中文字网

拼装」CPU，四纳米显卡，世界最快AI超算，还有游戏开发者的元宇宙。这次，老黄的百宝箱里都有啥？LW0中文字网

今天，老黄穿着他的皮衣又来了！LW0中文字网

三月二二日晚，英伟达GTC 二零二二开幕。LW0中文字网

虽然没有了那个熟悉的厨房，但这次的阵仗反而更加豪华。LW0中文字网

英伟达用Omniverse把新总部从内到外渲染了一遍！LW0中文字网

八零零亿个晶体管的Hopper H一零零LW0中文字网

随着拔地而起的平台，英伟达推出了为超算设计的最新AI显卡Hopper H一零零。LW0中文字网

相比于「只有」五四零亿个晶体管的前辈A一零零，英伟达在H一零零中装入了八零零亿个晶体管，并采用了定制的台积电四纳米工艺。LW0中文字网

也就是说，H一零零将具有更好的功率/性能特性，并在密度方面有一定程度上的改进。LW0中文字网

在算力上，H一零零的FP一六、TF三二以及FP六四性能都是A一零零的三倍，分别为二零零零 TFLOPS、一零零零 TFLOPS和六零 TFLOPS。LW0中文字网

此外，H一零零还增加了对FP八支持，算力高达四零零零 TFLOPS，比A一零零快六倍。毕竟在这方面，后者由于缺乏原生FP八支持而不得不依赖FP一六。LW0中文字网

内存方面，H一零零也将默认支持带宽为三TB/s的HBM三，比A一零零的HBM二E提升一.五倍。LW0中文字网

H一零零支持的第四代NVLink接口可以提供高达一二八GB/s的带宽，是A一零零的一.五倍；而在PCIe 五.零下也可以达到一二八GB/s的速度，是PCIe 四.零的二倍。LW0中文字网

同时，H一零零的SXM版本将TDP增加到了七零零W，而A一零零为四零零W。而七五%的功率提升，通常来说可以预计获得二到三倍的性能。LW0中文字网

为了优化性能，Nvidia还推出了一个新的Transformer Engine，将根据工作负载在FP八和FP一六格式之间自动切换。LW0中文字网

Hopper架构全新的DPX指令，将为动态规划的计算速度带来高达四零倍的提升。LW0中文字网

在AI训练中，H一零零可以提供高达九倍的吞吐量。以Megatron 五三零B为基准，则可以提供一六倍至三零倍的推理性能。在三D FFT（快速傅里叶变换）和基因组测序等HPC应用中，则可提升六-七倍。LW0中文字网

DGX服务器系统LW0中文字网

第四代英伟达DGX服务器系统，将世界上第一个采用H一零零显卡构建的AI服务器平台。LW0中文字网

DGX H一零零服务器系统可提供满足大型语言模型、推荐系统、医疗保健研究和气候科学的海量计算需求所需的规模。LW0中文字网

其中，每个服务器系统包含八个H一零零显卡，通过NVLink链接为单个整体，晶体管总计六四零零亿个。LW0中文字网

在FP八精度下，DGX H一零零可以提供三二 PFLOPS的性能，比上一代高六倍。LW0中文字网

此外，每个DGX H一零零系统还包括两个NVIDIA BlueField-三 DPU，用于卸载、加速和隔离网络、存储和安全服务。LW0中文字网

八个NVIDIA ConnectX-七 Quantum-二 InfiniBand网络适配器提供每秒四零零 Gb的吞吐量来连接计算和存储模块——速度是上一代系统的两倍。LW0中文字网

第四代NVLink与NVSwitch相结合，可在每个DGX H一零零系统中的每个GPU之间提供每秒九零零 GB的连接，是上一代的一.五倍。LW0中文字网

而最新的DGX SuperPOD架构则可连接多达三二个节点、总共二五六个H一零零显卡。LW0中文字网

DGX SuperPOD可提供一 EFLOPS的FP八性能，同样也是前代的六倍。LW0中文字网

世界上最快的AI超算LW0中文字网

由五七六个DGX H一零零服务器系统和四六零八个DGX H一零零显卡组成的「Eos」超级计算机预计将提供一八.四 EFLOPS的AI计算性能，比目前世界上最快的超算——日本的「富岳」快四倍。LW0中文字网

对于传统的科学计算，Eos有望提供二七五 PFLOPS的性能。LW0中文字网

Transformer EngineLW0中文字网

作为新Hopper架构的一部分，将显著提高AI的性能，大型模型的训练可以在数天甚至数小时内完成。LW0中文字网

传统的神经网络模型在训练过程中采用的精度是固定的，因此也难以将FP八应用在整个模型之中。LW0中文字网

而Transformer Engine则可以在FP一六和FP八之间逐层训练，并利用英伟达提供的启发式方法来选择所需的最低精度。LW0中文字网

此外，Transformer Engine可以用二倍于FP一六的速度打包和处理FP八数据，于是模型的每一层可以用FP八处理的数据都可以提升二倍的速度。LW0中文字网

Grace CPU超级芯片LW0中文字网

除了显卡，英伟达今天还推出了其首款基于Arm Neoverse架构的处理器——Grace CPU超级芯片。LW0中文字网

它基于此前发布的Grace Hopper CPU+GPU设计，只不过把显卡换成了CPU。LW0中文字网

据英伟达实验室估计，在使用同类编译器时，Grace CPU超级芯片性能可以提升一.五倍以上。LW0中文字网

在技术规格上，可以概括为：LW0中文字网

二个七二核芯片，高达一四四个Arm v九 CPU核心LW0中文字网

采用ECC技术的新一代LPDDR五x内存，总带宽为一TB/sLW0中文字网

SPECrate 二零一七_int_base得分预计超过七四零LW0中文字网

九零零GB/s 一致性接口，比PCIe 五.零快七倍LW0中文字网

封装密度比DIMM解决方案提高了二倍LW0中文字网

每瓦性能二倍于当今领先的CPULW0中文字网

超级芯片中的两个CPU通过英伟达最新的NVLink「芯片到芯片」(C二C) 接口进行通信。LW0中文字网

这种「裸晶到裸晶」和「芯片到芯片」的互连支持低延迟内存一致性，允许连接的设备同时在同一个内存池上工作。 LW0中文字网

更多好内容，请关注：破作文 - pozuowen.comLW0中文字网

每日一字

每日英文

热门点击

好句子 老黄狂拼CPU！英伟达发800亿晶体管显卡，以及世界最快AI超算Eos！

好句子老黄狂拼CPU！英伟达发800亿晶体管显卡，以及世界最快AI超算Eos！