英伟达推出下一代GPU架构
英伟达的Hopper H100成为人工智能和科学计算的“世界上最大、最强大的加速器”。 英伟达发布了其下一代GPU架构——命名为Hopper,以及使用Hopper架构的新旗舰GPU H100。也许令人惊讶的是,英伟达并没有选择走英特尔和AM...
英伟达发布了其下一代GPU架构——命名为Hopper,以及使用Hopper架构的新旗舰GPU H100。也许令人惊讶的是,英伟达并没有选择走英特尔和AMD青睐的小型芯片路线,因为它们拥有庞大的GPU。虽然H100是第一个使用HBM3的GPU,但它的计算芯片是单片的,814毫米内有800亿个晶体管2.基于台积电的4N工艺。内存和计算通过TSMC的CoWoS 2.5D封装进行封装。
以美国计算机科学先驱格雷斯·霍珀(Grace Hopper)命名,英伟达霍珀H100将取代安培A100,成为该公司用于人工智能和科学工作负载的旗舰GPU。它将提供A100原始性能的3倍至6倍(FP8性能为4 PFLOPS,或FP64性能为60 TFLOPS)。作为第一款采用HBM3技术的GPU,其内存带宽高达惊人的3 TB/s,也是第一款支持PCIe Gen5的GPU。该芯片具有近5 TB/s的外部连接能力。把这一点放在上下文中,20个H100 GPU可以维持相当于今天全球互联网流量的水平。
新的Nvidia Hopper H100 GPU–Nvidia用于数据中心AI和科学工作负载的新旗舰GPU(来源:Nvidia)
变压器发动机
Hopper架构为AI处理和科学工作负载提供了一些技巧。
第一个是新的变压器引擎。变压器网络,已经是当今自然语言处理的事实标准,在许多其他人工智能应用中,包括蛋白质折叠,甚至在计算机视觉中,都显示出了前景。如今,它们为许多对话式AI应用提供了动力。变压器网络的问题在于它们是巨大的——数十亿或数万亿的参数——这使得它们的训练在计算上极其昂贵。今天训练一个合适大小的变压器可能需要几个月的时间,这取决于你可以使用的计算能力。
Nvidia为其Hopper张量核发明了一种新的低精度格式FP8。新的Hopper张量引擎可以应用混合的FP16和FP8格式,在适当的情况下加快变压器训练。挑战在于知道何时切换到较低精度以提高吞吐量,从而保持最终结果的准确性。英伟达已经提出了一些策略,可以在训练期间动态地做到这一点。
将张量引擎与Hopper带来的其他改进相结合,其结果是变压器网络的培训时间缩短了9倍-以英伟达为例,从A100的7天缩短到3950亿参数混合专家网络的H100的20小时。对于拥有5300亿参数的Megatron-530B,H100比A100高出30倍。
培训H100与A100混合专家变压器网络的时间(来源:英伟达)
另一个巧妙的技巧是添加新指令来加速动态编程。动态编程是一种常用的科学算法,包括Floyd Warshall(用于路线优化)和Smith-Waterman(用于DNA序列比对)等。一般来说,动态规划意味着算法被分解成更容易解决的较小的子问题。子问题的答案被存储以供重复使用,以避免重新计算。
Hopper的DPX说明专门针对此类操作。到目前为止,这些工作负载主要在CPU和FPGA上运行。使用H100,Floyd Warshall的运行速度比CPU快40倍。
下一代MIG
H100还具有第二代多实例GPU(mig)技术。Mig允许将大型数据中心GPU有效地拆分为多个较小的GPU。这些小型实例可用于在同一芯片上同时运行多个工作负载。下一代mig在每个GPU实例的云环境中提供了安全的多租户配置,从而可以在不同用户或云租户之间安全地分配计算能力。
在H100的又一次首次亮相中,英伟达声称该芯片是第一款具有保密计算能力的GPU。其目的是保护敏感或私有数据,即使在使用中(因此被解密)。今天的机密计算方案是基于CPU的,因此对于大规模的人工智能或高性能计算(HPC)来说并不实用。
英伟达的保密计算方案使用硬件和软件通过保密虚拟机创建可信的执行环境。CPU和GPU之间以及GPU之间的数据传输以全PCI线速率进行加密和解密。H100还具有一个硬件防火墙,用于保护其内存和计算引擎中的工作负载,因此除了拥有密钥的可信执行环境的所有者之外,任何人都无法看到数据或代码。
H100也是首款使用英伟达第四代NVLink通信技术的产品。当扩展到多个GPU时,GPU之间的通信通常是一个瓶颈。新的NVLink交换机可以创建高达256x H100 GPU的网络,比以前大32倍,带宽比Quantum InfiniBand技术高11倍。
超级船舶和超级计算机
英伟达还推出了几个“超级芯片”。Grace CPU超级芯片是一个模块,上面有两个Grace CPU芯片;该组合是一个144臂核心单插槽CPU庞然大物,具有1TB/s的内存带宽,用于超大规模数据中心AI和科学计算。这是市场上当前数据中心CPU的一个级别。该模块消耗500W。
还有Grace Hopper超级芯片:一个Grace CPU加一个Hopper GPU。
英伟达的“超级芯片”结合了两个Grace CPU或一个GraceCPU和一个Hopper GPU(来源:英伟达)
这里的使能技术是一种全新的存储器相干芯片到芯片接口NVLink-C2C,它支持裸片之间的900GB/s链路。它可用于PCB、MCM、Interposer或晶圆级。
在GTC主题演讲中,英伟达首席执行官黄仁勋(Jensen Huang)提到,NVLink-C2C将提供给希望实施连接到英伟达平台的定制芯片的其他客户和合作伙伴。该公司分别表示,将支持Intel、AMD、Arm和其他公司支持的UCIe小芯片到小芯片标准,但没有说明如何或何时。(UCIe是一个正在开发的开放平台,以实现现成的小芯片生态系统)。
Grace CPU超级芯片和Grace Hopper超级芯片都将于明年上半年发货。
当然,将有基于H100的扩展系统,包括DGX-H100(八个H100芯片,FP64计算的0.5 PFLOPS)和新的DGX Superpod,它是32个DGX-H1100节点,用于1个AI性能ExaFLOPS(FP8)。
作为其基于A100的人工智能超级计算机赛琳娜的姐妹,英伟达将建造一台名为Eos的新型超级计算机,由18x DGX超级处理器组成。这18个ExaFLOPS野兽将拥有4600x H100 GPU、360个NVlink交换机和500个Quantum InfiniBand交换机。它将被英伟达的人工智能研究团队使用。
Eos预计将于今年晚些时候上线,英伟达预计届时它将成为第一大人工智能超级计算机。
>>这篇文章最初发表在我们的姐妹网站上,EE时间.
