英伟达推出安培微架构:比老前辈显卡的540亿晶体管

日期：2022/04/16 00:04作者：佚名人气：

导读：最近英伟达的架构开发师们发布了一篇博客，深入讲解和分析了架构。芯片利用了Arm架构的灵活性，是一个完全重新设计、专为加速计算而设计的CPU和服务器架构。Core技术的组合，专门用于加速转化器模型的训练和推理。引擎能够智能管理并动态选择FP8和16位计算，自动处理每一层中FP8和16位之间的重铸和缩放，与上一代A100相比，在大型语言模型上的AI训练速度提升了9倍，AI推理速度提升了30倍。...

在 GTC 2022 大会上，老黄更新了已经服役近两年的安培微架构（），推出了架构，并扔出了一款显卡 H100，这款显卡专为超级计算设计，包含 800 亿个晶体管。540 亿个晶体管要高得多。

但是光看名字和参数是不够的架构师，牛在哪里？

最近，的架构师发布了一篇博客，对架构进行了深入的解释和分析。文章作者包括首席 GPU 架构师 Greg 和 Ronny、GPU 架构组杰出工程师、高级技术营销总监 Nick Stam、高级开发技术工程师 Mehta 等核心开发成员。

牛在哪里？

该架构的名称来自被誉为计算机软件工程第一夫人、编译语言 COBOL 之母的 Grace 女士。她是耶鲁大学第一位女数学博士，世界第三位程序员，世界上第一个编译器的发明者。他也是第一个发现“虫子”的人。

基于架构的 H100张量核心GPU已经是第九代数据中心GPU。与上一代安培架构的A100 GPU相比，架构明显更强。不仅晶体管数量大幅提升，制程也从7nm提升到4nm，为大规模AI和HPC提供了数量级的性能飞跃。

同时，H100继承了A100的主要设计重点，提升了AI和HPC工作负载的可扩展性，显着提升了架构效率。

对于当今主流的 AI 和 HPC 模型，带互连的 H100 提供的性能是 A100 的 30 倍。

并且新的可以通过互连来调整负载，用于一些大规模计算工作负载任务，例如需要在多个GPU加速节点上并行化模型，这可以再次提高性能。在某些情况下，性能可以比使用的 H100 提高三倍。

可以说，H100 GPU专为高性能计算和超大规模AI模型的加速而设计，AI模型的推理速度至少可以提升10倍。

该芯片利用了 Arm 架构的灵活性，是一种完全重新设计的 CPU 和服务器架构，专为加速计算而设计。H100 可搭配 Grace CPU，配合超快的芯片到芯片互连，可提供高达 900GB/s 的总带宽，比 PCIe Gen5 快 7 倍。

x架构火山口架构宫柱架构_架构师_处理器架构x86架构

在TB级数据的高性能计算下，新设计相比全球最快的服务器，性能提升10倍，总带宽提升30倍。

开发人员收集了一长串 H100 GPU 的关键新功能。

首先，H100 有一个新的流式多处理器 (SM, )，它提高了性能和效率。

与 A100 相比，全新的第四代张量核心在芯片间性能提升了 6 倍，速度提升主要来自 H100 中更快的 SM、更多的 SM 数和更高的时钟频率。在每个 SM 上，与上一代 16 位浮点选项相比，Cores 在相同数据类型上的 MMA（矩阵乘积）计算速度是 A100 SM 的 2 倍，使用新的 FP8 数据类型时间是 A100 的 4 倍。功能利用深度学习网络中的细粒度结构化稀疏性，将标准张量核心操作的性能提高一倍。

与 A100 GPU 相比，新的 DPX 指令将动态编程算法加速了 7 倍。在对用于基因组学处理的 Smith 算法和用于在动态仓库环境中为机器人车队寻找最佳路线的 Floyd 算法进行验证后，证实了改进的性能。

与 A100 相比，IEEE FP64 和 FP32 的芯片到芯片处理速度快 3 倍，因为每个 SM 的时钟对时钟性能提高了 2 倍，加上 H100 的额外 SM 数量和更高的时钟。

新的线程块集群功能支持以大于单个 SM 上的单个线程块的粒度对局部性进行编程控制。扩展 CUDA 编程模型以向编程层次结构添加一个层，现在包括线程、线程块、线程块集群和网格。集群使多个线程块可以在多个 SM 上并发运行，以同步协作的方式获取和交换数据。

分布式共享内存允许通过多个 SM 共享内存块直接进行 SM 到 SM 通信，以实现加载、存储和原子性。

新的异步执行功能包括一个新的张量内存加速器 (TMA) 单元，可在全局内存和共享内存之间有效地传输大块数据。TMA 还支持集群中线程块之间的异步复制。还有一个新的异步事务屏障用于进行原子数据移动和同步。

新引擎结合了软件和定制的 Core 技术，专门用于加速模型的训练和推理。该引擎可以智能管理和动态选择FP8和16位计算，自动处理每一层FP8和16位之间的重铸和缩放，在大语言模型上的AI训练速度比上一代A100提高9倍架构师， AI推理速度提升30倍。

HBM3 内存子系统的带宽是上一代产品的近 2 倍。H100 SXM5 GPU 是世界上第一款使用 HBM3 显存的 GPU，提供一流的 3TB/秒显存带宽。

50MB L2缓存架构缓存大量模型和数据集，减少重复访问时对HBM3的访问。

与A100相比，第二代多实例GPU（MIG）技术提供约3倍的计算能力和近2倍的每个GPU实例的内存带宽。这也是首次通过 MIG 级 TEE 提供机密计算能力。最多支持七个独立的 GPU 实例，每个实例都有专用的 NVDEC 和 NVJPG 单元。每个实例都包含自己的一组性能监视器，可与开发人员工具一起使用。

新的机密计算 ( ) 支持可保护用户数据，防御硬件和软件攻击，并更好地隔离和保护虚拟化和 MIG 环境中的虚拟机 (VM)。H100 实现了世界上第一个原生机密计算 GPU，并以全 PCIe 线速将可信执行环境 (TEE) 扩展到 CPU。

架构师_处理器架构x86架构_x架构火山口架构宫柱架构

第 4 代提供 3 倍的所有操作带宽，比上一代增加 50% 的通用带宽，多 GPU IO 的总带宽为 900 GB/秒，是 PCIe 第 5 代的 7 倍操作带宽。

第三代技术包括位于节点内部和外部的交换机，用于连接服务器、集群和数据中心环境中的多个 GPU。

节点内的每个都提供 64 个第四代链路端口，以加速多 GPU 连接。交换机的总吞吐量从上一代的 7.2 Tbits/sec 增加到 13.6 Tbits/sec。新的第三代技术还为 SHARP 内网缩减的组播和集体操作提供硬件加速。

新的系统互连技术和基于 Gen 3 技术的新第二阶段引入了地址空间隔离和保护，使多达 32 个节点或 256 个 GPU 能够以 2:1 锥形树形拓扑连接。

这些连接的节点能够提供 57.6TB/秒的全对全带宽，并能够提供惊人的 FP8 稀疏 AI 计算。PCIe Gen 5 能够提供 128GB/秒的总带宽（每个方向 64GB/秒），而 PCIe Gen 4 的总带宽为 64GB/秒（每个方向 32GB/秒）。PCIe Gen5 使 H100 能够与最高性能的 x86 CPU 和/或数据处理单元 (DPU) 连接。

更多技术细节，请访问原文。总而言之，H100 更快、更高、更强！（更贵）

参考：

上一篇：明确与教师之间的同盟关系课程开发人员来源于机构

下一篇：蚂蚁集团P10、计算存储首席架构师何昌华离职，短期

英伟达推出安培微架构:比老前辈显卡的540亿晶体管

相关

推荐

排行