阳途教育为您的考证保驾护航

关于我们|网站公告|广告服务|联系我们| 网站地图

搜索
软件行业分类 软件工程师 系统分析师 系统架构师

英伟达推出安培微架构:比老前辈显卡的540亿晶体管

日期:2022/04/16 00:04作者:佚名人气:

导读:最近英伟达的架构开发师们发布了一篇博客,深入讲解和分析了架构。芯片利用了Arm架构的灵活性,是一个完全重新设计、专为加速计算而设计的CPU和服务器架构。Core技术的组合,专门用于加速转化器模型的训练和推理。引擎能够智能管理并动态选择FP8和16位计算,自动处理每一层中FP8和16位之间的重铸和缩放,与上一代A100相比,在大型语言模型上的AI训练速度提升了9倍,AI推理速度提升了30倍。...

在 GTC 2022 大会上,老黄更新了已经服役近两年的安培微架构( ),推出了架构,并扔出了一款显卡 H100,这款显卡专为超级计算设计,包含 800 亿个晶体管。540 亿个晶体管要高得多。

但是光看名字和参数是不够的架构师,牛在哪里?

最近, 的架构师发布了一篇博客,对架构进行了深入的解释和分析。文章作者包括 首席 GPU 架构师 Greg 和 Ronny、GPU 架构组杰出工程师、 高级技术营销总监 Nick Stam、高级开发技术工程师 Mehta 等核心开发成员。

牛在哪里?

该架构的名称来自被誉为计算机软件工程第一夫人、编译语言 COBOL 之母的 Grace 女士。她是耶鲁大学第一位女数学博士,世界第三位程序员,世界上第一个编译器的发明者。他也是第一个发现“虫子”的人。

基于架构的 H100张量核心GPU已经是第九代数据中心GPU。与上一代安培架构的A100 GPU相比,架构明显更强。不仅晶体管数量大幅提升,制程也从7nm提升到4nm,为大规模AI和HPC提供了数量级的性能飞跃。

同时,H100继承了A100的主要设计重点,提升了AI和HPC工作负载的可扩展性,显着提升了架构效率。

对于当今主流的 AI 和 HPC 模型,带互连的 H100 提供的性能是 A100 的 30 倍。

并且新的可以通过互连来调整负载,用于一些大规模计算工作负载任务,例如需要在多个GPU加速节点上并行化模型,这可以再次提高性能。在某些情况下,性能可以比使用的 H100 提高三倍。

可以说,H100 GPU专为高性能计算和超大规模AI模型的加速而设计,AI模型的推理速度至少可以提升10倍。

该芯片利用了 Arm 架构的灵活性,是一种完全重新设计的 CPU 和服务器架构,专为加速计算而设计。H100 可搭配 Grace CPU,配合超快的 芯片到芯片互连,可提供高达 900GB/s 的总带宽,比 PCIe Gen5 快 7 倍。

x架构 火山口架构 宫柱架构_架构师_处理器架构x86架构

在TB级数据的高性能计算下,新设计相比全球最快的服务器,性能提升10倍,总带宽提升30倍。

开发人员收集了一长串 H100 GPU 的关键新功能。

首先,H100 有一个新的流式多处理器 (SM, ),它提高了性能和效率。

与 A100 相比,全新的第四代张量核心在芯片间性能提升了 6 倍,速度提升主要来自 H100 中更快的 SM、更多的 SM 数和更高的时钟频率。在每个 SM 上,与上一代 16 位浮点选项相比,Cores 在相同数据类型上的 MMA(矩阵乘积)计算速度是 A100 SM 的 2 倍,使用新的 FP8 数据类型时间是 A100 的 4 倍。 功能利用深度学习网络中的细粒度结构化稀疏性,将标准张量核心操作的性能提高一倍。

与 A100 GPU 相比,新的 DPX 指令将动态编程算法加速了 7 倍。在对用于基因组学处理的 Smith 算法和用于在动态仓库环境中为机器人车队寻找最佳路线的 Floyd 算法进行验证后,证实了改进的性能。

与 A100 相比,IEEE FP64 和 FP32 的芯片到芯片处理速度快 3 倍,因为每个 SM 的时钟对时钟性能提高了 2 倍,加上 H100 的额外 SM 数量和更高的时钟。

新的线程块集群功能支持以大于单个 SM 上的单个线程块的粒度对局部性进行编程控制。扩展 CUDA 编程模型以向编程层次结构添加一个层,现在包括线程、线程块、线程块集群和网格。集群使多个线程块可以在多个 SM 上并发运行,以同步协作的方式获取和交换数据。

分布式共享内存允许通过多个 SM 共享内存块直接进行 SM 到 SM 通信,以实现加载、存储和原子性。

新的异步执行功能包括一个新的张量内存加速器 (TMA) 单元,可在全局内存和共享内存之间有效地传输大块数据。TMA 还支持集群中线程块之间的异步复制。还有一个新的异步事务屏障用于进行原子数据移动和同步。

新引擎结合了软件和定制的 Core 技术,专门用于加速 模型的训练和推理。该引擎可以智能管理和动态选择FP8和16位计算,自动处理每一层FP8和16位之间的重铸和缩放,在大语言模型上的AI训练速度比上一代A100提高9倍架构师, AI推理速度提升30倍。

HBM3 内存子系统的带宽是上一代产品的近 2 倍。H100 SXM5 GPU 是世界上第一款使用 HBM3 显存的 GPU,提供一流的 3TB/秒显存带宽。

50MB L2缓存架构缓存大量模型和数据集,减少重复访问时对HBM3的访问。

与A100相比,第二代多实例GPU(MIG)技术提供约3倍的计算能力和近2倍的每个GPU实例的内存带宽。这也是首次通过 MIG 级 TEE 提供机密计算能力。最多支持七个独立的 GPU 实例,每个实例都有专用的 NVDEC 和 NVJPG 单元。每个实例都包含自己的一组性能监视器,可与开发人员工具一起使用。

新的机密计算 ( ) 支持可保护用户数据,防御硬件和软件攻击,并更好地隔离和保护虚拟化和 MIG 环境中的虚拟机 (VM)。H100 实现了世界上第一个原生机密计算 GPU,并以全 PCIe 线速将可信执行环境 (TEE) 扩展到 CPU。

架构师_处理器架构x86架构_x架构 火山口架构 宫柱架构

第 4 代提供 3 倍的所有操作带宽,比上一代增加 50% 的通用带宽,多 GPU IO 的总带宽为 900 GB/秒,是 PCIe 第 5 代的 7 倍操作带宽。

第三代技术包括位于节点内部和外部的交换机,用于连接服务器、集群和数据中心环境中的多个 GPU。

节点内的每个都提供 64 个第四代链路端口,以加速多 GPU 连接。交换机的总吞吐量从上一代的 7.2 Tbits/sec 增加到 13.6 Tbits/sec。新的第三代技术还为 SHARP 内网缩减的组播和集体操作提供硬件加速。

新的系统互连技术和基于 Gen 3 技术的新第二阶段引入了地址空间隔离和保护,使多达 32 个节点或 256 个 GPU 能够以 2:1 锥形树形拓扑连接。

这些连接的节点能够提供 57.6TB/秒的全对全带宽,并能够提供惊人的 FP8 稀疏 AI 计算。PCIe Gen 5 能够提供 128GB/秒的总带宽(每个方向 64GB/秒),而 PCIe Gen 4 的总带宽为 64GB/秒(每个方向 32GB/秒)。PCIe Gen5 使 H100 能够与最高性能的 x86 CPU 和/或数据处理单元 (DPU) 连接。

更多技术细节,请访问原文。总而言之,H100 更快、更高、更强!(更贵)

参考:

关于我们|网站公告|广告服务|联系我们| 网站地图

Copyright © 2002-2022 阳途网 版权所有 | 备案号:湘ICP备2022018839号-1

声明: 本站 所有软件和文章来自互联网 如有异议 请与本站联系 本站为非赢利性网站 不接受任何赞助和广告