NVIDIA® Tesla® A100

  • CUDA核心: 6912
  • 显存: 40 GB / 80GB HBM2
  • 单精度: 19.5 TFLOPS
  • 双精度: 9.7 TFLOPS

NVIDIA® Tesla® A100 概览

NVIDIA ® A100 Tensor Core GPU 可针对 AI、数据分析和高性能计算 (HPC) 应用,在各个规模下实现出色加速,有效助力全球高性能弹性数据中心。作为 NVIDIA 数据中心平台的引擎,相较于前一代 NVIDIA Volta ™ ,A100 可提供高达 20 倍的性能。A100 支持高效扩展,也可划分多达七个独立的 GPU实例,多实例 GPU (MIG) 可提供统一平台,助力弹性数据中心动态地适应不断变化的工作负载需求。

NVIDIA A100 Tensor Core 技术支持广泛的数学精度,可针对每个工作负载提供单个加速器。最新一代 A100 80GB 将 GPU 显存加倍,提供2TB/s 的全球超快显存带宽,可加速处理超大模型和海量数据集。

A100 是整个 NVIDIA 数据中心解决方案的一部分,该解决方案由硬件、网络、软件、库以及 NGC ™ 中经优化的 AI 模型和应用等叠加而成。作为性能超强的端到端数据中心专用 AI和 HPC 平台,它可助力研究人员交付真实的结果,并将解决方案大规模部署到生产环境中。


A100 40GB PCIEA100 80GB PCIEA100 40GB SXMA100 80GB SXM
FP649.7 TFLOPS
FP64 Tensor Core19.5 TFLOPS
FP3219.5 TFLOPS
Tensor Float 32 (TF32)156 TFLOPS | 312 TFLOPS*
BFLOAT16 Tensor Core312 TFLOPS | 624 TFLOPS*
FP16 Tensor Core312 TFLOPS | 624 TFLOPS*
INT8 Tensor Core624 TOPS | 1248 TOPS*
GPU 显存40GB HBM280GB HBM2e40GB HBM280GB HBM2e
GPU 显存带宽1,555GB/s1,935GB/s1,555GB/s2,039GB/s
热设计功耗 (TDP)250W300W400W400W
多实例 GPU多达 7 MIG @ 5GB多达 7 MIG @ 10GB多达 7 MIG @ 5GB多达 7 MIG @ 10GB
外形规格PCIeSXM
互联

NVIDIA® NVLink® 桥接器(可桥接 2 个 GPU):

600GB/s **

PCIe 4.0:64GB/s
NVLink: 600GB/s
PCIe Gen4: 64GB/s


NVIDIA AMPERE 架构

无论是使用 MIG 将 A100 GPU 分割为较小的实例,还是使用 NVIDIA® NVLink® 连接多个 GPU 来加速大规模工作负载,A100 均可轻松满足不同规模的加速需求,从小型作业到大型多节点工作负载无一例外。A100 功能全面,这意味着 IT 经理可借此充分利用数据中心内的每个 GPU。

第三代 TENSOR CORE

对比 NVIDIA Volta GPU,其深度学习训练的 Tensor FLOPS 和推理的 Tensor TOPS 皆为 NVIDIA Volta™ GPU 的 20 倍,NVIDIA A100 的深度学习计算能力可达 312 teraFLOPS (TFLOPS)。

新一代 NVLINK

A100 中采用的 NVIDIA NVLink 可提供两倍于上一代的吞吐量。与 NVIDIA NVSwitch™ 结合使用时,此技术可将多达 16 个 A100 GPU 互联,并将速度提升至 600GB/s,从而在单个服务器上实现出色的应用性能。

多实例 GPU (MIG)

一个 A100 GPU 可分割成多达七个GPU 实例,这些实例在硬件级别完全独立,并独自拥有高带宽显存、缓存和计算核心。借助 MIG,开发者可为其所有应用实现惊人加速,IT 管理员也可为每个作业提供符合其规模的 GPU 加速,进而优化 GPU 利用率,让每个用户和应用都能使用 GPU 实例。

HBM2E 显存

凭借 80GB 的高带宽显存(HBM2e),A100 将显存带宽提升至超过2TB/s ,并将动态随机存取存储器 (DRAM) 的利用效率提高至95%。A100 提供的显存带宽是上一代产品的 1.7 倍。

结构化稀疏

A100 中的 Tensor Core 可为稀疏模型提供高达两倍的性能提升。稀疏功能不仅更容易使 AI 推理受益,同时还能提升模型的训练性能。


电话咨询
在线地图