NVIDIA DGX ™ A100

  • CPU: 2 x AMD Rome 7742, 128 个核心, 基准频率 2.25 GHz, 加速频率可达 3.4 GHz
  • GPU: 8 x NVIDIA A100 Tensor Core GPUs
  • GPU显存: 320 GB / 640 GB 两种规格可选
  • 算力: 5 petaFLOPS AI, 10 petaOPS INT8

NVIDIA DGX™ A100 概览

> 适用于所有AI工作负载的通用系统,在首个5 petaFLOPS AI系统中提供了优秀的计算密度,性能和灵活性

> 配置八块 NVIDIA A100 GPU,可实现出色的加速性能,GPU 总显存高达 640 GB,可将大型训练作业的性能提升高达三倍

> 采用第三代 NVIDIA® NVLink®技术,可将 GPU 间的直连带宽增加至 600GB/s,相当于 PCIe 4.0 的十倍,全新 NVIDIA NV Switch™ ,其速度是上一代的两倍

> 集成经过测试和优化的 DGX 软件堆栈,包括通过 AI 调整的基本操作系统、所有必需的系统软件以及 GPU 加速应用、预训练的模型以及NGC™ 提供的更多功能

> 借助 NVIDIA 的专业知识和经验,快速实现 AI 转型

扩展企业 AI 面对的挑战

每家企业都需要利用人工智能 (AI) 实现转型,以在这个充满挑战的时代求得生存,继而实现蓬勃发展。但长期以来,传统方法所采用的计算架构较为缓慢,而且总是分开处理分析、训练和推理工作负载,所以企业需要一种适用于 AI 基础架构的平台对此加以改进。传统方法不仅复杂、成本高、扩展速度受限,而且对现代 AI 束手无策。 因此,企业、开发者、数据科学家和研究人员都需要一个新平台,以便统一处理所有 AI 工作负载、简化基础架构以及提高投资回报率(ROI)。

适用于所有 AI 工作负载的通用系统

NVIDIA DGX™ A100是适用于所有人工智能工作负载的通用系统⸺从分析到训练,再到推理。DGX A100为计算密度设定了新的标准,将5 petaFLOPS的AI性能打包到6U的外形尺寸中,取代传统的计算基础架构为一个独立统一的系统。此外,DGX A100还提供了前所未有的提供细粒度分配计算力的能力,通过NVIDIA A100 Tensor Core GPU中的“Multi-Instance GPU” (MIG) 功能,使管理员能够为特定工作负载分配合适大小的计算资源。这确保了系统既能支持更大更复杂的作业,还可以支持更小更简单的任务。运行 NGC 上优化过的 DGX 软件堆栈,结合密集的计算能力和完整的工作负载灵活性,让 DGX A100 成为适用于单节点部署以及部署了NVIDIA DeepOps的大规模Slurm/Kubernetes 集群的理想之选。

直接获取 NVIDIA DGXperts的支持

NVIDIA DGX A100不仅仅是一台服务器,它更是一个基于DGX集群⸺NVIDIA DGX SATURNV⸺积累的知识经验而建立,可获取NVIDIA数千名DGXperts支持的完整的软硬件平台。DGXperts是能够为您提供规范指导和专业知识的精通 AI 的从业者,以帮助推动 AI 转型。他们在过去十年中积累了丰富的专业知识和经验,可帮助您更大程度地利用 DGX 投资的价值。DGXperts 帮助确保关键应用程序快速启动运行,并保持平稳运转,从而大大缩短获得见解的时间。



NVIDIA DGX  A100
    320GB
NVIDIA DGX  A100
    640GB
  GPUs8  个 NVIDIA A100
    40 GB GPU
8  个 NVIDIA A100
    80GB GPU
  GPU Memory(GPU 内存)共 320GB共 640GB
  Performance(性能)5  petaFLOPS AI
    10 petaOPS INT8

  System Power  Usage

  (系统功率)

6.5 千瓦
  CPU两个  AMD Rome 7742、共 128 个核心、
    2.25 GHz(基准频率)、3.4 GHz(最大加速频率)

  System Memory

  (系统内存)

1TB2TB
  Networking(网络)

    8  个单端口 Mellanox ConnectX-6 VPI

    200Gb/s HDR  InfiniBand

    1 个双端口 Mellanox ConnectX-6 VPI
    10/25/50/100/200Gb/s 以太网
    8  个单端口 Mellanox ConnectX-6 VPI
    200Gb/s HDR  InfiniBand
    两个双端口 Mellanox  ConnectX-6 VPI
    10/25/50/100/200Gb/s 以太网
  Storage(存储)    操作系统  :
    两个 1.92TB M.2 NVMe 驱动器
    内部存储 :
    15TB (4 个 3.84TB) U.2 NVMe 驱动器
    操作系统  :
    两个 1.92TB M.2 NVMe 驱动器
    内部存储 :
    30TB (8 个 3.84TB)U.2 NVMe 驱动器
  Software(软件)    Ubuntu  Linux 操作系统
    同时支持 :
    Red Hat Enterprise Linux
    CentOS
  System Weight(系统重量)123.16 千克

  Packaged System Weight

  (包装后系统重量)

163.16 千克

  System Dimensions

  (系统尺寸)

高度  :264.0 毫米
    宽度 :482.3 毫米
    长度 :897.1 毫米

  Operating Temperature Range

  (运行温度范围)

5-30  ºC



更快的加速体验

NVIDIA DGX A100 配备八个 NVIDIA A100 Tensor Core GPU,可实现出色的加速性能,且已针对 NVIDIA CUDA-X ™ 软件和端到端 NVIDIA 数据中心解决方案堆栈进行全面优化。NVIDIA A100 GPU 引入了全新精度 Tensor Float 32 (TF32),该精度与 FP32 的原理类似,但与前一代相比,可面向 AI 提供高达20 倍的每秒浮点运算次数 (FLOPS)。最重要的是,实现此类加速无需更改任何代码。此外,在使用含FP16 的 NVIDIA 自动混合精度时,A100 仅增加一行代码,即可将性能再提升两倍。

A100 80GB GPU 将高带宽显存从 40GB (HBM) 增加一倍至 80GB (HBM2e),其 GPU 显存带宽超过 2TB/s,比 A100 40GB GPU 增加了30%。DGX A100 还推出了速度比上一代产品高出一倍的全新 NVIDIA NVSwitch ™ 以及第三代 NVIDIA® NVLink®技术,后者可将 GPU 间的直连带宽增加一倍至600GB/s,几乎相当于 PCIe 4.0 的十倍。这一强大功能可大幅缩短问题解决时间,让用户能够应对此前无法解决的难题。

更安全的企业AI系统

NVIDIA DGX A100 采用多层级架构保护所有主要的软硬件组件,确保 AI 企业处于稳定的安全状态。DGX A100 内置安全机制,覆盖基板管理控制器 (BMC)、CPU 载板、GPU 载板、自加密驱动和安全启动,可帮助 IT 人员专注于 AI 操作,而不必花时间评估和应对安全威胁。

联合 Mellanox 提供超强的数据中心可扩展性

NVIDIA DGX A100 配备所有 DGX 系统中速度领先的I/O 架构,是 NVIDIA DGX SuperPOD ™ 等大型 AI 集群的基础构件,而后者为可扩展的 AI 基础架构描绘了企业蓝图。DGX A100 具有八个用于实现集群的单端口NVIDIA Mellanox® ConnectX® -6 VPI HDR InfiniBand 适配器,以及多达两个用于存储和网络连接的双端口ConnectX-6 VPI 以太网适配器,二者的速度均可达到200Gb/s。借助大规模 GPU 加速计算与精尖网络硬件和软件优化的强强联合,DGX A100 可扩展至数百乃至数千个节点,从而攻克对话式 AI 和大规模图像分类等更艰巨的挑战。

与可信的数据中心领军者一起构建可靠的基础设施解决方案

通过与领先的存储和网络技术供应商的合作,我们提供了一系列结合了NVIDIA DGX POD™参考体系架构优点的基础设施解决方案。通过NVIDIA NPN 合作伙伴思腾合力,这些解决方案可打包为完全集成的、随时可以部署的产品级交付,使数据中心 AI 部署更简单和快速。

电话咨询
在线地图