NVIDIA® Tesla® K80
就性能而言,NVIDIA® Tesla® K80 在上一代加速器的基础上实现了重大飞跃,双精度性能将近 3 TeraFLOPS (每秒浮点运算次数),内存总带宽高达 480 GB/s。相比较与 CPU,GPU 的性能 优势在 NVIDIA® Tesla® K80 身上继续增大。
- 产品概况:
就性能而言,NVIDIA® Tesla® K80 在上一代加速器的基础上实现了重大飞跃,双精度性能将近 3 TeraFLOPS (每秒浮点运算次数),内存总带宽高达 480 GB/s。相比较与 CPU,GPU 的性能 优势在 NVIDIA® Tesla® K80 身上继续增大。
就性能而言,NVIDIA® Tesla® K80 在上一代加速器的基础上实现了重大飞跃,双精度性能将近 3 TeraFLOPS (每秒浮点运算次数),内存总带宽高达 480 GB/s。相比较与 CPU,GPU 的性能 优势在 NVIDIA® Tesla® K80 身上继续增大。
GPU 架构 | NVIDIA Pascal |
单精度浮点运算能力 | 8.74 TFLOPS |
双精度浮点运算能力 | 2.91 TFLOPS |
NVIDIA® CUDA® 核心数 | 4992 |
NVIDIA® CUDA® 核心频率 | 562MHZ |
GPU 内存 | 24 GB HBM2 |
内存带宽 | 480 GB/秒 |
系统接口 | PCI Express |
最大功耗 | 300W |
互联带宽 | 32GB/s |
针对数据密集型任务的双 GPU 核心
虽然浮点性能是人们广泛关注的一个性能指标,然而现实世界中的应用性能通常受限于 GPU 数据通信速度。从 Chroma 等高性能计算代码到逆时偏移 (RTM) 等能源勘探领域中的企业算 法,数据从 GPU 内存到 GPU 之间的传输速度 (即内存带宽) 会直接影响应用性能的高低。
像 NVIDIA® Tesla® K80 这样的双 GPU 核心可提供一种更高效的途径来使内存总带宽,效率高于像 NVIDIA® Tesla® K80 这样的单 GPU 加速器。
GPU 动态提速: 为每一款应用提供最高性能
NVIDIA® Tesla® K80 中的 GPU 动态提速技术现已重新设计,以便无缝且智能地为任何特定应用提供最 快的性能。通过将核心时钟频率提升至最高水平,同时不超出 GPU 固定的功率预算,现实 世界中的应用能够实现 40% 以上的速度提升,GPU 的利用率也大大提升。
无论是 CPU 还是 GPU,每一种处理器都是针对特定功率预算而设计的,这种预算即热设计功率 (TDP)。额定的热设计功率是功率上限,NVIDIA® Tesla® K80 的热设计功率为 300W。虽然像 Linpack 这样的少数几款浮点运算密集型应用在最低时钟频率设置或基础时钟频率下会达到峰值热设计 功率,但是大多数高性能计算任务在这些设置下不会接近功率预算值。对这些应用来说, K80 能够智能地设置最佳的时钟频率,同时不超出 300W 的极限,因而能够为任务提供最快的计算速度。
双倍共享内存和寄存器可提升计算效率
NVIDIA® Tesla® K80 GPU 架构被称作 GK210,它继承了 Kepler 架构的所有优点,例如节能的 SMX、 动态并行机制以及 Hyper-Q 技术。然而 GK210 独有的一大特性是每个 SMX 的共享内存和 寄存器文件容量更大。
总容量 24 GB 的内存可满足数据密集型的 任务需求
许多高性能计算和数据分析任务需要大型模型加载到 GPU 的内存中。如果数据集无法载入 到可用的 GPU 板载内存之中,那么就需要和系统内存直接进行频繁的数据交换,应用性能 会大打折扣。
NVIDIA® Tesla® K80 是首款提供内存总容量为 24 GB 的加速器,这一容量是 NVIDIA® Tesla® K40 的两倍,比NVIDIA® Tesla® K40 以前的任何其它 GPU 大四倍。在软件中,代码必须能够运行在多个 GPU 核心上,以 便把工作任务分布到两个 12 GB 内存分区当中。