NVIDIA H200 Tensor 核心 GPU

大幅強化人工智慧和高效能運算工作負載。

現已上市。

產品規格表 | 規格

適用於生成式人工智慧和高效能運算的顯示卡

NVIDIA H200 Tensor 核心 GPU 具備顛覆以往的效能和記憶體功能,可大幅強化生成式人工智慧和高效能運算工作負載。H200 是第一款搭載 HBM3e 的 GPU,更大更快的記憶體可加速生成式人工智慧和大型語言模型 (LLM),同時強化高效能運算工作負載的科學運算。

NVIDIA 大幅提升全球頂尖人工智慧運算平台 Hopper

NVIDIA HGX H200 搭載 NVIDIA H200 Tensor 核心顯示卡與先進記憶體,可處理生成式人工智慧和高效能運算工作負載的大量資料。

重點

體驗效能的全新境界

LLama2 70B 推論

1.9 倍速度提升

GPT3-175B 推論

1.6 倍速度提升

高效能運算

110 倍速度提升

優勢

記憶體容量更大、速度更快,效能更高

NVIDIA H200 採用 NVIDIA Hopper 架構,是第一款能以每秒 4.8 TB 的速度提供 141 GB HBM3e 記憶體的 GPU,容量幾乎是 NVIDIA H100 Tensor 核心 GPU 的兩倍,記憶體頻寬則提升 1.4 倍。H200 更大、更快的記憶體能加速生成式人工智慧和 LLM,同時提升高效能運算工作負載的科學運算,而且能源效率更高、總體擁有成本更低。

此為初步測得的效能,後續可能有更新資訊。
Llama2 13B: ISL 128, OSL 2K | Throughput | H100 SXM 1x GPU BS 64 | H200 SXM 1x GPU BS 128
GPT-3 175B: ISL 80, OSL 200 | x8 H100 SXM GPUs BS 64 | x8 H200 SXM GPUs BS 128
Llama2 70B: ISL 2K, OSL 128 | Throughput | H100 SXM 1x GPU BS 8 | H200 SXM 1x GPU BS 32.

透過高效能 LLM 推論取得洞察

隨著人工智慧不斷演進,企業仰賴 LLM 來因應各種推論需求。龐大的使用者進行大規模部署 AI 推論加速器時,必須運用最低的整體擁有成本 (TCO) 達到最高的傳輸量。

與 H100 GPU 相比,H200 在處理 Llama2 70B 等大型語言模型時,可將推論效能大幅提升到最高 2 倍。

大幅強化高效能運算

記憶體頻寬是高效能運算的關鍵,因為這能加快資料傳輸的速度,以及減少複雜的處理瓶頸。在模擬、科學研究、人工智慧等記憶體密集型的高效能運算應用方面,H200 的記憶體頻寬較高,可以保障資料存取和操作效率,因此取得結果的速度與 CPU 相比提升達 110 倍。

此為初步測得的效能,後續可能有更新資訊。
HPC MILC- dataset NERSC Apex Medium | HGX H200 4-GPU | dual Sapphire Rapids 8480
HPC Apps- CP2K: dataset H2O-32-RI-dRPA-96points | GROMACS: dataset STMV | ICON: dataset r2b5 | MILC: dataset NERSC Apex Medium | Chroma: dataset HMC Medium | Quantum Espresso: dataset AUSURF112 | 1x H100 | 1x H200.

此為初步測得的效能,後續可能有更新資訊。
Llama2 70B: ISL 2K, OSL 128 | Throughput | H100 1x GPU BS 8 | H200 1x GPU BS 32

降低能耗與整體擁有成本 (TCO)

隨著 H200 的推出,能源效率和整體擁有成本 達到新高。這項尖端技術提供無與倫比的效能,並且與 H100 Tensor Core GPU 使用相同的功耗設定。人工智慧工廠和超級運算系統不僅更快速,也更環保,所具備的經濟優勢可以推動人工智慧和科學界持續進步。

為主流企業伺服器釋放人工智慧加速功能

NVIDIA H200 NVL 非常適合需要靈活配置的低功耗、氣冷企業機架設計,能為任何規模的 AI 和 HPC 工作負載提供加速。NVIDIA NVLink™ 連結最多四款 GPU,記憶體提升 1.5 倍,大型語言模型 (LLM) 推論速度可提升 1.7 倍,高效能運算應用比 H100 NVL 提升 1.3 倍。

適用於企業:人工智慧軟體可簡化開發和部署的流程

NVIDIA H200 隨附五年 NVIDIA AI Enterprise 訂閱,可簡化人工智慧平台的建構過程,進而加速可用於實際生產環境的生成式人工智慧解決方案的開發與部署,包括電腦視覺、語音人工智慧、檢索增強生成 (RAG) 等技術。NVIDIA AI Enterprise 包含 NVIDIA NIM ,是一種易於使用的微服務,可以加快部署企業生成式人工智慧,帶來企業級安全性、管理能力、穩定度和支援服務,以便更快速地收集實用的洞察,並加速實現有形商業價值。

規格

NVIDIA H200 Tensor 核心 GPU

尺寸規格 H200 SXM¹ H200 NVL¹
FP64 34 TFLOPS 30 TFLOPS
FP64 Tensor 核心 67 TFLOPS 60 TFLOPS
FP32 67 TFLOPS 60 TFLOPS
TF32 Tensor 核心² 989 TFLOPS 835 TFLOPS
BFLOAT16 Tensor 核心² 1,979 TFLOPS 1,671 TFLOPS
FP16 Tensor 核心² 1,979 TFLOPS 1,671 TFLOPS
FP8 Tensor 核心² 3,958 TFLOPS 3,341 TFLOPS
INT8 Tensor 核心² 3,958 TFLOPS 3,341 TFLOPS
GPU 記憶體 141GB 141GB
GPU 記憶體頻寬 每秒 4.8 TB 每秒 4.8TB
解碼器 7 NVDEC
7 JPEG
7 NVDEC
7 JPEG
機密運算 支援 支援
最大熱設計功耗 (TDP) 最高 700W (配置) 最高 600W (配置)
多執行個體 GPU 最多 7 個 MIGS,每個 18GB 最多 7 個 MIGS,每個16.5GB
尺寸規格 SXM PCIe
雙插槽氣冷
互連技術 NVLink:每秒 900 GB
PCIe Gen5:每秒 128 GB
2 向或 4 向 NVIDIA NVLink 橋接器: 每秒 900 GBPCIe Gen5:每秒 128 GB
伺服器選項 搭載 4 或 8 個 GPU 的 NVIDIA HGX™ H200 合作夥伴與 NVIDIA 認證系統™ 搭載最多 8 個 GPU 的 NVIDIA MGX™ H200 NVL 合作夥伴與 NVIDIA 認證系統
NVIDIA AI Enterprise 可附加 可附加

立即開始使用

當產品上市時通知我。

NVIDIA H200 Tensor 核心 GPU 規格概述