TechSpace 鐵客空間

每日科技新聞新知、硬體開箱評測、賣場優惠!

AMD Instinct MI300X AI GPU 加速器發表,比 NVIDIA H100 快 60%

AMD Instinct MI300X 正式發布,該 AI GPU 加速器的性能比 NVIDIA 的 H100 高出多達 60%​​。
AMD Instinct MI300X

AMD Instinct MI300X 正式發表

今凌晨,AMD Instinct MI300X 正式發布,作為 Instinct MI300 系列 AI 加速器的一部分,這系列加速器是另一款基於晶片堆疊設計的強大產品,利用台積電的先進封裝技術。

AMD Instinct MI300X Launch

在設計方面,MI300X 主要連接器採被動晶片設計,該晶片包含使用第四代 Infinity Fabric 解決方案,連接器共包括 28 個晶片,其中包括八個 HBM3 封裝、16 個位於 HBM 封裝之間的虛擬晶片,以及四個活動晶片,每個活動晶片都配有兩個運算晶片。

AMD Instinct MI300X 2

每個基於 CDNA 3 GPU 架構的 GCD 都具有 40 個計算單元,相當於 2560 個核心,總共有八組計算晶片(GCD),因此總計 320 個計算單元或 20,480 個核心單元。但為了提高產量,AMD 將縮減這些核心的一小部分,我們將看到總共 304 個計算單元(每個 GPU 晶片 38 個 CUs)啟用,總共 19,456 個流處理器。

記憶體方面,MI300X 比其前身 MI250X(128 GB)提高 50% HBM3 容量,而為了實現 192GB 記憶體,AMD 為 MI300X 配備 8 個 HBM3 堆疊,每個堆疊為 12-Hi,並整合 16Gb ICs,每個 IC 提供 2GB 容量,或每個堆疊 24 GB。

記憶體將提供高達 5.3 TB/s 的頻寬和 896 GB/s 的 Infinity Fabric 頻寬。作為比較,NVIDIA 即將推出的 H200 AI 加速器提供 141GB 容量,而 Intel 的 Gaudi 3 將提供 144GB 容量。在大多數受記憶體限制的大型語言模型(LLM)中,大型記憶體容量就非常重要,AMD 可通過在記憶體領先來展示其人工智慧實力。作為比較:

  • Instinct MI300X – 192GB HBM3
  • Gaudi 3 – 144GB HBM3
  • H200 – 141GB HBM3e
  • MI300A – 128GB HBM3
  • MI250X – 128GB HBM2e
  • H100 – 96GB HBM3
  • Gaudi 2 – 96GB HBM2e

在功耗方面,MI300X 表定功率為 750W,比 Instinct MI250X 的 500W 增加了 50%,也比 NVIDIA H200 多 50W。

AMD 也公布了 MI300X 的首批效能測試基準,顯示其 CDNA 3 加速器相較於對手 NVIDIA H100 有以下優勢:

  • 記憶體容量高出 2.4 倍
  • 記憶體頻寬高出 1.6 倍
  • FP8 TFLOPS 性能高出 1.3 倍
  • FP16 TFLOPS 性能高出 1.3 倍
  • 在 Llama 2 70B 和 FlashAttention 2 的 1 對 1 比較中,速度快 20%
  • 在 8 對 8 伺服器中,Llama 2 70B 快 40%,Bloom 176B 快 60%​

在一般 LLM Kernel TFLOPS 方面,MI300X 在 FlashAttention-2 和 Llama 2 70B 上的性能提升高達 20%。從平台角度來看,將 8x MI300X 解決方案與 8X H100 解決方案相比,Llama 2 70B 的性能提升達 40%,Bloom 176B 提升達 60%​​。

AMD Instinct MI300 MI300X Launch 7

AMD 提到,在訓練性能方面,MI300X 與競爭對手(H100)不相上下,但在價格 / 性能比方面具有競爭力,同時在推斷工作負載方面也表現出色。

MI300 加速器背後的驅動力是 ROCm 6.0,這款軟體已更新至最新版本,包含支援各種 AI 工作負載(如生成式 AI 和大型語言模型)的強大新功能​​。該軟體也支援最新的計算格式,如 FP16、Bf16 和 FP8,這些優化組合帶來高達 2.6 倍的 vLLM 加速、HIP Graph 中經過優化的執行時速度提升 1.4 倍,以及通過優化核心的 Flash Attention 加速 1.3 倍。

ROCm 6 預計在本月晚些時候與 MI300 AI 加速器一起推出,屆時將看到 ROCm 6 與 NVIDIA 最新版本的 CUDA 的比較,後者是其真正的競爭對手​​。

AMD Instinct MI300 MI300X Launch 5

另一方面,儘管包含 Oracle、Dell、Meta 和 OpenAI 等廠商都已宣布將採用 MI300 系列晶片到自家系統,AMD 也要注意 NVIDIA 這邊其實也已經全面將主線放到 AI 上備戰,Hopper H200 和 Blackwell B100 都已經在準備中,Intel 也在準備 Guadi 3 和 Falcon Shores GPU,AI 戰場目前仍是烽火連天。

AMD Radeon Instinct 加速器對照表

名稱AMD INSTINCT MI400AMD INSTINCT MI300AMD INSTINCT MI250XAMD INSTINCT MI250AMD INSTINCT MI210AMD INSTINCT MI100AMD RADEON INSTINCT MI60AMD RADEON INSTINCT MI50AMD RADEON INSTINCT MI25AMD RADEON INSTINCT MI8AMD RADEON INSTINCT MI6
CPU架構Zen 5 (Exascale APU)Zen 4 (Exascale APU)N/AN/AN/AN/AN/AN/AN/AN/AN/A
GPU架構CDNA 4Aqua Vanjaram (CDNA 3)Aldebaran (CDNA 2)Aldebaran (CDNA 2)Aldebaran (CDNA 2)Arcturus (CDNA 1)Vega 20Vega 20Vega 10Fiji XTPolaris 10
GPU製程4nm5nm+6nm6nm6nm6nm7nm FinFET7nm FinFET7nm FinFET14nm FinFET28nm14nm FinFET
GPU晶片組待定8 (MCM)2 (MCM)1 (每片)2 (MCM)1 (每片)2 (MCM)1 (每片)1 (單體)1 (單體)1 (單體)1 (單體)1 (單體)1 (單體)
GPU核心待定最多19,45614,08013,3126656768040963840409640962304
GPU時脈速度待定待宣布1700 MHz1700 MHz1700 MHz1500 MHz1800 MHz1725 MHz1500 MHz1000 MHz1237 MHz
FP16運算待定待宣布383 TOPs362 TOPs181 TOPs185 TFLOPs29.5 TFLOPs26.5 TFLOPs24.6 TFLOPs8.2 TFLOPs5.7 TFLOPs
FP32運算待定待宣布95.7 TFLOPs90.5 TFLOPs45.3 TFLOPs23.1 TFLOPs14.7 TFLOPs13.3 TFLOPs12.3 TFLOPs8.2 TFLOPs5.7 TFLOPs
FP64運算待定待宣布47.9 TFLOPs45.3 TFLOPs22.6 TFLOPs11.5 TFLOPs7.4 TFLOPs6.6 TFLOPs768 GFLOPs512 GFLOPs384 GFLOPs
記憶體待定192 GB HBM3128 GB HBM2e128 GB HBM2e64 GB HBM2e32 GB HBM232 GB HBM216 GB HBM216 GB HBM24 GB HBM116 GB GDDR5
記憶體時脈待定5.2 Gbps3.2 Gbps3.2 Gbps3.2 Gbps1200 MHz1000 MHz1000 MHz945 MHz500 MHz1750 MHz
記憶體匯流排待定8192位元8192位元8192位元4096位元4096位元匯流排4096位元匯流排4096位元匯流排2048位元匯流排4096位元匯流排256位元匯流排
記憶體頻寬待定5.3 TB/s3.2 TB/s3.2 TB/s1.6 TB/s1.23 TB/s1 TB/s1 TB/s484 GB/s512 GB/s224 GB/s
插槽形式待定OAMOAMOAM雙插槽卡片雙插槽,全長雙插槽,全長雙插槽,全長雙插槽,全長雙插槽,半長單插槽,全長
冷卻方式待定被動冷卻被動冷卻被動冷卻被動冷卻被動冷卻被動冷卻被動冷卻被動冷卻被動冷卻被動冷卻
最大功耗(TDP)待定750W560W500W300W300W300W300W300W175W150W

歡迎加入我們的 Facebook 粉絲團,隨時掌握最新消息!
喜歡看圖說故事的話,也可以追蹤 Instagram 專頁!
我們也有 Google News 可以隨時 follow!

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *