1
1
今凌晨,AMD Instinct MI300X 正式發布,作為 Instinct MI300 系列 AI 加速器的一部分,這系列加速器是另一款基於晶片堆疊設計的強大產品,利用台積電的先進封裝技術。
在設計方面,MI300X 主要連接器採被動晶片設計,該晶片包含使用第四代 Infinity Fabric 解決方案,連接器共包括 28 個晶片,其中包括八個 HBM3 封裝、16 個位於 HBM 封裝之間的虛擬晶片,以及四個活動晶片,每個活動晶片都配有兩個運算晶片。
每個基於 CDNA 3 GPU 架構的 GCD 都具有 40 個計算單元,相當於 2560 個核心,總共有八組計算晶片(GCD),因此總計 320 個計算單元或 20,480 個核心單元。但為了提高產量,AMD 將縮減這些核心的一小部分,我們將看到總共 304 個計算單元(每個 GPU 晶片 38 個 CUs)啟用,總共 19,456 個流處理器。
記憶體方面,MI300X 比其前身 MI250X(128 GB)提高 50% HBM3 容量,而為了實現 192GB 記憶體,AMD 為 MI300X 配備 8 個 HBM3 堆疊,每個堆疊為 12-Hi,並整合 16Gb ICs,每個 IC 提供 2GB 容量,或每個堆疊 24 GB。
記憶體將提供高達 5.3 TB/s 的頻寬和 896 GB/s 的 Infinity Fabric 頻寬。作為比較,NVIDIA 即將推出的 H200 AI 加速器提供 141GB 容量,而 Intel 的 Gaudi 3 將提供 144GB 容量。在大多數受記憶體限制的大型語言模型(LLM)中,大型記憶體容量就非常重要,AMD 可通過在記憶體領先來展示其人工智慧實力。作為比較:
在功耗方面,MI300X 表定功率為 750W,比 Instinct MI250X 的 500W 增加了 50%,也比 NVIDIA H200 多 50W。
AMD 也公布了 MI300X 的首批效能測試基準,顯示其 CDNA 3 加速器相較於對手 NVIDIA H100 有以下優勢:



在一般 LLM Kernel TFLOPS 方面,MI300X 在 FlashAttention-2 和 Llama 2 70B 上的性能提升高達 20%。從平台角度來看,將 8x MI300X 解決方案與 8X H100 解決方案相比,Llama 2 70B 的性能提升達 40%,Bloom 176B 提升達 60%。
AMD 提到,在訓練性能方面,MI300X 與競爭對手(H100)不相上下,但在價格 / 性能比方面具有競爭力,同時在推斷工作負載方面也表現出色。
MI300 加速器背後的驅動力是 ROCm 6.0,這款軟體已更新至最新版本,包含支援各種 AI 工作負載(如生成式 AI 和大型語言模型)的強大新功能。該軟體也支援最新的計算格式,如 FP16、Bf16 和 FP8,這些優化組合帶來高達 2.6 倍的 vLLM 加速、HIP Graph 中經過優化的執行時速度提升 1.4 倍,以及通過優化核心的 Flash Attention 加速 1.3 倍。



ROCm 6 預計在本月晚些時候與 MI300 AI 加速器一起推出,屆時將看到 ROCm 6 與 NVIDIA 最新版本的 CUDA 的比較,後者是其真正的競爭對手。
另一方面,儘管包含 Oracle、Dell、Meta 和 OpenAI 等廠商都已宣布將採用 MI300 系列晶片到自家系統,AMD 也要注意 NVIDIA 這邊其實也已經全面將主線放到 AI 上備戰,Hopper H200 和 Blackwell B100 都已經在準備中,Intel 也在準備 Guadi 3 和 Falcon Shores GPU,AI 戰場目前仍是烽火連天。
AMD Radeon Instinct 加速器對照表
| 名稱 | AMD INSTINCT MI400 | AMD INSTINCT MI300 | AMD INSTINCT MI250X | AMD INSTINCT MI250 | AMD INSTINCT MI210 | AMD INSTINCT MI100 | AMD RADEON INSTINCT MI60 | AMD RADEON INSTINCT MI50 | AMD RADEON INSTINCT MI25 | AMD RADEON INSTINCT MI8 | AMD RADEON INSTINCT MI6 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| CPU架構 | Zen 5 (Exascale APU) | Zen 4 (Exascale APU) | N/A | N/A | N/A | N/A | N/A | N/A | N/A | N/A | N/A |
| GPU架構 | CDNA 4 | Aqua Vanjaram (CDNA 3) | Aldebaran (CDNA 2) | Aldebaran (CDNA 2) | Aldebaran (CDNA 2) | Arcturus (CDNA 1) | Vega 20 | Vega 20 | Vega 10 | Fiji XT | Polaris 10 |
| GPU製程 | 4nm | 5nm+6nm | 6nm | 6nm | 6nm | 7nm FinFET | 7nm FinFET | 7nm FinFET | 14nm FinFET | 28nm | 14nm FinFET |
| GPU晶片組 | 待定 | 8 (MCM) | 2 (MCM)1 (每片) | 2 (MCM)1 (每片) | 2 (MCM)1 (每片) | 1 (單體) | 1 (單體) | 1 (單體) | 1 (單體) | 1 (單體) | 1 (單體) |
| GPU核心 | 待定 | 最多19,456 | 14,080 | 13,312 | 6656 | 7680 | 4096 | 3840 | 4096 | 4096 | 2304 |
| GPU時脈速度 | 待定 | 待宣布 | 1700 MHz | 1700 MHz | 1700 MHz | 1500 MHz | 1800 MHz | 1725 MHz | 1500 MHz | 1000 MHz | 1237 MHz |
| FP16運算 | 待定 | 待宣布 | 383 TOPs | 362 TOPs | 181 TOPs | 185 TFLOPs | 29.5 TFLOPs | 26.5 TFLOPs | 24.6 TFLOPs | 8.2 TFLOPs | 5.7 TFLOPs |
| FP32運算 | 待定 | 待宣布 | 95.7 TFLOPs | 90.5 TFLOPs | 45.3 TFLOPs | 23.1 TFLOPs | 14.7 TFLOPs | 13.3 TFLOPs | 12.3 TFLOPs | 8.2 TFLOPs | 5.7 TFLOPs |
| FP64運算 | 待定 | 待宣布 | 47.9 TFLOPs | 45.3 TFLOPs | 22.6 TFLOPs | 11.5 TFLOPs | 7.4 TFLOPs | 6.6 TFLOPs | 768 GFLOPs | 512 GFLOPs | 384 GFLOPs |
| 記憶體 | 待定 | 192 GB HBM3 | 128 GB HBM2e | 128 GB HBM2e | 64 GB HBM2e | 32 GB HBM2 | 32 GB HBM2 | 16 GB HBM2 | 16 GB HBM2 | 4 GB HBM1 | 16 GB GDDR5 |
| 記憶體時脈 | 待定 | 5.2 Gbps | 3.2 Gbps | 3.2 Gbps | 3.2 Gbps | 1200 MHz | 1000 MHz | 1000 MHz | 945 MHz | 500 MHz | 1750 MHz |
| 記憶體匯流排 | 待定 | 8192位元 | 8192位元 | 8192位元 | 4096位元 | 4096位元匯流排 | 4096位元匯流排 | 4096位元匯流排 | 2048位元匯流排 | 4096位元匯流排 | 256位元匯流排 |
| 記憶體頻寬 | 待定 | 5.3 TB/s | 3.2 TB/s | 3.2 TB/s | 1.6 TB/s | 1.23 TB/s | 1 TB/s | 1 TB/s | 484 GB/s | 512 GB/s | 224 GB/s |
| 插槽形式 | 待定 | OAM | OAM | OAM | 雙插槽卡片 | 雙插槽,全長 | 雙插槽,全長 | 雙插槽,全長 | 雙插槽,全長 | 雙插槽,半長 | 單插槽,全長 |
| 冷卻方式 | 待定 | 被動冷卻 | 被動冷卻 | 被動冷卻 | 被動冷卻 | 被動冷卻 | 被動冷卻 | 被動冷卻 | 被動冷卻 | 被動冷卻 | 被動冷卻 |
| 最大功耗(TDP) | 待定 | 750W | 560W | 500W | 300W | 300W | 300W | 300W | 300W | 175W | 150W |
歡迎加入我們的 Facebook 粉絲團,隨時掌握最新消息!
喜歡看圖說故事的話,也可以追蹤 Instagram 專頁!
我們也有 Threads 可以隨時 follow!