NVIDIA 押注 AI 推理新戰場:Vera Rubin 聯手 Groq 3 LPX,10 年算力爆增 4000 萬倍

從 GPU 到 LPU:NVIDIA 用 200 億美元買下推理市場入場券
在 2026 年 GTC 大會上,NVIDIA 正式宣布 Vera Rubin 平台全面投入生產,搭載 7 顆全新晶片,矢志擴展全球最大 AI 工廠的運算規模。黃仁勳更發下豪語:「Vera Rubin 是一次跨世代的躍進,7 顆突破性晶片、5 種機架,構成一台巨大的超級電腦,為 AI 的每個階段提供動力。」
從整體來看,NVIDIA 在過去十年累積了高達 4000 萬倍的算力成長,這個數字不只是一個行銷口號,而是代表著從訓練到推理、從資料中心到代理式 AI(Agentic AI),整個生態系翻天覆地的演進。
在低延遲推理領域,過去一直由 Cerebras、SambaNova 以及 Groq 等一批精品晶片廠商所主導,NVIDIA 從未佔有先機。如今,這一局面正在翻轉。
NVIDIA 在大約兩個月前以 200 億美元收購了新創公司 Groq 的智慧財產權與核心人才,而 Groq 的語言處理單元(LPU)已正式投入生產,並整合進 Vera Rubin 完整架構之中。Groq 由前 Google 工程師所創立,這批人正是當年打造張量處理器(TPU)的原班人馬,在 AI 推理加速領域有深厚積累。
在 GTC 2026 上,NVIDIA 發表了全新的 Vera Rubin 混合運算托架 Groq 3 LPX,每個托架內建 8 顆 Groq 3 LPU,黃仁勳表示,Rubin 與 Groq LPX 托架組合後,總 AI 推理算力可達到 315 PFLOPs。這是 NVIDIA 應對 Cerebras 等競爭對手在推理市場發起挑戰的最直接回應。
Rubin GPU 規格揭秘:288GB HBM4、50 PFLOPs 的怪獸級性能
Vera Rubin 計算托架採用全液冷設計,使用 45°C 熱水冷卻,大幅降低資料中心的冷卻壓力,安裝時間也從原本的 2 天縮短至僅需 2 小時。


在核心硬體規格方面,每顆 NVIDIA Rubin GPU 搭載 288GB 的 HBM4 記憶體,提供高達 22 TB/s 的總頻寬以及 50 PFLOPs 的 NVFP4 運算效能。相比之下,每顆 Groq 3 LPU 則走的是截然不同的技術路線,每顆 Groq 3 LPU 內建 500MB 的 SRAM,雖然容量僅是 Rubin GPU 的數百分之一,但 SRAM 頻寬高達 150 TB/s,遠超 Rubin GPU HBM4 的 22 TB/s。
這種記憶體架構的差異,恰恰是兩種晶片能夠互補的關鍵所在。大型語言模型(LLM)的推理分為兩個階段:計算密集的「預填充(prefill)」階段負責處理輸入提示,以及頻寬密集的「解碼(decode)」階段負責生成回應。Rubin GPU 負責計算密集的提示處理,而 LPU 則高速輸出 token。
Groq 3 LPX 機架:AI 工廠的新型推理引擎
Groq 3 LPX 機架搭載 256 顆 LPU 處理器,內建 128GB 的晶片上 SRAM,並提供 640 TB/s 的擴展頻寬。與 Vera Rubin NVL72 共同部署後,Rubin GPU 和 LPU 能夠協同運算 AI 模型中的每一層、每一個輸出 token。

當 LPX 與 Vera Rubin 搭配使用時,兆參數模型的每百萬瓦特推理吞吐量可提升高達 35 倍,同時為 AI 服務提供商帶來最多 10 倍的營收機會。更具體地說,Groq 3 LPX 機架與 Rubin NVL72 系統組合後,客戶在 1 兆參數 GPT 模型、400K 上下文視窗的條件下,每生成 100 萬個 token 的費用僅需 45 美元。
隨著生成速度逼近每位用戶每秒 1000 個 token,AI 模型正從對話速度的互動,邁向「思維速度」的運算境界,讓 AI 系統得以持續推理、模擬與回應,創造出更接近即時協作的體驗。
NVL72 一體超級電腦:訓練、推理全包辦
Vera Rubin NVL72 是最新一代 AI 工廠的核心機架運算引擎,整合了 72 顆 NVIDIA Rubin GPU 與 36 顆 NVIDIA Vera CPU,透過大型 NVLink 銅製背板相互連接,運作如同一台巨型 GPU。
與上一代 Blackwell 平台相比,Vera Rubin NVL72 在訓練混合專家(MoE)模型時,僅需四分之一的 GPU 數量,推理效能則提升至每瓦特 10 倍,token 成本降至十分之一。對於需要兼顧訓練與推理效率的超大規模雲端業者而言,這是相當具說服力的升級動力。
此外,NVIDIA 也發表了專屬的 Vera CPU 機架,搭載 256 顆 Vera CPU,連接 400TB 的 LPDDR5x 記憶體,提供 300 TBps 的頻寬,可同時維持 22,500 個 CPU 並行環境,專門因應代理式 AI 與強化學習的龐大運算需求。
Vera Rubin 平台共涵蓋 7 顆全新晶片:Vera(CPU)、Rubin(GPU)、CX9(連接)、BlueField-4(DPU)、NVLink-6 Switch(內連)、Spectrum-X CPO(光學)以及 Groq 3(LPU),全面投入量產。

市場接受度方面,黃仁勳在主題演講中表示,他預期 Blackwell 和 Vera Rubin 的採購訂單總額將在 2027 年前突破 1 兆美元,比去年預估的 5000 億美元整整翻倍。包含 AWS、Google Cloud、Microsoft Azure、Oracle 等主要雲端供應商,以及 CoreWeave、Dell、HPE、Lenovo、Supermicro 等合作夥伴,都將在今年下半年起陸續提供 Vera Rubin 相關產品與服務。目前,第一套 Vera Rubin 系統已在 Microsoft Azure 雲端平台上運行。


此外,NVIDIA 的腳步並未停在 Vera Rubin。黃仁勳在主題演講中也預告代號 Feynman 的下一代架構,預計於 2028 年推出,屆時將搭載全新 GPU 和 LPU,以及一顆名為 Rosa 的新世代 CPU。從 Vera Rubin 到 Feynman,NVIDIA 正在為 AI 算力的持續進化預先佈局。
對整個 AI 產業而言,Vera Rubin 與 Groq 3 LPX 的正式登場,不只是一次硬體升級,更是一個清晰的訊號:AI 推理的競爭才剛要白熱化,而 NVIDIA 已搶先站上制高點。

TechSpace 鐵客空間網站編輯,圈內打滾多年,要說是貓奴、狗奴才也是,喜歡科技新品、看開箱,但也喜歡打遊戲的宅宅
歡迎加入我們的 Facebook 粉絲團,隨時掌握最新消息!
喜歡看圖說故事的話,也可以追蹤 Instagram 專頁!
我們也有 Threads 可以隨時 follow!
