NVIDIA 推出 Nemotron 3 Super:開源自主 AI 模型,吞吐量提升 5 倍、百萬 Token 上下文視窗

開源 AI 再進化,NVIDIA Nemotron 3 Super 正式登場
在生成式 AI 浪潮席捲全球的當下,大型語言模型(LLM)的競爭早已不只是參數數量的比拼,而是進化到「代理 AI(Agentic AI)」的實用戰場。在開源 AI 模型領域,除了中國 AI 實驗室 Kimi 和 Qwen 之外,NVIDIA 的 Nemotron 系列其實長期在這個賽道上佔有舉足輕重的地位。而就在近日,NVIDIA 正式推出旗艦開源模型 Nemotron 3 Super,以一記重拳全面升級代理 AI 的應用能耐。
Nemotron 3 Super 是一款擁有 1200 億參數的開源模型,推理時僅需啟動其中 120 億個活躍參數,專為大規模運行複雜代理 AI 系統而設計。這種設計讓它在效率與精準度之間取得了絕佳平衡,既不浪費算力,又能在自主任務中保持高水準表現。
Nemotron 3 Super 最引人注目的技術亮點,在於 NVIDIA 獨特的混合 Mamba-MoE 架構。與傳統 MoE 模型相比,Mamba 是一項令人印象深刻的創新實作,其核心概念在於 NVIDIA 改變了 LLM 解讀資料流的方式,透過狀態空間模型(SSM),Mamba 以線性方式讀取資料,有效避免上下文視窗無限膨脹、納入無關資訊的問題,讓模型始終維持最佳工作狀態。
這套架構同時融合了四大技術突破:Mamba 層帶來 4 倍的記憶體與運算效率提升;混合專家機制(MoE)讓 1200 億參數中每次推理只需啟用 120 億個;Latent MoE 新技術以啟動一位專家的成本同時激活四位專家,大幅提升精準度;Multi-Token Prediction 技術則可同時預測多個未來詞彙,推理速度加快達 3 倍。
在代理 AI 系統的實際應用中,有一個惱人的老問題:隨著任務愈來愈長、對話歷程愈堆愈多,模型往往會逐漸偏離最初設定的目標,業界稱之為「目標漂移(Goal Drift)」。多代理系統所產生的 Token 數量,最高可達標準對話的 15 倍,因為每一輪都必須重新傳送歷史記錄、工具輸出與推理步驟,這種「上下文爆炸」正是目標漂移的根源。
Nemotron 3 Super 配備高達 100 萬 Token 的超大上下文視窗,是 Kimi 2.5 的 4 倍之大,讓模型得以將完整的工作流程狀態保留在記憶體中。即便是跨越數百個步驟的超長任務,代理也不會因為「忘記初衷」而跑偏,大幅提升了複雜自主任務的可靠性。
NVIDIA 在專門用於評估代理工作負載的 PinchBench 測試集上對 Nemotron 3 Super 進行了全面測試,該模型在完整測試套件中取得了 85.6% 的高分,超越了 Opus 4.5、Kimi 2.5 和 GPT-OSS 120b。與前一代 Nemotron Super 相比,Nemotron 3 Super 的吞吐量提升最高達 5 倍,準確率則提升最高達 2 倍。獨立 AI 評測機構 Artificial Analysis 更將其列為同等規模模型中「開放性最高、效率最佳」的代表,在準確度上也同樣名列前茅。
而一款模型的實力往往從誰選擇使用它就能看出端倪,Perplexity 已將 Nemotron 3 Super 整合進其搜尋與模型調度系統;CodeRabbit、Factory 和 Greptile 則用它來強化軟體開發代理的準確度;生命科學領域的 Edison Scientific 和 Lila Sciences 也將其應用於深度文獻搜尋與分子分析。
企業端方面,Amdocs、Palantir、Cadence、Dassault 和 Siemens 等大型平台,則分別針對電信、網路安全、半導體設計及製造工作流程進行客製化部署。雲端服務方面,Nemotron 3 Super 可透過 Google Cloud 的 Vertex AI 和 Oracle Cloud Infrastructure 存取,未來也即將登陸 Amazon Web Services 的 Bedrock 平台以及 Microsoft Azure。
有別於許多閉源商業模型,NVIDIA 這次選擇走完全透明的開源路線。NVIDIA 不只是釋出模型權重,而是將整個技術堆疊完全開源,包括訓練資料集、函式庫以及強化學習環境。這意味著開發者不只可以使用這個模型,更可以深入了解它是怎麼「長大」的,進而針對特定場景進行精準微調。
Nemotron 3 Super 支援 vLLM、SGLang、Ollama 和 llama.cpp 等主流開源框架,可在任何 NVIDIA GPU 上部署,從邊緣運算裝置到雲端資料中心皆適用。目前已可在 build.nvidia.com、Perplexity、OpenRouter 和 Hugging Face 上取得。
Nemotron 3 家族共分三個規格:Nano 是 300 億參數的輕量模型,專為軟體除錯、內容摘要等高效率任務優化;Super 是約 1000 億參數的高精準推理模型,適合多代理應用;Ultra 則是擁有約 5000 億參數的龐大推理引擎,針對需要深度研究與策略規劃的複雜 AI 工作流程所設計。
三個規格各自補位、相輔相成,讓開發者可以根據任務需求彈性選用最合適的模型,無論是在單一 GPU 上跑輕量任務,還是在多 GPU 資料中心執行超大規模推理,都能找到對應的解決方案。
*本文首圖由 AI 生成
延伸閱讀

TechSpace 鐵客空間網站編輯,圈內打滾多年,要說是貓奴、狗奴才也是,喜歡科技新品、看開箱,但也喜歡打遊戲的宅宅
歡迎加入我們的 Facebook 粉絲團,隨時掌握最新消息!
喜歡看圖說故事的話,也可以追蹤 Instagram 專頁!
我們也有 Threads 可以隨時 follow!
