Intel Lunar Lake CPU 架構深度解析:Lion Cove 提升 14% IPC、Skymont 超越 Raptor Cove、新世代 Thread Director 支援
Intel 推出最先進、高效、突破性的 Lunar Lake SOC
Intel 推出了迄今為止最先進、高效且突破性的 SOC —— Lunar Lake,自 Intel 首次公開 Lunar Lake 以來,它就一直是各界談論的焦點。如今,該公司終於正式揭開了這款晶片的神秘面紗,讓大眾得以理解其運作原理。
Lunar Lake CPU 的設計目標很簡單,就是打造一款高效的 SOC,旨在滿足 Microsoft Copilot+ 等次世代 AI PC 平台的需求。
架構概覽
Lunar Lake SOC 有 7 個主要組件,從中介層封裝開始。該封裝承載了記憶體以及使用 Foveros 互連技術將計算磚和平台控制器結合在一起的基礎模組。另外,與 Meteor Lake 相比,Intel 在 Lunar Lake 上使用的模組數量大幅減少,這麼做是為了實現最大效率和最低延遲。至於製程方面,Lunar Lake 計算模組採用台積電的 N3B,而平台控制器晶片則使用台積電 N6 製程。
Lunar Lake 也是 Intel 首款採用封裝內記憶體的晶片,提供 16GB 和 32GB(雙排)LPDDR5X 配置,每顆晶片的速度高達 8533 MT/s。該記憶體支援 16b x4 通道,與傳統的 PCB 嵌入式設計相比,可實現 40% 的 PHY 功耗降低和 250 mm2 的面積縮小。
Lunar Lake 8 核心混合架構
在晶片的外部結構介紹完後,是時候簡要了解一下晶片的 8 核心混合設計,它仍然採用 P-Core和 E-Core 配置,每種核心各 4 個。這些核心由全新的 Thread Director 提供支援。
P-Core 將獲得經過 PPA 最佳化的核心設計,以提升單執行緒效能,每個核心擁有 2.5MB 的 L2 快取,以及高達 12MB 的共享 L3 快取。E-Core 則在同一叢集中共享 4MB 的 L2 快取,並提供兩倍的向量和 AI 吞吐量。
全新 Xe2 GPU 與 120 TOPS AI 運算能力
接下來是全新的 Xe2 GPU 內顯,它提供 8 個 Xe 核心、8 個新的光線追蹤單元、XMX 支援以及 8MB 的專用快取,還有全新的媒體和顯示能力。Lunar Lake SOC 總共增加了 120 TOPS AI 運算能力,其中 NPU 貢獻 48 TOPS,GPU 貢獶 67 TOPS,CPU 則貢獻大約 5 TOPS。
Intel 宣布,超過 20 家合作夥伴將推出 80 多款基於 Lunar Lake SOC 的設計。該公司預計在第三季度推出,並從 2024 年第四季度開始大規模上市。Intel 還宣布了一款基於 Lunar Lake SOC 的全新 AI PC 開發套件,將在同一時間範圍內推出,允許開發人員開發新的 AI PC 體驗,並針對 Lunar Lake 晶片進行微調。這款開發套件也將與未來的 CPU 相容,如 Panther Lake。
Lion Cove 核心架構:提升 14% IPC
Intel 在 Lunar Lake CPU 中採用的兩種新核心架構之一被稱為 Lion Cove,它是針對更高效能優化的「P-Core」核心。
Lion Cove 是 Meteor Lake CPU 上 Redwood P 核心的直接繼承者,旨在提供更好的效能和使用效率,並採用現代化設計資料庫,同時整體微架構也帶來 IPC 提升。
在 Lion Cove 上,Intel 改變了整個超執行緒策略。通常,你會在現代晶片上看到 SMT 支援,每個核心增加兩個執行緒。在現有的晶片上如 Meteor Lake 或 Raptor Lake,超執行緒可提供高達 +30% 的吞吐量和 +20% 的 Cdyn(在相同的 V/F 曲線下的功耗)。在混合客戶端設備上處理三種類型的排程,包括通過 P-Core(無 HT)、E-Core 叢集或 P-Core(具有 HT)處理 OS 排程。
由於 Lunar Lake 的超低功耗特性,Intel 最終決定捨棄超執行緒支援以提高效能輸出和效率,因此 Lion Cove 的最終設計取消了對 HT / SMT 的需求,Intel 基本上移除了任何不能提升處理器生產力的電晶體。
移除超執行緒邏輯並最佳化核心,相比沒有超執行緒的 CPU 在單執行緒工作負載中可帶來 +15% 的效能功耗比、+10% 的效能面積比和 +30% 的效能功耗面積比。
但這種新方法相比有超執行緒的部分仍能帶來 +5% 的效能功耗比和 +15% 的效能功耗面積比的提升,唯一的缺點是效能面積比下降 -15%。
Lion Cove 具備全新的 AI 自調節控制器,可根據即時運行條件進行散熱管理。相比之前的靜態技術,這使核心能以更高時脈運行並實現更高的持續性能。
該核心還具有更精細的時脈粒度,可在給定的核心功耗預算下提取更多效能。相比上一代晶片的 100 MHz 間隔,Lion Cove 在 16.67 MHz 間隔下可獲得 +2% 的效益。
Lion Cove P-Core IPC、效能和 Lunar Lake 行動版的效率
Lion Cove 核心架構最重要的方面是 IPC。Intel 表示相比 Redwood Cove 核心,新核心的 IPC 提高了 14%,在不同功率水準下效能都可擴展,在最低功率數字下效益最大,增幅超過 18%。此兩位數的 IPC 增長,是與前幾代相比的重大更新。
Skymont 核心架構:超越 Raptor Cove
Intel 在 Lunar Lake 中整合的第二個核心被稱為 Skymont,它是一款針對效率最佳化的 E-Core。
Skymont 是 Meteor Lake CPU 上 Crestmont 核心的直接繼承者,在效能和效率方面進行了重大更新。
Skymont 配備了更新的預測區塊,具有 128 位元組、更快的「尋找下一個」指令以及用於平行擷取的 96 條指令位元組。Skymont 還具有更寬的解碼器,包括 9 路(3×3)或比 Crestmont E-Core 多 50% 的解碼叢集、每個叢集解鎖微代碼平行性的 Nanocode,以及從 64 條目增加到 96 條目的 Uop 佇列容量。
Lunar Lake 行動版 Skymont E-Core IPC、效能和效率
Skymont E-Core 架構也可跨多個平台擴展,例如在 Lunar Lake 上用於效能效率場景的低功耗,提供更高的工作負載覆蓋範圍。
Lunar Lake 與 Meteor Lake CPU 上的 Crestmont E-Core 相比,整數(SPECrate2017_int_base est / GCC)的 IPC 估計提高了 38%、浮點數(Specrate2017_fp_base)提高 68%。
在單執行緒工作負載中可以獲得以下改進:
- 相同效能下功耗減少 2/3(與 Crestmont LP-E 相比)
- 在 ISO 下效能提高 70%(與 Crestmont LP-E 相比)
- 在峰值功耗下效能提高 2 倍(與 Crestmont LP-E 相比)
在多執行緒工作負載中:
- 相同效能下功耗減少 2/3(與 Crestmont LP-E 相比)
- 在 ISO 下效能提高 2.9 倍(與 Crestmont LP-E 相比)
- 在峰值功耗下效能提高 4 倍(與 Crestmont LP-E 相比)
全新 Thread Director 與排程優化
從 Lunar Lake CPU 開始,Intel 新增了全新的 Thread Director 升級版以更有效的利用晶片上的 P-Core 和 E-Core 核心。Thread Director 首次在 Alder Lake CPU 上引入,並擴展到 Raptor Lake,最初將高需求的工作負載排程到 P-Core,將低需求的工作負載排程到 E-Core。
然而,在其當前狀態下,已經看到 Thread Director 存在一些缺點,尤其是在遊戲場景中,轉移到 E-Core 的工作不僅更慢,而且還引入了延遲瓶頸,在切換過程中導致不必要的卡頓。為了克服這一點,某些遊戲引擎優先考慮 P-Core,甚至用戶也會選擇完全禁用 E-Core 以獲得最佳效能。
在 Meteor Lake 中,Intel 引入了其 LP-E 核心,工作負載將優先被安排於該處,而如果 Thread Director 發現工作超出容量,就會將其轉移到計算晶片上的標準 P-Core和 E-Core。
而到了 Lunar Lake 時期,Thread Director 將從 E-Core 開始執行,但對於高效能選項,則將從 P-Core 開始、並給予 OEM 根據其需求調整排程的靈活性。Thread Director 提供關於將工作負載放在哪個核心上的提示,最終決定權在作業系統。
Intel 還為 Thread Director 帶來了新的基礎,包括:
- 用於工作負載分類的增強演算法
- 工作負載處理中更細緻的粒度
- 向作業系統提供低功耗 / 熱提示以保持體驗連續性
Intel 還在 Windows 作業系統中引入了作業系統容器區域,它讀取初始化表並使用 PPM 參數設置區域。
其中包括將工作安排到 E-Core 的效率區域,將工作安排到 P-Core 的混合 / 計算區域,以及將工作跨 P-Core 和 E-Core 安排的「無區域」模式。這些區域將工作負載限制在這些核心上,並保持計算晶片的其餘核心處於停放或閒置狀態。
電源管理作為 SOC 內的內部區塊也得到升級。該區塊有三個 SOC 電源管理設定檔,包括最佳效率模式、平衡模式和效能模式。SOC 頻率和排程基於作業系統排程器選擇的相應模式,電源管理區塊直接與 Intel Thread Director 引擎通訊。
通過這兩個引擎,Intel 在啟用容器化和電源管理優化的情況下,在 Microsoft Teams 等應用程式中最高可節省 35% 能效。
OEM 將可以使用 Intel Dynamic Tuning Technology 為其各自的產品選擇最佳化級距。Intel 也預告了 Thread Director 的未來,其將利用更細緻的場景粒度、基於 AI 的排程提示和跨 IP 排程。這些創新可能會在明年的 Panther Lake 或之後的晶片中出現。
Lunar Lake 的 NPU 4
即將推出的 AI PC 平台的最大賣點之一將是每個平台所能提供的 TOPS。通常 GPU 被視為處理 AI 計算的主要組件,但最近 NPU 開始佔據市佔,它們專為 AI 處理而設計,代表它們只在需要時運行,從而降低功耗並提供高效的 AI 處理方式。
Intel 表示雖然 CPU 和 GPU 構成了 AI 市場的大部分,但 NPU 有望獲得進一步採用。因此 Lunar Lake SOC 提供 120 個峰值 TOPS,僅 NPU 就佔總處理能力的 40%。
在 Lunar Lake SOC 中,Intel 集成了其第 4 代 NPU 架構 NPU 4,它提供兩倍能效和 48 個峰值 TOPS,比 Meteor Lake SOC 中僅提供 11 TOPS 的 NPU 增加了 4.36 倍。那麼 Intel 是如何從 NPU 3 過渡到 NPU 4 的呢?答案是可擴展性。
NPU 4 在各方面都是 NPU 3 的更大和增強版本。它改進了架構、增加了引擎數量,並進一步提高了頻率。
這些升級是必要的,因為 AI 主要依賴向量和矩陣運算,這些運算相當複雜。NPU 4 獲得了 12K MAC,而上一代為 4K MAC,NCE 或神經計算引擎從 2 個增加到 6 個。每個 MAC 陣列仍然是 2048 位寬,但對於 INT8 資料類型,它是一個 16x16x8 陣列,對於 FP16 資料類型,則是一個 16x16x4 陣列。
NPU 還提供更高的時脈率,將其從 Meteor Lake SOC 上的 1.4 GHz 提高到 1.95 GHz。NPU 4 在 ISO 下提供兩倍的效能,峰值效能比 NPU 3 高出 4 倍。NPU 4 還配備升級的 Shave DSP、向量計算提高 4 倍、總向量效能提高 12 倍,改善了 transformer ALM 效能。
因此,NPU 4 與 NPU 3 相比的整體改進包括:
- 向量效能提高 12 倍
- AI TOPS 提高 4 倍
- IP 頻寬提高 2 倍
在 Stable Diffusion 中,與 Meteor Lake SOC 相比,Lunar Lake SOC 在提供超過 4.5 倍的效能提升的同時,顯著節省了功耗。
Wi-Fi 7 與 Thunderbolt 4 支援
Intel Lunar Lake 還在 SOC 上集成了最新的 Wi-Fi 7 技術,新功能包括 Wi-Fi 鄰近感測、通過 PCIe 而非 USB 實現藍牙、啟動和從睡眠中喚醒藍牙的時間最多減少 55%、低功耗遊戲和生產力,同時降低成本並減少佔用空間。
Lunar Lake SOC 上集成的 Wi-Fi 7 解決方案與 BE 200 網路介面相比,晶片尺寸縮小 28%,並採用 11 Gbps 的 CNVio 3 介面(相比之下,CNVio 2 為 5 Gbps)。此外還有射頻干擾緩解技術,可動態調整 DDR 時脈頻率,這對 Wi-Fi 效能有重大影響。Lunar Lake SOC 上 Wi-Fi 7 整合的最主要方面是 MLO,它增加了可靠性、提高吞吐量、改善延遲,並實現流量分離區分。
硬體級安全保護
最後,安全性也是 Lunar Lake SOC 的一個重要方面,尤其是 EVO 平台。Lunar Lake 具有多個內建安全引擎,提供硬體級安全保護,如 Intel SSE、Intel GSC、CSME 以及 Intel PSE。
Intel Lunar Lake 預計將在下一季上市,目前還未具體分享有關型號、效能和價格的資訊,但可以期待在接近發佈時獲得更多詳情。
歡迎加入我們的 Facebook 粉絲團,隨時掌握最新消息!
喜歡看圖說故事的話,也可以追蹤 Instagram 專頁!
我們也有 Google News 可以隨時 follow!