
Intel 在這次 ITT 2025 活動中展示了最新 Xe 3 顯示架構技術。
在看過了 Intel 這次 Panther Lake 處理器在整體架構以及處理核心部分的解析後,接著來看這次 Panther Lake 處理器另一個主要提升的部分:GPU 跟 NPU,在 GPU 部分採用新的 Xe 3 架構,除了效能提升之外也增加了擴展性。而在 NPU 部分也更新為 NPU 5 架構,增加了單位面積的效能表現以及針對最新的工作負載進行最佳化設計。
更多 Intel ITT 2025 文章:
Panther Lake 處理器整體架構解析
Intel ITT 2025:Panther Lake 處理器整體架構解析 以自家 18A 製程達成高效能低功耗的平衡表現
Intel ITT 2025:Panther Lake 處理器架構解析 CPU 篇:同時具備電池續航力以及效能表現怎麼辦到的?
Intel ITT 2025:Panther Lake 處理器架構解析 NPU 篇:以精簡架構達成同效能更低功耗表現
Intel ITT 2025:Panther Lake 處理器架構解析 IPU 篇:以整合設計提供更清晰真實的視訊畫質
活動總覽:
Intel 反攻號角吹響?Tech Tour 2025 活動展示 18A 製程、Fab 52 晶圓廠、以及最新筆電 Panther Lake 處理器!
18A 製程
Intel ITT 2025:以 RibbonFET 與 PowerVia 組合 18A 製程重回頂尖晶圓製造能力
Fab 52 晶圓廠參訪
Intel ITT 2025:最新 Fab 52 晶圓廠參訪 一探 18A 製程的先進製造基地
AI 發展策略
Intel ITT 2025:迎接 Agentic AI 時代到來!新 Intel 正在加速趕上

這部分是由 Intel 架構、圖形和軟體院士 Tom Petersen 負責講解。

首先 Tom Petersen 闡述了為何在新世代的筆記型電腦處理器中,GPU 跟 NPU 的重要地位。Tom Petersen 表示隨著硬體架構跟工作負載的不斷變化,晶片 IP 設計也不斷地進行更新,像是工作負載部分,最新的需求就是代理式 AI(Agentic AI),為了因應這方面的需求,Panther Lake 處理器在這次的 GPU 跟 NPU 的架構設計與性能上做了相當大幅度的改進。

這次 Panther Lake 處理器在 GPU 部分採用了可擴展的架構,並且針對吞吐量進行最佳化設計。而 NPU 部分則是針對能源效率進行最佳化,並且在產品性能上繼續穩定的迭代提升。

先來看 GPU 的部分,這次的設計目標就是採用可擴展的 Xe 3 架構,並且提高吞吐量。

回到前一代 Lunar Lake 處理器的 Xe 2 架構來講古一下,其實當初 Xe 2 架構也針對 Xe 顯示核心進行重新設計,導入了 XMX 這個大型矩陣乘法引擎來加速 AI 運算,另外也採用了性能更高的光線追蹤單元,Xe 2 架構同時也運用在 Intel 自家的 B 系列獨立顯示卡上,在平價市場上獲得了一定的消費者支持。

而來到 Intel 目前 GPU 開發的 Roadmap 路線圖,可以看到這次 Panther Lake 處理器的 Xe 顯示核心雖然都歸屬在 Arc-B 的產品系列,但是在顯示核心架構部分已經採用新的 Xe 3,而在之後還會有採用更新 Xe 3P 顯示核心架構的產品出現(或許會是 Arc-C 系列獨立顯示卡?不過這個部分在 Intel 與 NVIDIA 合作後會不會延續下去很難說)。

接著來看 Xe 3 架構與 Xe 2 架構的不同。

前面有提到這次 Xe 3 架構很大的特色就是可擴展性的設計,可以依照核心需求擴展 GPU Render Slice 渲染切片內的顯示核心數量 。

在 Xe 2 的 Render Slice 渲染切片中,是以 4 組 Xe 顯示核心搭配 4 組光線追蹤單元以及周邊設計,組成一個 Render Slice。

而在 Xe 3 架構中,可以使用 6 組 Xe 顯示核心搭配 6 組光線追蹤單元組成一個 Render Slice(當然要更少的數量也可以)。

所以在這次的 Panther Lake 處理器中,可以看到有內建 4 Xe 核心與 12 Xe 核心兩種差異這麼大的選擇。

在 4 Xe 核心架構的配置中,是採用 2 個具備 2 組 Xe 核心的 Render Slice 組成。

而在 12 Xe 核心架構的配置中,同樣是採用兩組 Render Slice 配置,但是每個 Render Slice 配置了 6 組 Xe 顯示核心,而且在 L2 快取記憶體以及管線的數量也增加,可以注意到的是在 L2 快取部分,並非只有等比例的增加至 12 MB,而是更大的 16MB。

Tom Petersen 表示,透過 L2 快取的增加,可以減少在遊戲顯示運算過程中對於記憶體介面的頻寬需求,大約可以減少 17% 至 36%,相對的也就提升了 Panther Lake 處理器在遊戲顯示上的效能表現。

接著來看 GPU 性能最佳化的部分。

Tom Petersen 表示首先這次 Intel 針對 Xe 3 顯示架構的 Xe 向量引擎進行最佳化,改進了光線追蹤單元以及 GFX 固定功能,這三者與新的 Xe 3 核心組成了這次 Xe 3 顯示架構的 Slice。

在 Xe 3 核心部分,這次提供了 8 個 512 bit 的向量引擎、8 個 2048 bit 的 XMX 引擎以及加大了 33% 的 L1 快取。

在 Xe 向量引擎部分,則是增加了 25% 最大可執行緒數量、可變暫存器設計,在 GPU 資源部分可以做更有效率的分配來增加效能,另外也加入了 FP8 去量化支援。

在 AI 效能部分,Xe 3 的 XMX AI 加速引擎這次則是可以提供 120 TOPS 的 AI 算力, Tom Petersen 也在簡報中展示了在不同的資料格式中,每個 Xe 核心在每個 Clock 中可以運算的數量。Tom Petersen 也表示在這次的 Panther Lake 處理器的 Xe 3 顯示核心最高可以在電腦上執行 8B 參數量的模型。

接著來看 Xe 3 顯示架構中的光線追蹤部分,Tom Petersen 表示這次 Xe 3 架構中的光線追蹤單元主要改進了整體運算的管線部份,透過新的動態解析與排序器設計,來減少大量解析後的光線與三角形等待進行處理的時間。

另外在 GFX 固定功能的部分,則是導入了新的 URB 管理器,在每次渲染的時候可允許只更新部分結構而不是整體,加速了渲染效率。在各向異性過濾(anisotropic filtering)跟模板測試(Stencil Test Rate )表現上提高了一倍。

回顧一下這次 Xe 3 顯示核心在設計上的更新,包括採用第三代的 Xe 顯示引擎、更新的光線追蹤單元以及 GFX 固定功能,以及對 Xe 向量引擎進行最佳化等。

而這樣的新設計也帶來的效能上的進步,以 Intel 自家進行的微基準效能測試來這次 Xe 3 在微架構改善後的效能提升幅度。在 GEMMs/FP32/INT32 部分有 1.5X 的提升、在光線追蹤交互/16x Aniso 過濾 sRGB 部分增加至 2X、在網格渲染跟發散讀取部分提高至 2.7X,而在深度寫入以及密集暫存器渲染測試中也有更高的效能提升幅度。

跟 Lunar Lake 處理器相比,有 50% 以上的效能提升幅度。

而跟 Arrow Lake-H 處理器相比,在能效比部分有 40% 以上的提升。

接著在軟體堆疊的部分,這次 Xe 3 顯示核心因為加入了可變暫存器的設計,所以在 IGC 編譯器部分也做了對應的更新升級,另外在調度部分也加入了直接搶佔(Direct preemption)的功能,可以在不 Refresh 的狀況下快速進行切換。最後則是支援了微軟最新的 DirectX 協同向量(Cooperative Vectors)設計,針對不同廠商的程式碼庫進行標準化的支援,簡單來說就是可以讓開發者針對 GPU 內的矩陣操作與向量操作編寫程式碼,讓 AI 演算法可以跟渲染管線具備更緊密的結合,讓 AI 功能更容易整合到遊戲內。

這個是 DirectX 協同向量(Cooperative Vectors)的說明,可以看到基本上就是結合了微軟的 DirectX 12 Ultimate 引擎以及 Intel 的 XMX AI 引擎,將乘法矩陣的加速運算帶到渲染器中,目前這個功能的預覽驅動、展示以及原始碼已經在 7 月份釋出。

這個設計的優勢在於,幾乎可以用 AI 模型來取代傳統的光線渲染管線,在過去的遊戲中,需要建模師先將遊戲中的人物、場景建模出來,這需要大量的人力以及時間,也是遊戲中開發成本最高的地方,在顯示卡渲染畫面的時候,會需要產出相對應的 XYZ 軸坐標以及光線的射出/射入方向(上圖左邊)。
而在改為 AI 模型渲染後,在生成畫面時,就只需針對實際產生畫面的每個像素,吐出對應的顏色以及透明度兩個參數而已。將會大幅減少渲染畫面所需要的資源,但是相對的對於矩陣引擎的效能要求就會高一點,以 Tom Petersen 在現場展示加入光線追蹤效果的畫面來說,每個像素每秒大約需要進行 100 次的推論。

總結來看這次 Panther Lake 處理器 GPU 的設計,包括具備最高 12 核的第三代 Xe 顯示核心以及 12 組增強光線追蹤單元、16 MB L2 快取,支援 DirectX 12 Ultimate 最新功能、顯示效能比起 Lunar Lake 處理器要提高 50%,能效比比起 Arrow Lake-H 處理器要提高 40%,媒體與顯示引擎能效最佳化,支援 AV1 編解碼、 VVC 解碼,具備 XMX 矩陣引擎,提供最高 120 TOPS 的 AI 算力等等。
接下來還有這次 Panther Lake 處理器的 NPU 設計介紹,請大家接下去看囉。