NVIDIA 新一代 RTX Blackwell 顯示架構解析以 AI 最佳化設計提供更有效率／效能表現的顯示核心

陳拔
個人積分：36620分
文章編號：90965037

36620分

樓主

2025-01-15 22:15

NVIDIA 新一代 RTX Blackwell 顯示架構解析以 AI 最佳化設計提供更有效率／效能表現的顯示核心

在看過為何這次 NVIDIA GeForce RTX 50 系列顯示卡效能為何大幅提升的祕密後，這篇就來看比較硬的，關於這次 RTX 50 系列顯示卡所使用的 Blackwell 架構解析。

更多 NVIDIA RTX 50 顯示卡技術介紹：

將渲染畫面擴增 16 倍的 DLSS 4 黑魔法！NVIDIA 新一代 RTX 50 顯示卡渲染技術與相關應用解析
NVIDIA GeForce RTX 50 桌上型顯卡全系列官方設計與性能解析不僅效能翻倍散熱設計也大幅改造

NVIDIA 新一代 RTX Blackwell 顯示架構解析以 AI 最佳化設計提供更有效率／效能表現的顯示核心

首先一開始 NVIDIA 就表示 RTX Blackwell 架構的推出，就是要解決摩爾定律結束後的畫質提升要求。而 NVIDIA 認為的解法就是 Neural Rendering：利用 AI 模型進行的神經渲染技術。

NVIDIA 新一代 RTX Blackwell 顯示架構解析以 AI 最佳化設計提供更有效率／效能表現的顯示核心

當然顯示卡的 AI 算力提升也是不可或缺的因素，所以到底是因為需要提升畫質所以增加顯示卡的 AI 算力，或是因為有多的 AI 算力所以用來提升畫質？（雞生蛋蛋生雞？）

NVIDIA 新一代 RTX Blackwell 顯示架構解析以 AI 最佳化設計提供更有效率／效能表現的顯示核心

接著來看這次 NVIDIA RTX Blackwell 的設計目標，包括針對新的神經網路工作負載進行最佳化、減少顯示記憶體的使用需求、提供未來新功能應用的空間以及增加能源效率。

NVIDIA 新一代 RTX Blackwell 顯示架構解析以 AI 最佳化設計提供更有效率／效能表現的顯示核心

依照上面的設計目的，NVIDIA 制定出的 GeForce Blackwell 神經渲染架構的主要特色規格如下，包括採用第五代的 Tensor Core 核心，提供最高 4000 AI TOPS（FP4）的 AI 算力，RT 光線追蹤核心也因應 Mege Geometry 的幾何運算需求升級到第四代架構，提供了 360 RT TFLOPS 的運算能力。SM 單元也為了神經渲染進行重新設計，提供了 125 TFLOPS 運算能力。另外在省電性部分也改用新的 Blackwell MAX-Q 動態增強技術，達到兩倍的能源效率，顯示記憶體部分則是採用 GDDR7 顯示記憶體，提供 30 Gbps 的記憶體存取速度。

NVIDIA 新一代 RTX Blackwell 顯示架構解析以 AI 最佳化設計提供更有效率／效能表現的顯示核心

NVIDIA 在發表會現場展示的 RTX 5090 顯示卡 PCB，搭配的 GDDR7 顯示記憶體為三星的顆粒。

另外在顯示輸出規格部分，這次 RTX 50 系列顯示卡提供了 DisplayPort 2.1 UHBR20 的輸出介面，提供 80Gbps 的輸出頻寬，不須透過 DSC 壓縮技術就能提供 4K 240 Hz 的顯示訊號規格。介面部分則是支援 PCIe Gen 5，並且提供 4X NVDEC 解碼／4X NVENC 編碼（支援 4： 2：2 影像深度格式）能力。

NVIDIA 新一代 RTX Blackwell 顯示架構解析以 AI 最佳化設計提供更有效率／效能表現的顯示核心

首先來看 SM（Streaming Multiprocessor，串流處理器）的更新設計，在先前 Ada 世代中仍然是以傳統渲染器（Shader）結合 Tensor Core 的形式，不過到了這一代的 Blackwell 架構中，在 Shader 部分就導入了 AI 模型架構，將原本的 Shader 核心進一步的整合成單一 FP32／INT32 Shader Core，搭配第五代的 Tensor Core 形成新的 SM 架構。

NVIDIA 新一代 RTX Blackwell 顯示架構解析以 AI 最佳化設計提供更有效率／效能表現的顯示核心

另外在上一代 Ada 世代中開始導入的著色器執行重新排序（SER）功能部分，也透過加入了重新排序設計提升了 2 倍效率。

NVIDIA 新一代 RTX Blackwell 顯示架構解析以 AI 最佳化設計提供更有效率／效能表現的顯示核心

顯示記憶體部分由 GDDR6／GDDR6x 升級到 GDDR7 後，透過頻率的提升在 Data Rate 的部分有了兩倍的效能成長，另外也透過更低的電壓設計在能源效率上有所增進。

NVIDIA 新一代 RTX Blackwell 顯示架構解析以 AI 最佳化設計提供更有效率／效能表現的顯示核心

此外在光線追蹤的 RT Core 部分，則是升級到針對 Mega 幾何運算所設計的第四代架構，增加了三角形叢集的交互運算／解壓縮引擎，以及針對頭髮紋路進行更細微計算的 Linear Swept Spheres 運算單元。

NVIDIA 新一代 RTX Blackwell 顯示架構解析以 AI 最佳化設計提供更有效率／效能表現的顯示核心

跟前一代的 RT Core 相比，第四代 RT Core 提高了 2 倍的光線追蹤運算效能，但是顯示記憶體的使用量僅有 Ada 世代的 75%。

NVIDIA 新一代 RTX Blackwell 顯示架構解析以 AI 最佳化設計提供更有效率／效能表現的顯示核心

而在 Tensor Core 的部分，支援了更精簡的 FP4 模型配置，將 AI 運算所需要的記憶體數量進一步降低，在吞吐量上也比起前一代 Ada 世代要多出一倍。（不過從 FP8 到 FP4 的比較，就很難看出到底是因為效能的提升還是因為精度降低所增加的吞吐量）。

NVIDIA 新一代 RTX Blackwell 顯示架構解析以 AI 最佳化設計提供更有效率／效能表現的顯示核心

而這個架構也可以同時進行 AI 以及圖像的運算。

NVIDIA 新一代 RTX Blackwell 顯示架構解析以 AI 最佳化設計提供更有效率／效能表現的顯示核心

加入了新的 AI Management Processor 管理單元，在應對多重 AI 負載的時候可以更有效率的分配工作。

NVIDIA 新一代 RTX Blackwell 顯示架構解析以 AI 最佳化設計提供更有效率／效能表現的顯示核心

而這一次 Blackwell 架構也將原本運用在筆電上的 MAX-Q 動態增強技術運用到 RTX 50 系列顯示卡上，運用了 DLSS 4、電壓最佳化的 GDDR7 顯示記憶體、加速時脈切換、低延遲睡眠以及先進電源閘道設計等。

NVIDIA 新一代 RTX Blackwell 顯示架構解析以 AI 最佳化設計提供更有效率／效能表現的顯示核心

在先進電源閘道設計部份，主要透過 GPU 上的架構設計，分為 Clock Gating、Power Gating 以及 Rail Gating 三個不同區域，透過不同區域的電源閘道設計，提供更有能源效率的配置。

NVIDIA 新一代 RTX Blackwell 顯示架構解析以 AI 最佳化設計提供更有效率／效能表現的顯示核心

跟前一代 Ada 相比，Blackwell 在切換進省電狀態的時間提早許多，在不同階段切換的速度也比 Ada 更快，減少了閒置狀態時的能源使用。

NVIDIA 新一代 RTX Blackwell 顯示架構解析以 AI 最佳化設計提供更有效率／效能表現的顯示核心

另外在時脈控制部分，也透過更快速的時脈調整反應機制，依照負載動態快速調整 SM 單元的運作時脈，提高 SM 單元的能源運作效率。

NVIDIA 新一代 RTX Blackwell 顯示架構解析以 AI 最佳化設計提供更有效率／效能表現的顯示核心

另外在顯示引擎以及影片編碼／解碼的部分，這次 Blackwell 架構導入了 DisplayPort 2.1 UHBR20 20 Gbps 規格，可以不靠壓縮輸出 4K 240 Hz 的訊號，並且提供了高速硬體 Flip Metering 技術來穩定輸出幀率。而在影片編碼／解碼的部分，則是新增了 UHQ 格式支援，提供更高採樣率的影片品質，也支援了 4：2：2 色彩取樣的影片編碼／解碼能力，對於追求影片色彩還原度的內容創作者來說更為有利。

NVIDIA 新一代 RTX Blackwell 顯示架構解析以 AI 最佳化設計提供更有效率／效能表現的顯示核心