電腦 comment

NVIDIA TURING圖靈繪圖晶片登場 RT Core加Tensor Cores全新架構設計

person icon dennis.F 2018-09-14
NVIDIA新一代顯示卡的命名不再是用GTX而是改用了RTX來做為新一代顯示卡的型號名稱。從這次的命名便可得知NVIDIA新一代顯示卡不僅僅只是製程與效能的提升,更重要的一點就是硬體中還加入了即時光影追蹤技術,並且還將AI深度學習技術導入遊戲之中,讓遊戲有更好的畫面與效能最佳化。接下來就來跟大家簡單說一下這次NVIDIA TURING圖靈繪圖晶片加入了各項新技術能夠為遊戲畫面與效能帶來改變吧!
NVIDIA TURING圖靈繪圖晶片登場 RT Core加Tensor Cores全新架構設計


這次文章的內容大概會分成底下幾個段落,若是對哪方面比較有興趣的話也可以直接點選連結跳轉喔!
NVIDIA TURING圖靈繪圖晶片架構

L1、L2快取與GDDR6顯示記憶體改進

多媒體影音支援改進

RT Core光影追蹤運算核心應用

Tensor Core深度學習運算核心應用

NVIDIA DLSS深度學習超級採樣

NVIDIA Shading著色運算改進

NVIDIA RTX-OPs重新定義效能


NVIDIA TURING圖靈繪圖晶片架構與規格介紹

NVIDIA在上個月的Gamecon遊戲大展期間一口氣發表了GeForce RTX2080Ti、RTX2080以及RTX2070三款顯示卡,而這三款顯示卡皆採用了NVIDIA最新的Turing架構繪圖晶片,從官方提供的架構圖來看,這次搭載在GeForce RTX2080Ti顯示卡上的TU102晶片基本上也是之前幾代GeForce GTX系列顯示卡一樣是採用了GPC叢集架構設計,但圖靈晶片不同的地方則是每個一SM串流處理器叢集中還新增加了獨立的RT Core與Tensor Core,而且也因為多了這兩個硬體設計,讓GeForce RTX20系列顯示卡不僅能夠在遊戲中實現即時光影追蹤的效果,亦導入了AI應用,讓顯示卡在提升遊戲張數效能的同時也能夠有更高品質的影像表現,而且透過Tensor Core與AI應用的加持,也使得這系列顯示卡能夠提供超高解析度影像、精準去背以及動態影像補禎等應用,這部分後面在跟大家詳細說明。
NVIDIA TURING圖靈繪圖晶片架構與規格介紹


NVIDIA GeForce RTX2080Ti、RTX2080以及RTX2070三款顯示卡中分別會搭載代號TU102、TU104以及TU106的Turing圖靈架構繪圖晶片,從其中最高階的TU102繪圖晶片來看,相較上一代Pascal架構的GP102繪圖晶片,這次新推出的NVIDIA TU102繪圖晶片架構雖然看起來都是由六組GPC繪圖處理叢集( Graphics Processing Clusters,GPC)所組成,但由於製程提升從原本的16nm提升至12nm,相對也將晶片中的電晶體數量提升至180億個,而且每個GPC叢集中的SM多重式串流處理器(Streaming Multiprocessors,SM)數量增加至12組,整個晶片一共多達72組SM。而且更重要的改變就是每一組SM裡面除了具備64個CUDA運算核心之外,還新增加了一組RT Core與8個Tensor Cores來分別負責光影追蹤與AI方面的應用。

不過可能是為了與自家的Quadro RTX 6000繪圖卡區隔,搭載在GeForce RTX2080Ti顯示卡中的TU102晶片有屏蔽了4組SM模組,所以CUDA運算核心數量則是4352個,而RT Cores與Tensor Cores數量則分別為68個與544個。
NVIDIA TURING圖靈繪圖晶片架構


圖靈架構繪圖晶片中的每一個SM模組都具備了64個CUDA運算核心、1組RT Core、8組Tensor Cores、4個材質單元以及96KB的整合式快取記憶體。
NVIDIA TURING 圖靈架構繪圖晶片中的每一個SM模組都具備了64個CUDA運算核心、1組RT Core、8組Tensor Cores、4個材質單元以及96KB的整合式快取記憶體。


搭載在NVIDIA GeForce RTX2080顯示卡內的圖靈繪圖晶片代號則是TU104,其架構也是由六組GPC繪圖處理叢集所組成,只是每個GPC內的SM數量只有8個,但從官方規格來看,搭載在RTX2080內的TU104繪圖晶片似乎也有屏蔽了兩組SM,所以顯示卡的CUDA核心數量則是2944個,而RT Cores與Tensor Cores數量則分別為46個與368個。
搭載在NVIDIA GeForce RTX2080顯示卡內的圖靈繪圖晶片代號則是TU104,其架構也是由六組GPC繪圖處理叢集所組成


至於NVIDIA GeForce RTX2080顯示卡內所搭載的圖靈繪圖晶片代號則是TU106,從架構圖來看是由三組GPC繪圖處理叢集所組成,而每個GPC內都會12組SM模組,可提供2304個CUDA運算核心、36個RT Core以及288個Tensor Cores。
NVIDIA GeForce RTX2080顯示卡內所搭載的圖靈繪圖晶片代號則是TU106,從架構圖來看是由三組GPC繪圖處理叢集所組成


底下是NVIDIA GeForce RTX2080Ti、RTX2080以及RTX2070三款顯示卡的硬體規格比較,先給大家做個參考吧!
NVIDIA GeForce RTX2080Ti、RTX2080以及RTX2070三款顯示卡的硬體規格比較




NVIDIA TURING圖靈繪圖晶片記憶體改進

除了新增加的RT Core與Tensors Cores運算核心之外,這次圖靈架構晶片還將每一組SM內的L1快取記憶體與Shared Memory整合在一起,並能夠依照不同運算需求允許64KB+32KB或32KB+64KB的分配模式,相比上一代Pascal的快取架構不僅能夠讓每個SM的L1快取容量增加最多2.7倍與兩倍傳輸頻寬,相對也能夠降低L1快取資料存取的延遲時間。此外,這次在TU102繪圖晶片中的L2快取記憶體容量亦從3MB提升至6MB,讓顯示卡能夠應付更高負載資料量的運算需求。
NVIDIA TURING圖靈繪圖晶片記憶體改進


NVIDIA GeForce RTX20系列顯示卡除了晶片架構的改進之外,這次針對顯示記憶體規格的部分也首次採用了全新的GDDR6記憶體,相比之前所搭載的GDDR5X顯示卡,這次新搭載的GDDR6除了將傳輸時脈提升至14Gbps,還增加了20%的功耗效率,並可提供更乾淨的訊號傳遞,讓記憶體在提升效能的同時亦能夠保有穩定的資料傳輸與更好的功耗效率。
NVIDIA GeForce RTX20系列顯示卡除了晶片架構的改進之外,這次針對顯示記憶體規格的部分也首次採用了全新的GDDR6記憶體


除了硬體方面的改進之外,這次的圖靈架構繪圖晶片也特別改進了記憶體壓縮技術,透過更高效率的無損壓縮,讓影像資料能夠更快速有效率地寫入顯示記憶體或是傳輸至L2快取記憶體,就官方說法,這次在圖靈晶片所導入的記憶體壓縮技術能夠比上一代的PASCAL晶片增加50%的記憶體傳輸效率。
NVIDIA TURING圖靈繪圖晶片記憶體 除了硬體方面的改進之外,這次的圖靈架構繪圖晶片也特別改進了記憶體壓縮技術



NVIDIA TURING圖靈繪圖晶片多媒體應用

隨著影音內容畫質的提升,NVIDIA為了滿足高畫質影像需求,在新一代的RTX20顯示卡也都提供了可支援最高8K@60Hz影像解析度的DP1.4a影音端子,而且為了讓玩家可以更方便搭配VR裝置使用,在顯顯示卡上還加入了一組USB Type-C傳輸介面,而且最高輸出解析度一樣可以支援至8K@60Hz。
新一代的RTX20顯示卡也都提供了可支援最高8K@60Hz影像解析度的DP1.4a影音端子


另外,這次顯示卡的影音編解碼功能也增加了即時H.265 HEVC 8K@30Hz HDR影像編碼以及HEVC YUV444、10/12bit HDR@30fps、8K H.264以及VP9 10/12bit HDR影像硬體解碼功能。
這次顯示卡的影音編解碼功能也增加了即時H.265 HEVC 8K@30Hz HDR影像編碼以及HEVC YUV444、10/12bit HDR@30fps、8K H.264以及VP9 10/12bit HDR影像硬體解碼功能。


NVIDIA這次在NVIDIA GeForce RTX2080Ti與RTX2080兩款顯示卡中還加入了NVLINK技術來取代原本的SLI或HB SLI,讓有需要的玩家在串聯兩張顯示卡的時候能夠獲得更高效率的效能表現。其中的NVIDIA GeForce RTX2080Ti顯示卡晶片中有設置了兩組x8第二代NVLink傳輸通道,可提供雙向100GB/s的頻寬。而GeForce RTX2080顯示卡晶片中則是提供了一組x8第二代NVLink傳輸通道,可支援雙向50GB/s的傳輸頻寬。NVIDIA這次針對有需要NVLink的使用者也同時推出了3Slot與4Slot寬度的NVLink橋接器,建議售價皆為79美金。
NVIDIA這次在NVIDIA GeForce RTX2080Ti與RTX2080兩款顯示卡中還加入了NVLINK技術來取代原本的SLI或HB SLI



NVIDIA RT Core光影追蹤運算核心

NVIDIA這次新推出的圖靈繪圖晶片特色之一便是首次加入了用來加速光影追蹤運算處理的RT Core運算核心,而RT Core究竟是怎麼個加速法,那就得先來簡單說一下光影追蹤的處理過程。在真實世界裡由於光線會反射折射,而且不同材質也會有不同的反射效果,所以實際看到的反光與陰影程度自然也就不盡相同。而光影追蹤Ray Tracing的目的就是要透過電腦計算光線路徑與反射程度,讓最後渲染出來的影像能夠逼近人眼所看到的真實場景。而NVIDIA針對光影追蹤除了不同推出效能更強大的GPU硬體之外,也提供了像是Iray plugins插件與OptiX ray tracing engine光影追引擎等軟體來幫助開發者或是繪圖工作者能夠更快速地製作出具備高品質光影追蹤效果的影像內容。

不過之前的硬體軟體雖然已經可以快速地渲染出具備光影追蹤效果的影像,但對於每秒至少30~60FPS不斷更新畫面的遊戲來說,要達到即時光影追蹤效果且維持穩定的效能張數基本上是不太可能,所以目前大部分的遊戲多半都是透過Rasterization光柵化渲染技術來達到光影效果,只不過呈現的畫面真實性與即時光影追蹤還是有不小的差別。

於是為了讓玩家在玩遊戲的時候也能夠體驗具備光影追蹤的影像內容,NVIDIA便與多家遊戲廠商合作,計畫在之後的遊戲中結合光線追蹤和光柵化渲染技術,其作法主要會將遊戲畫面中比較明顯的物件採用光影追蹤技術,而後面比較不明顯的背景就採用光柵化技術,讓玩家在玩遊戲的時候不僅能夠感受到讓有別以往的光影特色,同時也能夠兼顧遊戲效能表現。而NVIDIA這次在圖靈繪圖晶片中所加入的RT Core運算核心功能便是要用來處理遊戲中的即時光影追蹤特效運算。
NVIDIA RT Core光影追蹤運算核心


光影追蹤技術說起來容易,但實際上要準確計算每一個三角形像素的光影資料就不是那麼容易,所以目前的光影追蹤技術主要是透過Bounding Volume Hierarchy(BVH)演算法,以樹狀分析過濾的方法來過濾出需要計算的三角形像素,以節省不必要的運算時間。
NVIDIA RT Core光影追蹤運算核心,目前的光影追蹤技術主要是透過Bounding Volume Hierarchy(BVH)演算法


所以過去的GPU若是想要加入光影追蹤特效就得分配一部份的效能來處理BVH演算法過程,但這樣一來是勢必會降低遊戲的FPS效能表現,所以這次在新一代的圖靈晶片中便加入了RT Core專門負責光影追蹤的BVH過程,讓遊戲畫面能夠達到即時光影追蹤的效果。相比上一代的PASCAL,這次NVIDIA圖靈晶片由於有了RT Core的加持,光影追蹤方面的處理效能表現大約增加了10倍之多。
新一代的圖靈晶片中便加入了RT Core專門負責光影追蹤的BVH過程,讓遊戲畫面能夠達到即時光影追蹤的效果。


新一代的圖靈晶片中便加入了RT Core專門負責光影追蹤的BVH過程,讓遊戲畫面能夠達到即時光影追蹤的效果。


新一代的圖靈晶片中便加入了RT Core專門負責光影追蹤的BVH過程,讓遊戲畫面能夠達到即時光影追蹤的效果。


底下是NVIDIA提供的光影追蹤渲染的影片,從影片內容不僅可以看到不同物件所呈現的反光效果,而且隨著物件的移動或位置變換,反光影像內容也會跟著即時改變。



在接下來即將推出的戰地風雲5遊戲也將會支援遊戲過NVIDIA的RTX光影追蹤技術,從官方提供的圖片可以看到,當光影追蹤效果開啟之後,物件上的反光便會依照環境變換模擬出真實的影像效果。
在接下來即將推出的戰地風雲5遊戲也將會支援遊戲過NVIDIA的RTX光影追蹤技術


底下是官方釋出的戰地風雲5遊戲搭配RTX即時光影追蹤的影片,給大家做個參考。



NVIDIA Tensor Cores運算核心應用

這次的圖靈繪圖晶片除了RT Core之外,還有一個比較特別的地方就是加入了Tensor Cores運算核心,這也是NVIDIA首次在遊戲顯示卡中加入了Tensor Cores的設計。Tensor Cores的用途主要是用來執行深度學習神經網絡訓練或是推論應用時所需要的tensor與matrix矩陣計算,而且還多了INT8和INT4精度運算模式支援,讓圖靈繪圖晶片在執行深度學習運算時有更好的效能表現。
NVIDIA Tensor Cores運算核心應用


而NVIDIA不只是硬體方面有加入Tensor Cores,同時還推出了以AI deep learning深度學習為技術基礎的NVIDIA NGX (Neural Graphics Acceleration)圖形加速技術。這項技術本身是已經透過NVIDIA自家伺服器訓練好的AI Model模型並經過神經網絡學習的API,可提供AI Super REZ、AI SLOW-MO、AI INPAINTING以及NVIDIA DLSS等功能應用,而NVIDIA NGX之後也會直接包含在NVIDIA GeForce Experience軟體內,所以基本上搭配GeForce RTX20系列顯示卡並安裝GFE軟體就可以支援NVIDIA這些基於AI技術的圖形功能。
基本上搭配GeForce RTX20系列顯示卡並安裝GFE軟體就可以支援NVIDIA這些基於AI技術的圖形功能。


NVIDIA NGX 所提供的AI Super REZ功能主要是透過AI Inference的技術,讓原本畫素不高的圖片不僅能夠提升2~8倍以上的影像解析度,亦能夠透過AI分析優化放大後的圖片並增強銳利度表現。
NVIDIA NGX 所提供的AI Super REZ功能主要是透過AI Inference的技術,讓原本畫素不高的圖片不僅能夠提升2~8倍以上的影像解析度,亦能夠透過AI分析優化放大後的圖片並增強銳利度表現。


而AI SLOW-MO功能簡單來講就是透過AI技術把原本30或60FPS的影片提升為240或是480FPS以上的慢動作影片,所以即便沒有高速攝影機也可以透過AI技術模擬出高速慢動作影片,底下是NVIDIA官方提供的AI SLOW-MO功能示範影片,給大家做參考囉!


至於AI INPAINTING技術,簡單來說就是智慧型筆刷功能,可以快速去除圖片中的人或物,相比過去的去除方法,AI INPAINTING技術比較特別的地方就是已經利用許多真實圖片訓練出一個AI模型,所以只要刷選一下就可以馬上計算出去除背景後的修補內容,讓使用者很快地就可以得到修好的照片,不用在像過去一樣得先仔細選取物件,再利用旁邊類似像素來填補畫面。
AI INPAINTING技術,簡單來說就是智慧型筆刷功能,可以快速去除圖片中的人或物



NVIDIA DLSS深度學習超級採樣

除了剛剛說的三個功能之外,NVIDIA NGX這次針對遊戲反鋸齒或是動態模糊影像修正等應用還特別推出了一個全新的DLSS(Deep Learning Super-Sampling)深度學習超級採樣技術。從反鋸齒的效果來說,過去在遊戲中常看到的MSAA、MFAA或是TXAA大多是先利用多個採樣點演算法來修正遊戲畫面中的邊緣鋸齒,所以採樣點越多反鋸齒效果自然是愈好,但隨著採樣點的增加也會增加GPU的負擔,所以只要反鋸齒程度開得愈高,遊戲FPS效能也就會有明顯的下降。然而這次推出的NVIDIA DLSS便是先讓AI模型透過Deep Learning技術先去學習原本的圖像內容,之後在遊戲實際應用時便只要透過顯示卡中的Tensor Cores去推出原本正確的圖片應該是怎樣,接著顯示卡便能渲染出接近甚至超越原本反鋸齒影像品質。
NVIDIA DLSS深度學習超級採樣


而NVIDIA甚至還會提供DLSS 2X的選項,就官方說法,透過這個功能所渲染出的影像內容可以說是非常接近開啟64X反鋸齒選項的效果。
而NVIDIA甚至還會提供DLSS 2X的選項,就官方說法,透過這個功能所渲染出的影像內容可以說是非常接近開啟64X反鋸齒選項的效果。


而NVIDIA甚至還會提供DLSS 2X的選項,就官方說法,透過這個功能所渲染出的影像內容可以說是非常接近開啟64X反鋸齒選項的效果。


而且因為NVIDIA DLSS並不像過去的需要利用GPU去計算多個採樣點,再加上還有Tensor Cores加持,所以就差不多的畫質表現下,GeForce RTX20顯示卡的效能自然會比過去上一代顯示卡來得更好一些。就拿RTX2080Ti來看,相比上一代的GTX1080Ti,不僅開啟TAA模式就有50%左右的效能提升,開啟DLSS功能之後,FPS效能幾乎是上一代GTX1080Ti的兩倍。
NVIDIA DLSS並不像過去的需要利用GPU去計算多個採樣點,再加上還有Tensor Cores加持,所以就差不多的畫質表現下


接下來預計會有15款遊戲將會支援NVIDIA DLSS功能。
接下來預計會有15款遊戲將會支援NVIDIA DLSS功能。



NVIDIA Shading著色運算改進

NVIDIA這次針對Shading著色運算也有加入了一些新的方法,讓顯示卡不僅有更好的算圖效率,同時亦能夠兼顧畫面品質。像是這次提出的Mesh Shading方法,簡單來說就是將顯示卡效能集中在一些畫面中比較明顯物件的細節上,而畫面中比較不用要也不會被注意到的遠景就可以降低細節來節省效能,所以從畫面中圖片可以看到前面比較物件就可以用較精細的頂點著色(vertex)、曲面細分(tessellation)或幾何運算(geometry)來呈現較多的物件細節,而後場的隕石因為比較不會被關注且對於畫面整體影像不大,所以就利用降低細節程度的方法來節省繪圖晶片的效能。
NVIDIA Shading著色運算改進


除了Mesh Shading之外,NVIDIA還有提供了一個叫做Variable Rate Shading的方法,主要作法是將畫面中細分成多個16x16pixels的小圖塊,並讓開發者可以去定義每個圖塊的細節程度需求,並以1x1、2x2、4x4….等區塊來著色,像是底下賽車遊戲畫面上,車子必定是玩家會著重細節的地方,所以車子的部分就1x1的方式來進行著色,而圖像比較接近或是比較不會注意的地方就用4x4的方式著色,讓顯示卡有更好的運算效率。
除了Mesh Shading之外,NVIDIA還有提供了一個叫做Variable Rate Shading的方法



NVIDIA RTX-OPs效能重新定義

看到這邊可以更清楚知道,NVIDIA這次新推出的圖靈繪圖晶片由於加入了不少新功能與運算機制,所以在生成每一張影像時,其實都經過了光影追蹤、FP32、INT32著色以及DNN深度學習網絡處理等過程,所以NVIDIA這次也特別提出了一個全新的RTX-OPS單位來定義新顯示卡的效能表現,將每一個運算過程占用的時間比例乘以硬體核心效能相加之後所衍生出的新效能數據。就官方說法,圖靈繪圖晶片在生成一張影像的時間哩,執行光影追蹤運算的時間大約會佔40%、FP32著色運算大約是80%、INT32運算大約是28%,而深度學習網路處理的時間大約會占用20%,所以拿GeForce RTX2080Ti舉例,便是

40%RTOPS + 80%FP32 + 28%INT32+ 20%TENSOR
=(40%)100tera-opsx+(80%)14TFLOPS+(28%)14TFLOPS+(20%)114TFLOPS=78 RTX-OPs
NVIDIA RTX-OPs效能重新定義


由於效能的部分還在NDA中,得等到下個星期三才能夠公布測試效能,就請網友們在多耐心等待一下囉!
新聞相關討論