2023 超電榜單出爐

出處來源
U大中文版

雖然 Intel 是超級電腦排名常勝軍,
不過這次由穩定運行一年,
採用EPYC處理器的 Frontier 奪榜,

使用Intel處理器的 Aurora 排名第二,
不知道是不是當初 Intel 給DOE畫大餅畫太大...
畫到2 Exaflops
雖然營運多年,中途也不斷投增機組,
但至今組建規模能未達標...
當然,Intel Aurora 目前並非完全體,
未來組建完成運算力仍可能擠下Frontier。

AMD Frontier 除了算力頂級之外,
也以超強的能源效率輾壓對手。
2023 超電榜單出爐
自律努力讓自己變大隻
2023-11-17 8:58 發佈
文章關鍵字 2023
loki6865 wrote:
使用Intel處理器的 Aurora 排名第二,
不知道是不是當初 Intel 給DOE畫大餅畫太大...
畫到2 Exaflops
雖然營運多年,中途也不斷投增機組,
但至今組建規模能未達標...
當然,Intel Aurora 目前並非完全體,
未來組建完成運算力仍可能擠下Frontier。


超算都會有一定比例的性能折損, 多或少而已
Frontier 的目標是1.5E, 到目前登頂1年半了, 調整完也只有微幅從1.1漲到1.19E, 還沒突破1.2E, 不到理論性能值80%
Aurora我看Rmax 能到1.6E就已經是極佳表現了

loki6865 wrote:
AMD Frontier 除了算力頂級之外,
也以超強的能源效率輾壓對手。

但仍然敗給老黃的設計

^^A 請多多指教~
MUS wrote:
超算都會有一定比例的...(恕刪)


至少Frontier 突破Exaflops,
先營運的Aurora連一半都沒能達標...感覺差太多...
不知遇上什麼難題?
再加上AMD的 El-Capitan擺在2024...((也是標2Exaflops
Aurora後續要追上蠻難的...
能組建完別半癱就上天保佑了。

========

至於加速器Frontier 跟Aurora 都是用自家的,
老黃在這方面耕耘已久,
拉進來看也不是不行,領著AMD排在前三...
MI250X還占了兩席,感覺也不差?

(其實沒注意到加速器部分,RDNA2噴電爛架構能排上有點意外)

Intel的DataCenter GPU Max...
當初PPT打很大,能源效率擠不上前三嗎?
自律努力讓自己變大隻
功耗很漂亮.
loki6865 wrote:
AMD Frontier 除了算力頂級之外,
也以超強的能源效率輾壓對手。
人品是做人最好的底牌.
INTEL Sapphire Rapids CPU 還在用上一代的製程 INTEL 7 (10 nm Enhanced SuperFin node)

不肯花錢買設備只肯擠牙膏

輸給 TSMC 7nm 製程 AMD 三代 EPYC 不奇怪

看看明年 Granite Rapids INTEL 3 製程會不會比較有競爭力


loki6865 wrote:
Intel的DataCenter GPU Max...
當初PPT打很大,能源效率擠不上前三嗎?


感覺搞的太複雜

==

https://www.eenewseurope.com/en/ponte-vecchio-3d-supercomputer-processor-uses-five-process-nodes/

3D Ponte Vecchio 處理器在五個製程節點上結合了 47 個功能塊,並與兩種不同的小晶片技術連接。這突出了一系列小晶片、處理器、網路和高速互連設計,這些設計將成為未來幾年超級電腦晶片設計的一部分。

英特爾展示有史以來最大設備的工程晶片
SiPearl,英特爾超級電腦 GPU 團隊
Ponte Vecchio 設計包含超過 1000 億個晶體管,由 16 個採用 TSMC N5 5nm 製程建構的運算模組組成,其中 8 個 Intel 7 記憶體模組針對隨機存取頻寬優化 SRAM 模組 (RAMBO) 進行了最佳化。它們堆疊在兩個採用 Intel 7、17 金屬層製程建構的 Foveros 基礎晶片上,每個基礎晶片尺寸為 646mm2。

八個 HBM2E 記憶體區塊和兩個 TSMC N7 7nm SerDes 連接區塊透過 11 個密集嵌入式互連橋 (EMIB) 連接到基礎晶片。SerDes 連接為 PVC SoC 之間的橫向擴展連接提供高速一致的統一結構。

每個模組都包含一個8 埠交換機,可實現多達8 路完全連接的配置,支援90G SerDes 鏈路,並且SerDes 模組支援載入/儲存、批次資料傳輸和同步語義,這對於擴展HPC 和AI 應用程式至關重要。

24 層 (11-2-11) 基板封裝容納 3D 堆疊 Foveros 晶片和 EMIB。為了處理基板的任何翹曲,針對這些晶片和封裝尺寸,在倒裝晶片球柵陣列 (FCBGA) 設計中使用了低溫焊料 (LTS)。

PVC 的基本處理單元是計算區塊。這些圖塊被組織為兩個集群,每個集群由 8 個高效能核心組成,具有分散式快取。每個核心包含 8 個處理 512b 浮點/整數運算元的向量引擎和 8 個矩陣引擎,其中 8 個深度脈動陣列執行 4096b 向量運算/引擎/時脈。

計算資料路徑由寬加載/儲存單元提供,該單元從 512KB L1 資料快取中獲取 512B/時鐘,該快取可透過軟體配置為暫存器。每個向量引擎分別為 FP16/FP32/FP64 資料格式實現 512/256/256 操作/時脈的吞吐量,而矩陣引擎為 TF32/FP16/BF16/INT8 運算元提供 2048/4096/4096/8192 作業/時鐘

兩個基礎晶片為堆疊區塊提供通訊網絡,並包括 SoC 基礎設施模組,其中包括記憶體控制器、完全整合的電壓調節器 (FIVR)、電源管理和 16 個 PCIe Gen5/CXL 主機介面通道。

計算和記憶體區塊使用密集的 36μm 間距微凸塊陣列面對面堆疊在基礎晶片的頂部。與最新 Intel Lakefield CPU 中使用的 50μm 凸點間距相比,此密集間距可提供高組裝良率、高功率凸點密度和電流容量,以及兩倍的訊號密度。

穿過基礎晶片的矽通孔供電在單一 C4 凸塊陰影內建構為 1×2、2×1、2×2、2×3 和 2×4 陣列。晶片間佈線和電力傳輸使用兩種頂級銅金屬,金屬層間距為 1μm 和 4μm 厚。

每個基礎晶片使用 55μm 節距 EMIB 連接到四個 HBM2E 區塊和一個 SerDes 區塊,基礎區塊還包含一個 144MB L3 緩存,稱為記憶體結構 (MF),具有複雜的幾何拓撲。它以 4096B/週期運行,以支援位於計算區塊核心陰影下的分散式快取。

L3 快取是一種大型存儲,可備份核心內部的各種 L1 緩存,並被組織為多個獨立的存儲體,每個存儲體可執行一次 64B 讀/寫操作/時脈。

基礎切片使用稱為 Foveros Die Interconnect (FDI) 的 3D 堆疊晶片到晶片連結來連接運算切片和 RAMBO 切片,該連結分為八組,每組每個運算切片包含 800 個通道。

此介面的發送器 (Tx) 和接收器 (Rx) 電路由計算區塊導軌供電,並且基礎區塊上的電平轉換器轉換為非同步介面內的電源電壓。經過 FDI 連結後,訊號在目標 Rx 域中被解壓縮回全寬度。

每個組都在基礎晶片上使用帶有相位補償的通用時脈來修正基礎區塊和計算區塊之間的差異。這需要一個基礎到計算塊時脈和一個返回基礎晶片的返回時脈以啟用時脈補償。

所有這些都支援 2Tbit/s 的聚合記憶體和橫向擴展頻寬,作為機器學習應用程式的加速器。英特爾的基準測試顯示,該裝置的 ResNet-50 神經網路的推理吞吐量達到每秒超過 43K 影像,訓練吞吐量達到 3400 影像/秒。
內文搜尋
X
評分
評分
複製連結
Mobile01提醒您
您目前瀏覽的是行動版網頁
是否切換到電腦版網頁呢?