如果老黃是指stable diffusion跟comfyui算圖速度等同4090的話
那倒是有可能,因為他沒說哪一塊效能等同4090啊!!!
至於3D遊戲大量運算的話......先保持觀望。
畢竟不知道Blackwell架構實際上比前一代強多少,
但光是記憶體規格5070就差了4090一大截,
個人是不太相信「實際上」提升多大,
技術面「DLSS」由於自己是FPS黨所以沒有使用過,
連玩3A動作遊戲也都沒有開過寧可自降畫質,
可能我是敏感體質 (笑
AI運算方面...請AI來解釋比較快:
AI TOPS FP4 與 FP8 的主要差異
主要在於數據精度(floating-point precision)與其對計算性能、能效及應用場景的影響。以下是詳細比較:
1. 數據精度與表示範圍
- FP8(8-bit floating point):
- 使用 8 位元表示浮點數,能表示的數值範圍較廣,適合需要一定精度的 AI 訓練與推理工作。
- 通常在深度學習模型中,FP8 提供了比 FP16 更高的效能,同時保持相對較低的精度損失。 - - FP4(4-bit floating point):
- 使用 4 位元表示浮點數,數值範圍極小(例如 -3 到 3),且可能出現裁剪和失真問題。
- FP4 的主要優勢在於能顯著減少記憶體頻寬需求和運算資源消耗,但精度損失更大,適合特定低精度應用或大規模模型中不敏感的部分。
- FP8:
- 在性能和精度之間達到良好平衡,適合用於大多數深度學習模型的訓練和推理。
- 能有效提升運算速度,同時保持模型準確性。 - - FP4:
- 計算效率極高,能進一步提升每秒運算次數(TOPS),例如 NVIDIA 的 Blackwell GPU 在 FP4 模式下可達到更高的 AI TOPS 值。
- 因為降低了數據表示需求,FP4 大幅降低了功耗和記憶體頻寬需求,非常適合超大規模模型的推理或需要極高效能密度的場景。
- FP8:
- 適用於需要較高精度的 AI 訓練,例如語言模型(如 GPT 系列)或需要穩定性能的應用。
- 在推理階段也被廣泛採用,因為其能提供足夠的準確性。 - - FP4:
- 更適合於推理階段中不敏感的部分,例如 Transformer 模型中某些層的矩陣計算。
- 在極端需求下,如超大規模語言模型或邊緣設備上,FP4 可顯著提高效能密度,但需要硬體和軟體支持混合精度運算來彌補精度損失。
- FP8 已經成熟並廣泛應用,但 FP4 的實現面臨更多挑戰:
- 數據失真問題:FP4 的數值範圍極小,需要採用縮放技術(如 NVIDIA 的自動混合精度縮放)來減少失真。
- 應用限制:FP4 雖然在特定場景中有效,但不適合需要高精度的應用,如某些科學計算或關鍵層操作。
- FP8 和 FP4 的主要差異在於精度、性能與適用場景。FP8 提供較高的平衡性,適合大多數 AI 訓練與推理,而 FP4 則以極低功耗和高效能密度為優勢,但需克服精度損失問題,更多地應用於特定優化場景。
4090仍然是當紅炸子雞 (可以搬3090板+改48GB),
5090D則是大砍AI運算性能但是保留遊戲效能,
5090無法進口且只支援FP4 (目前許多AI應用主力仍然是FP8)。
個人心得是,50系列不是不好,
而是一場發表會似乎吹噓得太過厲害...
期待日後各路大神的專業評測比較實際

內文搜尋

X