發展AI不用NVIDIA GPU會怎樣

在過去的這一年裡,AI 圈子似乎達成了一種昂貴的共識:只有一種“硬通貨”值得追逐,那就是 NVIDIA 的 GPU。無論是 OpenAI、Meta 還是那一長串的獨角獸名單,實際上都在給黃仁勳打工。

但就在這周,Google 甩出了一枚重磅炸彈:全球最強模型Gemini 3 Pro。

這不僅是一個在LMArena(大模型競技場)首破 1500 分、登頂全球最強的模型,更重要的是它的“出生證明”:它是業界首個完全不依賴 NVIDIA 晶片,純粹由 Google 自研 TPU 叢集訓練出來的超大規模模型。

這意味著,Google 正在用實際行動打破那個“沒有 H100 就做不出頂級 AI”的魔咒。

矽晶等級的“獨立宣言”
如果要看懂 Google 這步棋有多深,請仔細看下面這張 TPU 供應鏈圖譜。這不僅僅是一張硬體清單,更是一份擺脫算力霸權的“獨立宣言”。


發展AI不用NVIDIA GPU會怎樣


徹底拋棄輝達:Gemini 3 Pro 與Google的“全端”反擊
2025-12-01 18:49 發佈
tteffuB 特肥吧 wrote:
在過去的這一...(恕刪)


這是先有雞還是先有蛋的問題

GPU的浮點運算能力,讓當初只能做向量圖象顯示功能的GPU有了不需要依附在CPU之下的配角角色。

AI發展如此蓬勃的情況下,CPU依然存在

TPU只是再特化的運算單元,提供給業界不一樣的組合選擇

關鍵是CUDA

CUDA讓系統、軟體業者的開發時間與難度大幅降低

成就了大量多工、批次處理能力為特色的軟體、系統。

Google本身有足夠的資源開發自己想要的設備與系統

問題在於GOOGLE願意分享到那種程度?

輝達是硬體商,不會跟AI客戶爭市場,短時間內也不會有威脅軟體、系統、AI客戶的產品

Google不同
tteffuB 特肥吧 wrote:
在過去的這一...(恕刪)


沒有NVIDIA的AI晶片也能發展AI,中國大陸也有好幾家AI晶片廠商,最有名的就是華為,華為的單一AI晶片性能大約落後NVIDIA三年左右,但依靠集群也能和N家一拼,只是目前產能有限供貨不足。N卡的優勢在於CUDA生態,有這個生態比較好用,但不是必須。
GPU本來就不是唯一解,只是因為走得比較前面而已。但功耗比是GPU的短版。
但GPU在做矩陣之類的疊加運算相對沒效率,所以NV才要在每個核心裡加入Tensor Core,蘋果也在GPU裡加入類神經網絡單元。
現在的模型運算規模已經大到了對電力需求錙銖必較的階段。晶片的功耗比會比晶片能算多快更被企業青睞。
首先你要定義甚麼叫 "發展 AI"
1. 建立一個數千億參數的大模型
2. 微調一個大模型
3. 應用一個大模型

1. 才需要一些深不見底的硬件
2 和 3 不一定需要 nVidia

tteffuB 特肥吧 wrote:
發展AI
文章說:全球最強模型Gemini 3 Pro是業界首個完全不依賴 NVIDIA 晶片,純粹由 Google 自研 TPU 叢集訓練出來的超大規模模型。


問AI

當然存在不依賴 NVIDIA 晶片的 AI 大模型,這些模型有的基於國產晶片訓練,有的適配 AMD 晶片、谷歌 TPU 等非 NVIDIA 硬體,且不少在性能上達到行業領先水準,以下是具體介紹:

盤古 Ultra:這是華為推出的昇騰原生千億級通用語言大模型,參數規模達 1350 億,完全基於國產昇騰 NPU 完成訓練。 其依託 8192 張昇騰 NPU 構建的大規模集群,還將算力利用率提升至 50%,並且在多個領域的評測中超越了 Llama 405B 等模型,同時能和 DeepSeek - R1 等大規模稀疏模型相抗衡,充分證明瞭昇國產騰晶片支撐大規模大模型訓練的能力。

ZAYA1:它是首個完全基於 AMD 硬體生態系統構建的大型混合專家模型,由 AMD 攜手 IBM 和 AI 初創公司

Zyphra 聯合研發。 該模型的訓練依託 IBM 雲平臺,硬體採用 AMD Instinct MI300X GPU,搭配 Pensando 網路技術與 ROCm 軟體平臺。 其訓練集群由 128 個節點組成,綜合算力超 750 PFLOPs,綜合性能和 Qwen3 系列模型不相上下,還優於 SmolLM3 等主流開源模型。

SpikingBrain:這是中科院研發的類腦大模型,團隊成功在國產 MetaX C550 GPU 集群上訓練出 76B 規模的該模型。 該模型藉助脈衝神經元機制,稀疏激活率高達 69.15%,大幅降低了計算成本與能耗。 像 SpikingBrain - 7B 在處理 400 萬 tokens 的超長文本時,首個 token 生成延遲比傳統 Transformer 快 100 倍,展現出在國產 GPU 上處理大規模任務的高效性。

百靈系列(Ling - Lite、Ling - Plus):螞蟻集團推出的兩款混合專家大模型,其中 Ling - Plus 基座模型參數規模達 2900 億。 這兩款模型通過動態參數分配、自適應容錯恢復等創新策略,實現了在國產 GPU 的低性能設備上高效訓練。 其 3000 億參數級別的模型訓練性能,可與同規模的英偉達晶元訓練模型相媲美,而且訓練成本能節省近 20%。

Gemini 2.5 Pro:谷歌的這款頂尖 AI 模型完全擺脫了對 NVIDIA 晶片的依賴,訓練和推理全程基於谷歌自研的張量處理器(TPU),尤其是最新的第六代 Trillium TPU。 該模型在推理、程式設計等複雜任務上表現出色,曾超越Anthropic的 Claude 3.7 “Sonnet”,其依託的 TPU v5p 在大模型訓練速度上約為 NVIDIA 旗艦 H100 的 2.8 倍,彰顯了 TPU 在高端 AI 模型研發領域的強勁實力。

DeepSeek 系列:該系列模型採用 CPU + TPU 的創新架構,徹底摒棄了對 NVIDIA GPU 的依賴。 借助谷歌 TPU 在能效和擴充性上的優勢,不僅降低了運行能耗與硬體投入成本,還具備良好的可擴充性。 此外,在清華大學的赤兔推理引擎適配下,DeepSeek - R1 - 671B 在國產晶片等硬體上也能實現高效推理,進一步拓展了其脫離 NVIDIA 晶片的應用場景。
內文搜尋
X
評分
評分
複製連結
Mobile01提醒您
您目前瀏覽的是行動版網頁
是否切換到電腦版網頁呢?