智譜 GLM-5.2 (Max) 在 Code Arena: Frontend 中排名第二

令人振奮的消息：GLM-5.2 (Max) 在 Code Arena: Frontend 中排名第二，領先 Claude Opus 4.7 (Thinking) 達 29 分，僅次於 Fable 5！與 Kimi-K2.6 和 Minimax-M3 相比，GLM-5.2 是表現大幅領先的最強開源模型。

- 在 React 子排行榜排名第 2，HTML 子排行榜排名第 4
- 在幾乎所有子類別中均排名第一：品牌與行銷（Brand & Marketing）、參考設計（Reference-Based Design）、數據與分析（Data & Analytics）、消費性產品（Consumer Product）、遊戲（Gaming）以及模擬（Simulations）。

智譜 GLM-5.2 (Max) 在 Code Arena: Frontend 中排名第二

由 @Zai_org 開發的 GLM-5.2 (Max) 在新的 Agent Arena 排行榜中位居第 10 名，表現與 Claude-Opus-4.8 (non-thinking) 旗鼓相當，並且以大幅領先之勢成為排名第 1 的開源模型！

在 Agent Arena 中，我們針對來自全球使用者社群、數百萬個真實世界且長程（long-horizon）的代理任務來評測模型。模型可以存取網路搜尋、檔案系統和終端機工具，以完成複雜的工作流程。該排行榜採用因果追蹤（causal tracing）方法論，衡量模型相對於平均模型在最終結果上的表現。

與 5.1 版本相比，GLM-5.2 (Max) 從第 13 名攀升至第 10 名。其最顯著的進步體現在經確認的任務成功率，以及使用者好評與投訴的比例。Bash 能力和工具幻覺（tool hallucination）表現保持穩定。與前一代模型相比，在可控性（steerability）方面存在權衡（-6.0% 對比 +1.2%）。

GLM-5.2 維持與 GLM-5.1 相同的價格，每百萬輸入/輸出代幣（MTokens）為 $1.4/$4.4 美元。具備 1M 上下文視窗。

智譜 GLM-5.2 (Max) 在 Code Arena: Frontend 中排名第二

GLM-5.2 (Max) 總體排名第 10 (+4.4%)
- 工具幻覺 (Tool Hallucination) 並列第 1 (+1.9%)
- 確認任務成功率 (Confirmed Task Success) 第 3 (+9.4%)
- 讚賞與投訴比 (Praise vs. Complaint) 第 3 (+14.9%)
- #16 Bash 恢復能力 (+1.7%)
- #20 可控性 (-6.0%)

智譜 GLM-5.2 (Max) 在 Code Arena: Frontend 中排名第二

GLM-5.2 在 Code Arena: Frontend 中排名為最佳開源模型。

在 Code Arena: Frontend 中，模型會針對來自真實用戶構建應用程式和網站（HTML 和 React）的代理式前端編碼任務進行評估。

智譜 GLM-5.2 (Max) 在 Code Arena: Frontend 中排名第二

GLM 5.2 在 PostTrainBench 上表現排在Opus 4.8之後

PostTrainBench
衡量 AI 代理對語言模型進行後訓練的能力

AI 代理是否能提升基礎 LLMs 的效能？我們為每個代理提供 4 個小型目標 LLMs、一個 H100 GPU，以及 10 小時的時間來進行後訓練。

智譜 GLM-5.2 (Max) 在 Code Arena: Frontend 中排名第二