- 在 React 子排行榜排名第 2,HTML 子排行榜排名第 4
- 在幾乎所有子類別中均排名第一:品牌與行銷(Brand & Marketing)、參考設計(Reference-Based Design)、數據與分析(Data & Analytics)、消費性產品(Consumer Product)、遊戲(Gaming)以及模擬(Simulations)。


由 @Zai_org 開發的 GLM-5.2 (Max) 在新的 Agent Arena 排行榜中位居第 10 名,表現與 Claude-Opus-4.8 (non-thinking) 旗鼓相當,並且以大幅領先之勢成為排名第 1 的開源模型!
在 Agent Arena 中,我們針對來自全球使用者社群、數百萬個真實世界且長程(long-horizon)的代理任務來評測模型。模型可以存取網路搜尋、檔案系統和終端機工具,以完成複雜的工作流程。該排行榜採用因果追蹤(causal tracing)方法論,衡量模型相對於平均模型在最終結果上的表現。
與 5.1 版本相比,GLM-5.2 (Max) 從第 13 名攀升至第 10 名。其最顯著的進步體現在經確認的任務成功率,以及使用者好評與投訴的比例。Bash 能力和工具幻覺(tool hallucination)表現保持穩定。與前一代模型相比,在可控性(steerability)方面存在權衡(-6.0% 對比 +1.2%)。
GLM-5.2 維持與 GLM-5.1 相同的價格,每百萬輸入/輸出代幣(MTokens)為 $1.4/$4.4 美元。具備 1M 上下文視窗。


GLM-5.2 (Max) 總體排名第 10 (+4.4%)
- 工具幻覺 (Tool Hallucination) 並列第 1 (+1.9%)
- 確認任務成功率 (Confirmed Task Success) 第 3 (+9.4%)
- 讚賞與投訴比 (Praise vs. Complaint) 第 3 (+14.9%)
- #16 Bash 恢復能力 (+1.7%)
- #20 可控性 (-6.0%)

GLM-5.2 在 Code Arena: Frontend 中排名為最佳開源模型。
在 Code Arena: Frontend 中,模型會針對來自真實用戶構建應用程式和網站(HTML 和 React)的代理式前端編碼任務進行評估。

GLM 5.2 在 PostTrainBench 上表現排在Opus 4.8之後
PostTrainBench
衡量 AI 代理對語言模型進行後訓練的能力
AI 代理是否能提升基礎 LLMs 的效能?我們為每個代理提供 4 個小型目標 LLMs、一個 H100 GPU,以及 10 小時的時間來進行後訓練。




























































































