對岸AI蓬勃發展,
科技島加油。
滙港資訊 2025/04/30
小米宣布,開源首個專注於推理能力的大模型「Xiaomi MiMo」。
集團指,「Xiaomi MiMo」以70億參數規模,在數學推理(AIME 24-25)和代碼競賽(LiveCodeBench v5)等公開測評中表現優異,超越OpenAI的閉源模型o1-mini及阿里Qwen2.5-32B等更大規模的開源模型。
阿里巴巴通義千問發布並開源Qwen3
阿里巴巴(09988)通義千問周二凌晨發布新版Qwen3系列人工智能(AI)模型,公司聲稱,新版模型可以匹敵谷歌(Google)和OpenAI提供的最佳模型,在某些情況下甚至優於競爭對手。
新版Qwen3包括2個MoE模型和6個Dense模型,參數量從6億個到2350億個。與DeepSeek-R1、OpenAI o1及o3-mini、馬斯克的Grok 3和谷歌Gemini 2.5 Pro等其他頂級模型比較,旗艦模型Qwen3-235B-A22B在編碼、數學、通用能力等基準評估中,取得具競爭力的結果。
小型MoE模型Qwen3-30B-A3B的活化參數量是QwQ-32B的10%,表現更勝一籌,甚至像Qwen3-4B這樣的小模型,也能匹敵Qwen2.5-72B-Instruct的表現。
六個Dense模型也已開源,包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B,均在Apache 2.0許可下開源。
Qwen3模式支持兩種思考模式,其一為思考模式,在這種模式下,模型會逐步推理,經過深思熟慮後給予最終答案。這種方法非常適合需要深入思考的複雜問題。其二是非思考模式,能提供快速、近乎即時的反應,適用於對速度要求高於深度的簡單問題。
通義千問並表示,Qwen3模型推理能力大幅提升,在數學、程式碼和邏輯推理等評測中,達到同規模業界SOTA水準。
·
49分鐘前
DeepSeek今日於AI開源社區Hugging Face上發佈了一個名爲DeepSeek-Prover-V2-671B的新模型。據悉,DeepSeek-Prover-V2-671B使用了更高效的safetensors文件格式,並支持多種計算精度,方便模型更快、更省資源地訓練和部署,參數達6710億,或爲去年發佈的Prover-V1.5數學模型升級版本。在模型架構上,該模型使用了DeepSeek-V3架構,採用MoE(混合專家)模式,具有61層Transformer層,7168維隱藏層。同時支持超長上下文,最大位置嵌入達163840,使其能處理複雜的數學證明,並且採用了FP8量化,可通過量化技術減小模型大小,提高推理效率。
DeepSeek 671B省流版:
單張 NVIDIA 4090 顯示卡即可達到流暢推理,減少 93.3% 的顯存佔用,提升吞吐量達 5.76 倍。
DeepSeek-Prover-V2-671B 是 DeepSeek AI 團隊於 2025 年 4 月 30 日發布的開源大模型,專門針對數學定理證明任務進行了深度最佳化。 以下是此模型的核心特性與技術亮點:
1. 模型定位與核心能力 - 數學定理證明專家:該模型基於 6710 億參數規模(671B)的超大架構,專注於形式化數學證明領域,能夠透過嚴格的邏輯推理完成複雜定理的自動化證明。 - 技術架構:採用混合專家(MoE)架構與多任務注意力機制,透過稀疏激活機制動態調用不同數學領域的“專家模組”,實現高效推理。 其訓練可能結合了檢索增強生成(RAG)技術,以整合外部數學知識庫。
2. 性能優勢 - 推理精度與效率:相比通用大模型(如 DeepSeek 70B),該模型在數學證明任務中表現出更高的準確性,尤其在處理抽象代數、拓撲學等高階數學問題時,能產生符合形式化驗證要求的證明步驟。 - 長上下文支援:支援超長文本序列處理(推測基於 DeepSeek-V2 的 128K token 上下文能力優化),適合處理複雜定理證明中冗長的前提條件和推導過程。
3. 應用場景 - 科學研究輔助:提供數學家自動化證明工具,加速猜想驗證與定理發現流程。 - 教育領域:用於產生教學案例或驗證學生提交的證明過程邏輯嚴密性。 - 工業驗證:在晶片設計、密碼學等領域輔助形式化驗證,確保演算法安全性。
4. 開源與部署 - 開源生態:模型已發佈於 Hugging Face 平台(專案地址:),支援學術與商業用途。 - 部署最佳化:結合清華大學的 kTransformers 框架,可透過 CPU-GPU 混合架構降低硬體門檻。 例如使用單張 NVIDIA 4090 顯示卡即可實現流暢推理,大幅減少部署成本(原需多卡 H100 叢集)。
5. 技術突破 - 訓練資料:可能基於高品質數學語料庫(如形式化數學庫 Lean 4、Isabelle 的證明資料)進行預訓練與微調,並採用強化學習(如 GRPO 演算法)對齊人類證明偏好。 - 效率創新:採用多頭潛在註意力(MLA)機制壓縮鍵值緩存,減少 93.3% 的顯存佔用,提升吞吐量達 5.76 倍。
該模型的發布標誌著 AI 在形式化數學領域的重大突破,為科學研究與工程提供了新的工具範式。 如需進一步了解技術細節或部署方案,可參考其官方開源文件及硬體最佳化案例。
2025-04-29 20:35
騰訊在大模型領域的策略和部署仍在持續進化。
4月29日,澎湃新聞記者獲悉,騰訊對其混元大模型研發體系進行了全面重構,圍繞算力、演算法和數據三大核心板塊,刷新團隊部署,加碼研發投入。
調整後,騰訊成立兩個新的部門:大語言模型部和多模態模型部,分別負責探索大語言模型和多模態大模型的前沿技術,持續迭代基礎模型,提升模型能力。
同時,進一步加強大模型資料能力與平台底座建設,其中資料平台部專注大模型資料全流程管理與建設,機器學習平台部則聚焦機器學習與大數據融合平台建設,為AI模型訓練推理、大數據業務提供全面高效的PaaS平台底座,共同支撐騰訊混元大模型技術研發。
騰訊相關人士向記者表示,這意味著騰訊在快速調整組織架構以因應日新月異的大模型產業發展,這次調整有利於整合資源,優化研發流程,進一步提升騰訊在AI領域的長期技術作戰能力。
這也是騰訊近期在AI領域的另一個重要組織架構調整。此前,騰訊已整合元寶、ima、QQ瀏覽器、搜狗輸入法四大AI產品線,積極推動「核心技術自研+擁抱先進開源」的多模型策略。這顯示,騰訊在AI領域的版面不斷提速,步伐日益加快。
騰訊2024年第四季及年度財報顯示,騰訊研發投入再次創下歷史新高,達707億元。自2018年公佈研發投入以來,累計總額已達3,403億元。伴隨投入加碼,騰訊AI策略加速落地。
混元是騰訊自研的通用大模型,支援文字、影像、影片和3D等多種模態內容的理解與生成。今年以來,混元大模型技術迭代速度顯著加快,相繼推出快思考模型Turbo S和深度思考模型T1,均在公開基準測試中達到業界領先水平,在視頻生成和3D生成領域也推出多個新版本模型。混元3D生成、視訊生成、DiT文生圖及千億參數MoE語言模式等模式均已對外開源,GitHub總Star數超過2.9萬。
混元深度融入騰訊各業務線,廣泛應用於微信、QQ、騰訊元寶、騰訊會議、騰訊文檔等核心產品,提升騰訊內部產品的智慧化水平,並透過騰訊雲向外輸出模型能力,幫助企業及開發者創新提效。
內文搜尋

X