魯舌麵 wrote:要看跑什麼模型,單卡4090...(恕刪) 這篇文章根本就是門外漢寫的你會相信 那表示你沒再玩單機AIdeepseek 70b 需要 44g RAM 或 VRAM但單張4090只有24G VRAM不夠的記憶體 只能放到RAMDDR4 的速度&頻寬 遠遠落後於 GDDR6所以近20G放在RAM 表示幾乎被CPU拖累 可以視為純 cpu的速度24G VRAM 只適合跑32B 近40個token /s4090 的速度 應該是395+的3倍以上所以395+跑32B應該 10 token/s 上下70B 4090 48G雙卡 速度應該在35-40 token/s軟體平台的問題 導致 只有48G的VRAM卻只有一個4090核心在工作 所以速度降到15-20 token/s395+ 約在3-5 token/s
八幡 wrote:AI 的話題真的很熱...(恕刪) 因為deepseek 對硬體需求大降讓AI可以走進個人家中這一周來 我在b站 摸索的結果有興趣的去b站走走14B 約 VRAM 9G 上下32B 約 VRAM 20G 上下70B 約VRAM 43G 上下個人要玩 48G 顯卡要12-16G ,8G的沒搞頭二張 魔改 2080TI 22G 一張NT 13000 含關稅 台灣 賣30000)三張ARC 770 16G 或 魔改RX580 16G(太舊AMD的麻煩 不建議 要花時間搞定 一張NT3500 台灣有賣 NT3500)四張 2060/3060 12G ( 4張 PCIE只能找工作站)一堆舊計算卡 都被挖出來了(雖然vram很大, 但計算力真的拉, 勸你放棄)多張顯卡的要跑 linux ubuntu + vllm,win10 的好像就一張,多張顯卡也是擴VRAM 但GPU還是跑一顆 或分散跑卻跑不滿 但總效率還是一顆上下文調小一點 速度可以增快 但思考變短淺實際應用10 token/s 才有應用價值 不然看看一秒 1,2字 你會等到瘋再不濟 也要6-8 tokens/s395+ 32B只有3-4 token/s 買來玩AI 建議還是放棄 買顯卡用7b 14b還不如直接用網路連 或直接買AM5 +DDR5 強力CPU運算即可 速度也還可以395+ 只適合 7b 14bNVIDIA 還在搞24G 真的很拉 給個96G不好嗎? 保證賣瘋NVIDIA 等明年大容量推出 才會業績變好但顯卡還NVIDIA 的好 支援最足(不足的就花時間 花錢處理)deepseek 本周還深挖 cuda 將 NVIDIA的效能再增加幾成顯卡速度評估 以我的3060 12g 跑 14b 大約 15-18 token那跑7b 就會速度加倍 30-36 32b(假設單張3060 24G) 速度就為減半 6-8也就是 bit 的比例數 那滿血版 671b 就是0.3 tokens/s所以 2 張 3060 12G token 跑32B 大概是12-16 token (假設完全發揮效能)實際還有PCIE頻寬的限制AI還沒大爆發 只是正在走進家庭 要玩大的在等5年以上玩小的 買顯卡比較快 買二手的約10000可以玩32B最建議的是 2080ti 22g 一張搞定