想跑ollama+llama3問硬體需求

阿季
個人積分：1分
文章編號：91334360

1分

樓主

2025-03-27 17:39

目前想弄一台主機跑調教自己的資料模型
ollama用拿llama3作為底層調教
目前還摸索，由於自己的電腦實在是太爛了
跑起來記憶體直接就被吃爆了
所以想要直接弄一台來當主機來跑跑看
只是語言模型的話，並沒有想要拿來跑圖

想問的是只是單純的把CPU記憶體跟顯卡推高就好了
還是需要注意什麼
比方說
CPU:Ultra 5 245K
記憶體:32gb
顯示卡:RTX5070 16Gb

還是說語言模型其實不需要RTX5070
就算是3060 12Gb 也是可以跑得很順暢了?

2025-03-27 17:39 發佈

文章關鍵字跑ollama+llama3 硬體需求

Ghostwriter

Ghostwriter
個人積分：2041分
文章編號：91335045

2041分

2樓

2025-03-27 20:43

阿季 wrote:
目前想弄一台主機跑調...(恕刪)

7B fp16 推理至少要 15G VRAM
用混合精度微調至少兩張 3090 24G
你說不清楚想幹嘛沒法判斷

阿季

阿季
個人積分：1分
文章編號：91339413

1分

樓主

2025-03-28 16:15

Ghostwriter wrote:
7B fp16 推理...(恕刪)

謝謝回應
需求主要是想要餵大概1~2千份的文件說明文件進去，方便查詢內容
因為肯定是要反覆測試怎樣的文字結構最有效
所以反覆的餵食是肯定的

目前llama3有8b的版本
ram應該是16Gb以上跑不掉了

反覆的餵食需要大量的時間
預算不可能無效擴大
主要是想知道堆高CPU跟堆高顯卡
哪一邊更有效

依您說的看來是堆高VRAM比較實在

Ghostwriter

Ghostwriter
個人積分：2041分
文章編號：91340370

2041分

4樓

2025-03-28 19:30

阿季 wrote:
謝謝回應需求主要是想...(恕刪)

這又是另外一個議題
資料清洗是要做 RAG? 還是資料會用來微調模型?
前者比較簡單，後者不好做，沒 3090 以上的顯卡就別搞
至於 RAG 不會用 llama 系列來做這件事
通常是選支援 Embedding 的模型，像是 embed-multilingual-v3.0
然後選 Rank 的模型替預測的結果排序

硬體資源消耗從大排到小是
顯卡 -> 記憶體 = CPU
32G 記憶體偏少，64G 佳

LLM 後端不建議用 llama.cpp、ollama
實際應用會選 vllm、lmdeploy、sglang、trt-llm