先聲明DeepSeek 不見得就是用了
只是可能
這需要調查
Distillation
首先有個Teacher 模型
比如説 OpenAI
需要用25萬個問題去訓練
然後產生Output
這個模型會根據這個過程產生中間的函數 節點
這個中間有各式各樣的知識
然後Student 模型去根據這個Teacher
的輸入跟輸出
去產生中間的函數 節點
那有人會問那Student 模型為何可以精簡和更有效率
因爲Teacher 模型會有很多無用或用不到的知識
有些產生方式Teacher會更多節點
Student 模型只需要捷徑
以上是我不專業的解說
請高手指教
其實不用
只要不斷問Teacher模型得到答案
去“喂”Student模型就可以了
優點是資源可以大幅減少
缺點是可能如果遇到冷門的問題
就答不出來了
因為Teacher模型很多你
認為不需要的節點
說不定其實是有用的
只是還沒用到而已
內文搜尋
X































































































