• 10

幫大家科普什麼是知識蒸餾

先聲明DeepSeek 不見得就是用了
只是可能
這需要調查

Distillation
首先有個Teacher 模型
比如説 OpenAI
需要用25萬個問題去訓練
然後產生Output
這個模型會根據這個過程產生中間的函數 節點
這個中間有各式各樣的知識

然後Student 模型去根據這個Teacher
的輸入跟輸出
去產生中間的函數 節點

那有人會問那Student 模型為何可以精簡和更有效率
因爲Teacher 模型會有很多無用或用不到的知識
有些產生方式Teacher會更多節點

Student 模型只需要捷徑

以上是我不專業的解說
請高手指教
2025-01-30 15:00 發佈
文章關鍵字 知識蒸餾
感覺是濃縮再濃縮
從已經篩選的資料去找答案
效率加快
就像從相似論文裡找文獻
比從圖書館找有效率
Open AI 和其他的大模型
其實以後也要把自己的模型縮小
比如說當算力不足的場景
當要把模型移到算力較小的機器
或是當客戶多過算力的時候
畢竟大部分的客人都是在問些“比較蠢”的問題
那Student 需要拿到原始Teacher模型模型嗎?
其實不用
只要不斷問Teacher模型得到答案
去“喂”Student模型就可以了

優點是資源可以大幅減少
缺點是可能如果遇到冷門的問題
就答不出來了
因為Teacher模型很多你
認為不需要的節點
說不定其實是有用的
只是還沒用到而已
所以現在微軟也在蒸留了嗎





蒸留到處都是,ai底層邏輯都類似。重點在算法

連大神都說讚了↓


那對整體硬體的需求會減少嗎?
這個要看整個宏觀的產業走向

首先訓練模型這邊還是需要龐大的算力
除非全宇宙的知識包過人類知道和不知道的都產生了
那很可怕(全知全能了)

可是應對客戶這邊確實可以用這個方式精簡
和分流

畢竟大部分的客戶都是問些雞毛蒜皮
而且重複又重複的“蠢問題”

悲觀的會認為的確不需要那麼多的算力

樂觀的說法反而會帶動需求
就是客戶會變多
比如如說蘋果就可以提供更多不一樣的服務給更多全世界的客戶
整體的需求只會更多

再次聲明
我只是小白
僅供各位摻考
爬山的阿光 wrote:
所以現在微軟也在蒸留...(恕刪)


是的微軟也在蒸留
大家都在蒸餾
這是在客戶端節省成本的方法

可是另一邊大模型也不會停下來
畢竟沒有Teacher
Student 要向誰學

要先有瓶酒
才能進一步蒸它

還有微軟蒸自己的酒沒問題吧

等哪天有證據別人在蒸它的酒才會翻臉吧
爬山的阿光

先確定一下openAI是如何未經他人同意,在網路上收割所有人的資訊吧;再說人家也只是做了他們曾經所做過的事情,重點是完全的開源免費呀

2025-01-30 18:42
VincentLu1021

網路上的不是公開資料嗎?這叫收割?openAI有公開他的資料? 不過某種程度上一直去問openAI取回的資料也是公開的。

2025-01-31 2:11
你去看看目前在ai業界yt上面的大v們


根本不是在往這個方向在談,而是如何面對接下來的挑戰。


再看看美國股市的走向就知,聰明的錢已經在移動了。

不需要懂專業用語,看圖最直接,目前解讀如圖
smallbeetw

這個圖根本避重就輕,所謂的real data OpenAI自己從網路獲取的資料,也有版權問題拍。紐約時報就提告了,OpenAI自己辯解說是創新的必要

2025-01-30 17:51
truthmanman

照你這個邏輯,以後大家碩士論文就拿同學的來改就好了,不用去找資料了對吧?

2025-01-30 23:50
爬山的阿光 wrote:
你去看看目前在ai業...(恕刪)


不少所謂的大V同一時間講同樣的話
這場景很熟
以前發生過好幾次
結果勒

至於這兩天才有些不一樣的聲音出現

陰謀論點
微軟一方面打壓輝達的氣焰
試圖從賣方市場轉過來

又可以用劣幣去打擊真正投入資源的
比如説阿里百度一眾中國本身的AI

就像當年對盜版視而不見一樣的手法

這只是我天馬行空的想法
當我是小白好了
  • 10
內文搜尋
X
評分
評分
複製連結
請輸入您要前往的頁數(1 ~ 10)
Mobile01提醒您
您目前瀏覽的是行動版網頁
是否切換到電腦版網頁呢?