公司內部有規劃資源,累積很多教育訓練資料,教育訓練平常由PM或RD主持,其中有些訓練內容很基礎重要、有些會隨時間變化,訓練內容都有錄影下來,但PM / RD主管常抱怨訓練太多用到他單位人力,成本太高,希望之後只提供簡報內容,請User自己看。簡單來說就是PM / RD主管希望可以盡量不要動到他們的人。上網查一查之後,想到的解決方式是:
- 把教育訓練影片上傳到雲端,基礎重要的部份讓AI處理文字之後歸檔
- 用AI方式做語音模型,配上RD/PM文字內容,直接文字轉語音,讓PM / RD可以不用額外派人力來錄音做檔案。
- 老闆不希望技術資料上傳雲端,怕外流。
- 租用雲端AI服務,資訊部很抗拒,因為廠商報價都是長期、且用量不知道如何評估等等。
- 公司可以接受自己弄機器跑,但前提是要好管理。
- 用利潤中心的方式分配,大家出錢買一台帶中高階GPU的筆電。
- 試試看用免費的資源,在本機端跑AI服務,不行的話筆電也可以挪作他用。
- 搞不定,再叫資訊的人出去外面問私有雲的服務報價。
- 筆電是ROG G835LX,有RTX 5090顯卡,用GPU資源去算。
- 用OpenAI的Whisper服務,分析以往教育訓練影片,把影片轉成文字歸檔。
- 再用Open TTS服務,找真人建立語音模型,把RD/PM的文字簡報變成聲音,配教學影片用。
![[實做] 筆電 5090 快速處理大量影片轉文字需求](https://attach.mobile01.com/attach/202511/mobile01-254a6cb8db3b0eaaf8eac6db56780c51.jpg)
ROG的G835LX筆電,資訊的人說老闆看到雲端的報價,馬上簽了這台需求(哈哈哈到底雲端報多貴)
![[實做] 筆電 5090 快速處理大量影片轉文字需求](https://attach.mobile01.com/attach/202511/mobile01-432af508b08c19f39bf5153b06cff870.jpg)
275HX + RTX 5090 + 64GB記憶體,應該夠用。
![[實做] 筆電 5090 快速處理大量影片轉文字需求](https://attach.mobile01.com/attach/202511/mobile01-d1e3a85ad813d05321c3bb038e7b6ae1.jpg)
確認一下是275HX + RTX5090沒錯。
![[實做] 筆電 5090 快速處理大量影片轉文字需求](https://attach.mobile01.com/attach/202511/mobile01-8f004ac6b489a1f83f89722a7a931d4b.jpg)
測試用的影片檔案大約是25-30分鐘長,我只需要聲音,所以壓縮到差不多100-150MB單檔,方便移動檔案跟作業。
![[實做] 筆電 5090 快速處理大量影片轉文字需求](https://attach.mobile01.com/attach/202511/mobile01-49247ec813f203a7fa3ca14c1ef4e9cc.jpg)
Whisper是OpenAI的「語音轉文字」模型,特別專精語音方面的辨識,而且支援中文。利用GPU跟搭配的模型,可以達到最好的辨識效果,而且支援各種影音檔案,下載網址在此:
https://github.com/Const-me/Whisper
![[實做] 筆電 5090 快速處理大量影片轉文字需求](https://attach.mobile01.com/attach/202511/mobile01-f21d220bc9350465e0cf0923fe7cd214.jpg)
其中有人開發出可以在本機端使用、不需要雲端的Whisper Desktop,只要自己下載語音模型,就可以在本地處理語音轉文字的部份。點右下Release的部份進入下載。
![[實做] 筆電 5090 快速處理大量影片轉文字需求](https://attach.mobile01.com/attach/202511/mobile01-d36c46c9867e3fe4c7926a522369022d.jpg)
看到WhisperDesktop.zip,直接點選下載。
![[實做] 筆電 5090 快速處理大量影片轉文字需求](https://attach.mobile01.com/attach/202511/mobile01-1aa5ae8bc6d46bccbfd99165d9e875a7.jpg)
解壓縮之後可以看到一個大向日葵的圖案,執行就可以了。
![[實做] 筆電 5090 快速處理大量影片轉文字需求](https://attach.mobile01.com/attach/202511/mobile01-a44247b73d55bba70fc479b3ac1dd080.jpg)
不過在使用之前,要先下載模型檔案,可以到hugging face下載:
https://huggingface.co/ggerganov/whisper.cpp/tree/main
![[實做] 筆電 5090 快速處理大量影片轉文字需求](https://attach.mobile01.com/attach/202511/mobile01-c146b8a5266e34eefae582cfa4152678.jpg)
Whisper Desktop的作者推薦用ggml-medium.bin這一個模型即可,體積稍微大,1.53GB。
![[實做] 筆電 5090 快速處理大量影片轉文字需求](https://attach.mobile01.com/attach/202511/mobile01-0ad9e2f2077a3789d32448ea90e4298c.png)
打開Whisper Desktop的界面,一開始就需要載入模型,選擇剛下載好的檔案。
![[實做] 筆電 5090 快速處理大量影片轉文字需求](https://attach.mobile01.com/attach/202511/mobile01-cc85045040df7bff118f3ae635812bef.png)
底下模型計算的部份,可以選擇GPU或是其他裝置,5090當然是要直接指定使用。
![[實做] 筆電 5090 快速處理大量影片轉文字需求](https://attach.mobile01.com/attach/202511/mobile01-41ad1109f8b6e8b8d5071b6d62bac2da.png)
接著在語言部份選擇中文、選擇要轉換的影片檔案,然後選擇要輸出的文字格式(支援純文字、帶時間戳記文字、還有SRT字幕格式等等),我先選帶時間戳記的試試看。
![[實做] 筆電 5090 快速處理大量影片轉文字需求](https://attach.mobile01.com/attach/202511/mobile01-48ba405b8571c140c7c32159f85d87e4.jpg)
按下「Transcribe」之後,影片轉文字模型馬上開始運作,GPU的負載也一下全滿,開始計算。
![[實做] 筆電 5090 快速處理大量影片轉文字需求](https://attach.mobile01.com/attach/202511/mobile01-ba63a032d47ce04ea82605535a1f34c7.jpg)
最後33分鐘的影片,花了4分鐘左右把影片內的文字處理完畢。
![[實做] 筆電 5090 快速處理大量影片轉文字需求](https://attach.mobile01.com/attach/202511/mobile01-519e76f7d2841c3453f17218f2ec89cf.png)
效果非常非常的好,PM咬字不清楚的地方也可以完整翻譯,
幾乎不需要修改,時間戳記也都幫忙標示好了。
![[實做] 筆電 5090 快速處理大量影片轉文字需求](https://attach.mobile01.com/attach/202511/mobile01-ae1e5547b4b7c72e7651d5d22ec68b61.png)
再測試一個25分鐘的影片,一樣是4分鐘內轉換完畢。
![[實做] 筆電 5090 快速處理大量影片轉文字需求](https://attach.mobile01.com/attach/202511/mobile01-4ebad9fd2feffa76f58865fdccd0f145.png)
這轉換的精準度極高,原本以為中文可能不會那麼順利,沒想到效果超好!
研究過一遍各種語音轉文字的服務,我發現大部分免費網站的方案,都有時間長度、上傳格式、還有用量的限制,如果要解開限制,一樣是需要列一筆預算來採買算力方案。因為準備處理的檔案有上千個,如果慢慢上傳慢慢處理,效率很差之外,人力工時方面也算是另外的支出。經過摸索之後,我發現Whisper Desktop加上訓練過的免費模型,判斷影片內語音轉文字的功能已經非常精準,而且可以完全在本機執行,完全符合老闆「不想上傳雲端」的需求。
不過研究到這邊,實際工時大概有超過12小時…真的很不容易(淚)
以上也有用一般文書筆電來測試辨識效率,不過很顯然速度沒高階GPU來的那麼快,根據Whisper Desktop作者說,他覺得效率在於顯卡記憶體的大小,但因為他手邊顯卡不多,而且AMD顯卡開發上遇到困難(?),只建議在Windows x64 + NVIDIA顯卡環境使用,這點可能要特別注意。
另外,處理過去累積下來的影片、整理好重點之後,下一個階段是計畫訓練文字轉真人語音,希望最後可以做出一個不需真人到場,也可以用文字轉語音的模型,然後輸出語音來配簡報。聽起來感覺一樣要花時間研究,等後續實做出來再來分享。





























































































