• 2

[實做] 筆電 5090 快速處理大量影片轉文字需求

最近的上班人生,被分配到一個難題要想辦法處理:

公司內部有規劃資源,累積很多教育訓練資料,教育訓練平常由PM或RD主持,其中有些訓練內容很基礎重要、有些會隨時間變化,訓練內容都有錄影下來,但PM / RD主管常抱怨訓練太多用到他單位人力,成本太高,希望之後只提供簡報內容,請User自己看。簡單來說就是PM / RD主管希望可以盡量不要動到他們的人。上網查一查之後,想到的解決方式是:
  • 把教育訓練影片上傳到雲端,基礎重要的部份讓AI處理文字之後歸檔
  • 用AI方式做語音模型,配上RD/PM文字內容,直接文字轉語音,讓PM / RD可以不用額外派人力來錄音做檔案。
不過,提出這些想法的時候,內部就有意見了:
  • 老闆不希望技術資料上傳雲端,怕外流。
  • 租用雲端AI服務,資訊部很抗拒,因為廠商報價都是長期、且用量不知道如何評估等等。
  • 公司可以接受自己弄機器跑,但前提是要好管理。
老闆的需求我大致理解,經過多次跨單位協調之後,大家可接受方案是:
  • 用利潤中心的方式分配,大家出錢買一台帶中高階GPU的筆電。
  • 試試看用免費的資源,在本機端跑AI服務,不行的話筆電也可以挪作他用。
  • 搞不定,再叫資訊的人出去外面問私有雲的服務報價。
這問題落到我頭上,真的有夠燒腦的,花了兩三天找資料,計畫的處理方式如下:
  1. 筆電是ROG G835LX,有RTX 5090顯卡,用GPU資源去算。
  2. 用OpenAI的Whisper服務,分析以往教育訓練影片,把影片轉成文字歸檔。
  3. 再用Open TTS服務,找真人建立語音模型,把RD/PM的文字簡報變成聲音,配教學影片用。
筆電到位之後,馬上開始作業:


[實做] 筆電 5090 快速處理大量影片轉文字需求
ROG的G835LX筆電,資訊的人說老闆看到雲端的報價,馬上簽了這台需求(哈哈哈到底雲端報多貴)
[實做] 筆電 5090 快速處理大量影片轉文字需求
275HX + RTX 5090 + 64GB記憶體,應該夠用。[實做] 筆電 5090 快速處理大量影片轉文字需求
確認一下是275HX + RTX5090沒錯。[實做] 筆電 5090 快速處理大量影片轉文字需求
測試用的影片檔案大約是25-30分鐘長,我只需要聲音,所以壓縮到差不多100-150MB單檔,方便移動檔案跟作業。[實做] 筆電 5090 快速處理大量影片轉文字需求
Whisper是OpenAI的「語音轉文字」模型,特別專精語音方面的辨識,而且支援中文。利用GPU跟搭配的模型,可以達到最好的辨識效果,而且支援各種影音檔案,下載網址在此:
https://github.com/Const-me/Whisper[實做] 筆電 5090 快速處理大量影片轉文字需求
其中有人開發出可以在本機端使用、不需要雲端的Whisper Desktop,只要自己下載語音模型,就可以在本地處理語音轉文字的部份。點右下Release的部份進入下載。[實做] 筆電 5090 快速處理大量影片轉文字需求
看到WhisperDesktop.zip,直接點選下載。[實做] 筆電 5090 快速處理大量影片轉文字需求
解壓縮之後可以看到一個大向日葵的圖案,執行就可以了。[實做] 筆電 5090 快速處理大量影片轉文字需求
不過在使用之前,要先下載模型檔案,可以到hugging face下載:
https://huggingface.co/ggerganov/whisper.cpp/tree/main[實做] 筆電 5090 快速處理大量影片轉文字需求
Whisper Desktop的作者推薦用ggml-medium.bin這一個模型即可,體積稍微大,1.53GB。[實做] 筆電 5090 快速處理大量影片轉文字需求
打開Whisper Desktop的界面,一開始就需要載入模型,選擇剛下載好的檔案。[實做] 筆電 5090 快速處理大量影片轉文字需求
底下模型計算的部份,可以選擇GPU或是其他裝置,5090當然是要直接指定使用。[實做] 筆電 5090 快速處理大量影片轉文字需求
接著在語言部份選擇中文、選擇要轉換的影片檔案,然後選擇要輸出的文字格式(支援純文字、帶時間戳記文字、還有SRT字幕格式等等),我先選帶時間戳記的試試看。[實做] 筆電 5090 快速處理大量影片轉文字需求
按下「Transcribe」之後,影片轉文字模型馬上開始運作,GPU的負載也一下全滿,開始計算。[實做] 筆電 5090 快速處理大量影片轉文字需求
最後33分鐘的影片,花了4分鐘左右把影片內的文字處理完畢。[實做] 筆電 5090 快速處理大量影片轉文字需求
效果非常非常的好,PM咬字不清楚的地方也可以完整翻譯,
幾乎不需要修改,時間戳記也都幫忙標示好了。[實做] 筆電 5090 快速處理大量影片轉文字需求
再測試一個25分鐘的影片,一樣是4分鐘內轉換完畢。[實做] 筆電 5090 快速處理大量影片轉文字需求
這轉換的精準度極高,原本以為中文可能不會那麼順利,沒想到效果超好!

研究過一遍各種語音轉文字的服務,我發現大部分免費網站的方案,都有時間長度、上傳格式、還有用量的限制,如果要解開限制,一樣是需要列一筆預算來採買算力方案。因為準備處理的檔案有上千個,如果慢慢上傳慢慢處理,效率很差之外,人力工時方面也算是另外的支出。經過摸索之後,我發現Whisper Desktop加上訓練過的免費模型,判斷影片內語音轉文字的功能已經非常精準,而且可以完全在本機執行,完全符合老闆「不想上傳雲端」的需求。

不過研究到這邊,實際工時大概有超過12小時…真的很不容易(淚)

以上也有用一般文書筆電來測試辨識效率,不過很顯然速度沒高階GPU來的那麼快,根據Whisper Desktop作者說,他覺得效率在於顯卡記憶體的大小,但因為他手邊顯卡不多,而且AMD顯卡開發上遇到困難(?),只建議在Windows x64 + NVIDIA顯卡環境使用,這點可能要特別注意。

另外,處理過去累積下來的影片、整理好重點之後,下一個階段是計畫訓練文字轉真人語音,希望最後可以做出一個不需真人到場,也可以用文字轉語音的模型,然後輸出語音來配簡報。聽起來感覺一樣要花時間研究,等後續實做出來再來分享。
2025-11-12 20:05 發佈
很棒的分享
清楚明白大方向
用AI當成工具來加速簡化
化繁為簡!
很利害了!
Whisper是蠻好用的,用手機錄音,就可以整理成文字檔,並且利用AI把重點整理摘要,以前開個會還要人做記錄,很麻煩,沒人想幹這件事。

三星手機
內鍵錄音功能
就可以直接把音檔直接轉文字了
不過沒有用過同一個音檔 分別測試轉文字的效果
那種比較強就是了

不過我想應該不是本機服務,應該是走雲端吧!
有公司重大機密的就不適合
另外樓主的方法是本機端使用
不過轉好的文字檔檔案非常小
是否能確保不會程式背後被傳出去?
語音分析也就幾百年前的工具了
就算是不完美,也沒非需要用到大算力的AI吧
nick667

以前的語音辨識工具 中文很慘.. 現在AI這套 算完美.

2025-11-19 9:32
可以很厲害 非常的強
可以好好來看
太強大了 真好用
五分奉上,

感謝分享

也可以去試試看另一個 Whisper with GUI 的軟體, Vibe Whisper,可以像三星手機一樣區分發言人聲,Github可以找到這個軟體。
如果是內部會議,用teams 會不會也是種方式
結合copilot還能自動整理好會議記錄
  • 2
內文搜尋
X
評分
評分
複製連結
Mobile01提醒您
您目前瀏覽的是行動版網頁
是否切換到電腦版網頁呢?