• 2

字幕檔如何轉純文書檔

底下一小段字幕檔想轉成文字檔來讀,一切只因他說的速度滿快的我跟不上.然而字幕檔會有編號跟時間資料,我該如何把他剃除成為一篇文章呢? 懇請知道技巧的網友教我一下,感激不盡.

11
00:00:19,728 --> 00:00:21,730
Okay, first off,
big thanks to Storyblocks

12
00:00:21,813 --> 00:00:23,857
for sponsoring this video.
They make it possible

13
00:00:23,941 --> 00:00:26,276
to produce guides like this
for free, so if you appreciate

14
00:00:26,360 --> 00:00:28,904
this kind of content, please
listen to this message and

15
00:00:28,987 --> 00:00:30,988
check out Storyblocks using the
link in the description below.
2021-02-11 0:11 發佈
專門處理字幕的軟體應該都可以,我這電腦沒放字幕軟體就不測試了,另外提供一個用正規表示式取代的作法:
 
1.先下載個支援正規表示式的文字編輯器(如Notepad++)
2.用Notepad++打開字幕檔,按Ctrl+F開啟取代視窗,搜尋模式勾選正規表示式
3.搜尋內容和取代內容如下圖(點圖放大)(因直接貼上來有部分內容會被01取代掉就不貼了)

mobilefun wrote:
底下一小段字幕檔想轉(恕刪)

現成的所有字幕軟體都有這功能
只是細項功能多寡罷了
推薦用SubtitleEdit
功能可自訂更多
檔案>匯出>純文字

看你要加入新(空白)行
還是要保留編號
或是保留時間碼
只要點一點勾選最後另存即可
nsps5606 wrote:
專門處理字幕的軟體應(恕刪)


這正規方法我真的想了好幾天,回想當年好像是要先查找字符的ASC碼,然後在倚天中文下,用PE2去搜尋取代的樣子.但我又記得可以用Access 或Excel匯入,想來想去就是似是而非的模糊記憶.啊!我變石器時代的人了.....謝謝您的指點,我會了.把他筆記起來放電腦旁邊,免得哪天又忘了.

您在搜尋內容輸入的字元是查找哪一張表? 不知道網路上有沒有這種東西,等一下來找看看.
惡魔印記666 wrote:
現成的所有字幕軟體都(恕刪)


我昨晚搞到半夜沒成果,今天一看您的方法,原來我是抓到很遠古的版本,Win10根本沒法執行.現在可以一次搞定了! 感恩您的無私教導!

剩一個問題我還想不通的,一個演講搞不好有5000行上下,不知道要如何自動把斷行變成一句完整的話? 口語表達常常會省略很多東西沒法成句,不知道大家會怎麼做?
個人把字幕檔案,整理成文字稿的方式是,看字幕檔案內容,臨機應變。

以樓主這個為例,就是看標點符號的位置,來做段落區別,句號就是斷句,其他就是連句或斷句,應該就會變成以下的樣子:

Okay, first off,
big thanks to Storyblocks for sponsoring this video.
They make it possible to produce guides like this for free,
so if you appreciate this kind of content,
please listen to this message and check out Storyblocks using the link in the description below.

另外,需要加時間序列,或是格式化排版,再另外處理,但基本上,都是自己寫程式,加入判斷條件,再輸出成自己想要的樣子跟格式,沒有現成的套裝軟體可以用。

最後,再用人工唸逐字稿做修飾!
mobilefun wrote:
我昨晚搞到半夜沒成果(恕刪)

這样?
Notepad++
Ctrl + H
^\R?(\d+)\R\d\d:\d\d.+\R





别被我選中..為何又選中..
nwcs wrote:
個人把字幕檔案,整理(恕刪)


原先是打算這樣的成果,等自己下手操做,疑?現實不是這麼單純的.於是坐在電腦前拚命想阿想的,為什麼搞不出來? 是邏輯上有錯嗎? 不是,最大障礙是口語表達異於標準文章寫法.退而求其次,先把行號跟時間資訊先刪除.接下來再來處理斷句.感謝高手指點,行號跟時間資訊先刪除有到點了.那個斷句處理我想是巨集的設定吧? 這個我花了兩天還是失敗沒成功,應該是字元輸入的問題吧?
ahwaiyuen98 wrote:
^\R?(\d+)\R\d\d:\d\d.+\R


真的很感動,對一個全然陌生的網友付出這麼多,除了感謝就是感謝!

我按照您的步驟把下面這一行複製過去,螢幕上看到的跟您一模一樣,直到按下 全部取代 執行.接下來他完全沒反應! 今天再試一次也是這樣,我心想會不會是直接拷貝的錯誤? 是不是應該要按甚麼特殊組合鍵呢?等一下再來試驗看看.資質駑鈍,汗顏.

^\R?(\d+)\R\d\d:\d\d.+\R
nwcs wrote:
另外,需要加時間序列,或是格式化排版,再另外處理,但基本上,都是自己寫程式,加入判斷條件,再輸出成自己想要的樣子跟格式,沒有現成的套裝軟體可以用。


沒錯,就如nwcs大說的,自己想要的樣子可以自己來,比較方便。

比如,最近自己想要一個功能(好像剛好跟樓主的需求顛倒,):用tts(文字轉語音)來為影片發音,然後配上字幕。
作法思考:...........要轉語音的文字可以先打好(或用念的,用語音輸入辨識成文字),然後再來呢?一句句丟到網路去轉語音,再一一下載?字幕檔(srt)的時間註記怎辦?自己慢慢補時間嗎?(還是在youtube線上字幕編輯區一句句貼上文字,重複N次,慢慢調整時間?)

解決:最後自己嘗試做了個小程式(搭配office的語音報讀功能),除了可以控制句子間停頓時間外,更可以自動產生有時間註記的字幕檔......功能比不上專業網站服務的強大,但至少是自己手動解決了自己的問題,還能有成就感。
(打開youtube的字幕功能,可以看到字幕)


提供參考
Der,misser1
  • 2
評分
複製連結