手機 comment

Google翻譯會「看」中文字 都是因為機器學習

person icon Nanako0625 2016-05-18
如今Google的很多服務,都看得到機器學習的身影,我們經常使用的Google翻譯也不例外,你已經體會到它越來越進步,越來越神奇,但可能你不知道這些進步,都來自於機器學習。
在我們訪問Google翻譯軟體工程師Otavio Good時他提到,相機拍攝即時翻譯(Word Lens),就運用到深度學習的技術,才能準確的在圖片中找出單字,辨識翻譯。





機器學習成就了鏡頭即時翻譯


上週Google翻譯更新了一些蠻重要的功能。
首先是在Android上新增「Tap to Translate」觸控翻譯的功能。
在Google翻譯裡把觸控翻譯功能打開後,在任何程式,包括網頁、聊天App、文件、郵件、Facebook...等,看到想查的單字或句子,選取並複製,就可以在右上方看到一個浮動的icon,這裡就完成了翻譯。但這個功能目前還不支援iOS裝置。


另一個是iOS也支援離線翻譯了,下載需要的離線語言包,即使沒有連到網路,也可以使用Google翻譯,而且考慮到連線速度、數據費,或有的人儲存空間不大,Google把每一種離線語言包都縮小到25MB~30MB左右。目前現翻譯支援52種語言,包括中文。


第三個就是即時鏡頭翻譯(Word Lens)也支援辨識繁體及簡體中文了,你可以用相機拍下中文字,讓程式辨識並翻譯。翻譯時它是結合擴增實境的技術,把翻譯出的文字覆蓋在原有的照片上。


中文是第29個支援鏡頭翻譯的語言,目前即時鏡頭可以翻譯100個英文字及1000個中文字。
Otavio Good提到,中文比起早已支援照片翻譯的德、西、法...等外文要難多了,因為英文法文只要辨識數百個字元(Character),但中文必須辨識數千個字元,這無疑增加了困難度,是因為導入機器學習才解決這個難題。
Google翻譯運用深度學習及卷積神經網路(convolutional neural network),可以很好的辨識圖像。
手機對準影像後,Google翻譯會去除背景,找出類似的、連續的、相近的像素,知道這是文字,這裡就運用的圖像辨識技術。
但照片上的字可能有變形、陰影,或寫成美術字,那Google翻譯要怎麼辨識出是哪個字呢?
這裡就運用到深度學習了,Google翻譯經過很多變形的、不方正的字元訓練,建立出識別的模型,藉此來辨識真實照片中阻礙重重的文字,這一個過程將會越訓練,越精準。
之後基本上就是翻譯的過程了。



社群力量+學習力量改善翻譯準確度


但辨識精準,不代表譯文就百分之百正確,尤其很多人還是詬病Google翻譯的譯文還是很有機器感,與自然書寫或文法還是有落差。
對此,Google翻譯現階段的解決方案是:人力與機器一起來。


Otavio Good提到,Google翻譯是透過學習很多範例,來改善翻譯準確度,如果沒有很多這類的材料,就會影響改進的效率,這時候就得靠眾人的力量,
Google翻譯有一個「Google translate community」的社群,這裡會有專業的人對譯文做修正,或者一般人在每次翻譯後,都可以看到「提出修改建議」的按鈕,我們也可以透過這個來提交意見,送出後Google翻譯的演算法會根據這些反饋做調整,人腦智慧和機器智慧良性循環,這樣慢慢來提升翻譯的正確度。
Otavio Good認為Google翻譯還有很多改善空間,除了程式還沒有支援每一種語言外,最重要的就是要努力提升翻譯品質,以及改善使用經驗。

但不管如何,透過即時鏡頭翻譯,我們瞭解到導入深度學習後,終於有效解決複雜的中文辨識問題,那麼我們可以期待的是,或許有一天也能解決更複雜的聽取句子、或一大段講話,然後即時翻譯。不過語音存在更複雜的口音、速度、發音...等辨識問題,需要更大量的學習,恐怕不是短期內可以實現的。



相關閱讀:
Google發表Google Home 最聰明的家庭成員
Google又做了聊天App 但這次加入人工智慧看起來很厲害



前往