電腦 comment

[採訪] Google翻譯更像人 都是因為機器學習

person icon Nanako0625 2017-05-03


去年Alpha機器人擊敗圍棋冠軍的新聞大家應該還記憶猶新,透過這場競賽,機器學習、深度學習、神經網路這些看似艱深的名詞,進入了一般讀者的腦袋裡,大家可能不是很瞭解他們的原理,但我們每天已經都在使用這些技術了。

Google今天特別針對機器學習、神經網路如何提高翻譯品質做了一些說明,我們使用的每一次翻譯,其實都有人工智慧在操刀。

記得在兩三年前,網路上還會有一些關於Google生硬翻譯的笑話,當時我們可能也不太寄望他的整段、整句翻譯,只把Google翻譯當字典用。



導入神經機器後,整句翻譯品質更接近人工翻譯

____________________

但這一兩年,Google翻譯的品質跟自然度,有很大的提升,這都歸功於把機器學習導入Google翻譯的關係。
目前Google翻譯支援103種語言,每天進行超過10億次的翻譯(台灣是Google翻譯使用者數成長最快的市場),Google透過網路上億萬筆人工翻譯文件,建構了大量的翻譯模型來訓練翻譯系統。2016年9月更進一步導入神經機器翻譯技術,讓Google翻譯學不再是逐字逐詞翻譯,而是會辨識句子裡的結構,參考上下文做一整句、一整段的翻譯,最後翻譯出一段更接近日常會話,文法跟語句也更自然的結果,尤其是困難度更高的中英互翻已經100%導入神經機器翻譯系統。

根據Google表示,導入神經機器翻譯後,誤差降低了55~85%以上,透過運算,在兩個月內將10秒翻譯一句話的速度,提升到0.2秒就可以完成。且以難度較高的中翻英為例,神經機器翻譯可以比以往更接近人工翻譯的品質了。
原本預計用三年的時間將神經機器導入各語言,目前已經進度超前,在今年4月就完成其中26組語言。


另外大家在國外旅遊時,應該也用過「即時鏡頭翻譯」這功能,也是將神經網路應用在翻譯的一個例子。
透過鏡頭拍攝文字時,Google翻譯就會用深度學習技術,辨識出文字,接著就在字典尋找翻譯的結果,並且即時轉換,顯示出來。


「辨識」是影響鏡頭翻譯成功率的重要關鍵,鏡頭怎麼知道這個畫面是什麼字?如何在髒污或反光中還能抓出哪些痕跡是文字,哪些不是?靠的就是強化字體辨識的訓練,
訓練時,就會加入很多髒污、反光或扭曲...等現實生活中會遇到的例子,當成素材,訓練機器的演算法,提高辨識準確性,不僅能知道哪些是字,並且辨認出是什麼字,才能進一步翻譯。




用「多元語言」加快導入其他語言的時間

____________________

儘管導入的進度超前,但要把103種語言全部導入機器學習、神經網路系統,仍是一項複雜的工作,原因在於模型不是自然生成的,而是要訓練出來的,且每個模型需要8個Google處理器、花費2-3週時間來做運算、訓練,且每個模型需要超過1億筆訓練案例,因此相當費時,也由此可見,越缺乏資料的語言,越難以機器學習來訓練,提高翻譯品質。

為此Google發展出一套名為「多元語言」的方案來加快訓練的速度。

在Google翻譯裡,有英翻韓、英翻西、西翻英及法翻英四種語言,需要獨立訓練出模型,在不改變底層架構的前提下,Google將這些模型合併成一個單一的多元語言模型,這簡化了過去需要建構很多不同翻譯模型的可觀成本,讓Google翻譯可以更容易的擴展到更多語言。

此外Google還發展出一套「Zero-Shot」的技術,讓兩種語言經過訓練後可以共用資料,自動學習,這樣也可以彌補某些語言資料量不足的問題,比方進行訓練好英日、韓英的模型後,就可以完成英日/日英、英韓/韓英互翻,甚至韓日/ 日韓互翻。藉由Zero-Shot翻譯,只需要一套系統就能完成更多語言互翻。




Google翻譯的下一步

____________________

Google也提到,Google翻譯的下一步要加強數字跟日期翻譯,並加強簡短詞、罕見字串
、名字跟品牌的翻譯準確度,主要工作還是在加強翻譯的品質,使它更接近人工翻譯,並將神經機器系統導入更多語言。

另外口語即時翻譯,相信也是很多人需要的一項功能。
不過將口語辨識成正確的句子,以及將文字翻譯成另一種語言,是兩套不同的模型,語音辨識需要判別口音、噪音、速度...等因素,提取辨識成文字,這又是另一套複雜的訓練模型了,在Google裡,語音辨識有另一個獨立的團隊,Google翻譯也會和語音團隊合作,將兩套模型運用在口語翻譯上,且做到好的翻譯品質。

或許我們在Google上經常在用中文語音輸入、搜尋,也覺得它辨識得很準了,為什麼Google Assistant還無法使用中文指令呢?
對此Google台灣董事總經理簡立峰提到,翻譯跟中文指令、對話,是兩個不同的議題。
翻譯是把一種語言翻譯成另一種,在搜尋出的翻譯結果裡,可能有好多好多種組合,Google翻議會選擇最好的那個當作結果,這比較像是統計、選擇。
但Google Assistant這種牽扯到「理解」一種語言,同一個指令,會有很多種講法,而且在人的口語裡,常會把主詞省略掉,對話的人身在情境裡,很清楚省略的主詞指的是什麼,但機器不知道,尤其越簡短,省略越多的東西對電腦來說越難理解,並不是能把口語辨識成文字,並不代表機器懂得對話,可以理解對話。
而且要讓機器理解口語,也需要透過更多更多該語言的對話資料庫來做訓練,這又牽扯到口語的、對話的資料庫夠不夠的問題了,要訓練機器理解其他語言的對話,並不是容易的事情。




台灣有把人工智慧IC化的優勢

____________________


Google未來每一季也會以一個主題,來介紹機器學習的應用Google台灣董事總經理簡立峰提到,現在雖然很多產業在講AI First,但人工智慧發展已經很久了,只是這幾年來發展得非常快,這波人工智慧的熱潮,對台灣產業來說是一個很好的機會,過去台灣擅長做硬體,也有很強的設計IC能力,在人工智慧時代,很多辨識軟體都可以IC化,比如影像文字辨識IC、電腦視覺IC、指紋辨識IC、聲音辨識IC...等,在其他國家,要開發這些或許不太容易,但台灣有完整的供應鏈,有先進製程、也有人才,相對其他國家,台灣要把人工智慧IC化會容易得多,不過目前看來硬體跟人工智慧軟體兩股力量似乎還沒有很好的結合,這可能是整個產業需要把握跟關注的方向。
前往