Google神經機器翻譯再突破:實現高質量多語言翻譯和zero-shot翻譯
編者按:本文來自微信公眾號“機器之心”(ID:almosthuman2014),選自Google Blog,機器之心編譯,36氪經授權發佈。
9 月底,Google在 arXiv.org 上發表了論文《Google`s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation》,介紹了Google的神經機器翻譯系統(GNMT),該系統實現了機器翻譯領域的重大突破,參見報道《重磅 | Google翻譯整合神經網絡:機器翻譯實現顛覆性突破》。15日,Google再發論文宣佈了其在多語言機器翻譯上的突破:實現了 zero-shot 翻譯!
15日,Google在其官方博客上宣佈其在Google翻譯(Google Translate)上再次取得重大進展。這家搜索巨頭表示現在已經將神經機器翻譯(neural machine translation)集成到了其網頁版和移動版的翻譯應用之中,這意味着它可以一次性翻譯一整段句子,而不只是像之前一樣只能一個詞一個詞地翻譯。
Google在其產品博客中表示,其產品的翻譯結果現在變得更加自然,能夠實現更好的句法和語法。
Google Translate 產品負責人 Barak Turovsky 在Google舊金山的一次新聞發佈會上説:「這一次的進步超過了過去十年積累的總和。」
Google已經將自己的未來定義成了一家人工智能和機器學習公司——使用這些技術的計算機無需特定的編程就能自己學習執行任務。Google雲部門(cloud division)的負責人 Diane Greene 總結説:「Google要將機器學習集成到每一種形式中,並將它帶給這個世界。」
Google在其博客中寫道:
引用今天我們宣佈將神經機器翻譯集成到了總共八種語言的相互翻譯中,它們是:英語、法語、德語、西班牙語、葡萄牙語、漢語、日語、韓語和土耳其語。這些語言的母語總人口占到了世界總人口的三分之一,覆蓋了Google翻譯 35% 以上的請求。
通過這一次更新,Google翻譯一次性提升的性能超過了過去十年進步的總和。但這只是一個開始。儘管我們目前在Google搜索、Google翻譯應用和網站上只有 8 種語言,但我們的目標是將神經機器翻譯擴展到所有 103 種語言,並讓你能隨時隨地都能接入到Google翻譯。
除此之外,Google今天還宣佈了提供機器學習 API 的公共雲服務 Google Cloud Platform,「能讓任何人都輕鬆地使用我們的機器學習技術」。今天,Google Cloud Platform 也使神經機器翻譯背後的系統向Google的企業用户開放了——Google提供了 Cloud Translation API:https://cloud.google.com/translate/
- 論文:Google的多語言神經機器翻譯系統:實現 zero-shot 翻譯(Google's Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation)
我們提出了一種使用單個神經機器翻譯(NMT)模型在多種語言之間進行翻譯的簡潔優雅的解決方案。我們的解決方案不需要對我們的基礎系統的模型架構進行修改,而是在輸入句子的一開始引入了一個人工 token 來確定所需的目標語言(required target language)。模型的其它部分(包含了編碼器、解碼器和注意(attention))保持不變,而且可以在所有語言上共享使用。使用一個共享的詞塊詞彙集(wordpiece vocabulary),我們方法能夠使用單個模型實現多語言神經機器翻譯(Multilingual NMT),而不需要增加參數,這比之前提出的 Multilingual NMT 方法簡單多了。我們的方法往往能提升所有相關語言對的翻譯質量,同時還能保持總的模型參數恆定。
在 WMT' 14 基準上,單個多語言模型在英語→法語翻譯上實現了與當前最佳表現媲美的結果,並在英語→德語翻譯上實現了超越當前最佳表現的結果。類似地,單個多語言模型分別在 WMT'14 和 WMT'15 基準上實現了超越當前最佳表現的法語→英語和德語→英語翻譯結果。在用於生產的語料庫上,多達 12 個語言對的多語言模型能夠實現比許多單獨的語言對更好的表現。
除了提升該模型訓練所用的語言對的翻譯質量之外,我們的模型還能執行在訓練過程中沒有明確遇見過的語言對之間的特定橋接(bridging),這表明用於神經翻譯的遷移學習(transfer learning)和 zero-shot 翻譯是可能的。
最後,我們展示了對我們模型中的通用語言間表徵(universal interlingua representation)的跡象的分析,還展示了一些將語言進行混合時的有趣案例。
圖 1:該 Multilingual GNMT 系統的模型架構。除了論文《Google's neural machine translation system: Bridging the gap between human and machine translation》中描述的,我們的輸入還有一個人工 token 來指示所需的目標語言。在這個例子中,token <2es> 表示目標句子是西班牙語的,而其源句子被逆向為一個處理步驟(processing step)。對於我們大部分的實驗而言,我們還使用了編碼器和解碼器之間的直接連接,儘管我們後來發現這些連接的影響是可以忽略不計的(但是一旦你使用這些進行訓練,它們也必須為了推理而存在)。該模型架構的其它部分與上述論文中的一樣。
資料來源:36Kr