支持 108 種語言的 Google 翻譯如何用AI讓翻譯質量越來越好?
Google表示,在提高語言翻譯的質量方面,已經取得了進展。在即將發表的博客文章中,該公司詳細介紹了新的創新技術,這些創新技術增強了Google翻譯(Google Translate)支持的108種語言(特別是數據貧乏的約魯巴語和馬拉雅拉姆語)的用户體驗,該服務平均每天翻譯1500億個單詞。
自Google翻譯首次公開亮後的13年間,諸如神經機器翻譯、基於重寫的範例和本地處理之類的技術使該平台的翻譯準確性有了可量化的飛躍。但是直到最近,翻譯的最新算法表現也落後於人類。Google之外的努力也説明了問題的難度,Masakhane項目旨在使非洲大陸上的數千種語言能夠自動翻譯,但它還沒有超出數據收集和轉錄階段。共同的聲音(雷鋒網注,Common Voice是Mozilla發起的一個眾包項目,旨在為語音識別軟件創建免費的數據庫)自2017年6月推出以來,Mozilla為建立轉錄語音數據的開源集合所做的努力僅審查了40種聲音。
Google表示,其翻譯質量的突破並不是由單一技術推動,而是針對資源較少的語言、高質量源語言、總體質量、延遲和整體推理速度的技術組合。在2019年5月至2020年5月之間,通過人工評估和BLEU(一種基於系統翻譯與人工參考翻譯之間相似性的指標)進行衡量,Google翻譯在所有語言中平均提高了5分或更多,在50種最低水平的翻譯中平均提高了7分或更多。此外,Google表示,“翻譯”對機器翻譯聯想的功能變得更加強大,一種現象是,當給泰盧固語字符“షషషషషష”輸入,“Shenzhen Shenzhen Shaw International Airport (SSH)”)時,AI模型會產生奇怪的翻譯“Sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh”。
混合模型和數據挖掘器
這些技術中的第一個是翻譯模型體系結構——一種混合體繫結構,包含在Lingvo(用於序列建模的TensorFlow框架)中實現的Transformer編碼器和遞歸神經網絡(RNN)解碼器。
在機器翻譯中,編碼器通常將單詞和短語編碼為內部表示,然後解碼器將其用於生成所需語言的文本。Google相關研究人員於2017年首次提出的基於Transformer模型在此方面比RNN更為有效,但Google表示其工作表明大部分質量提升僅來自於Transformer的一個組成部分:編碼器。那可能是因為雖然RNN和Transformer都被設計為處理有序的數據序列,但是Transformers並不需要按順序處理序列。換句話説,如果所討論的數據是自然語言,則Transformer無需在處理結尾之前處理句子的開頭。
儘管如此,在推理時,RNN解碼器仍比“Transformer”中的解碼器“快得多”。意識到這一點,Google Translate團隊在將RNN解碼器與Transformer編碼器結合之前對RNN解碼器進行了優化,以創建低延遲、質量更高,比四年前基於RNN的神經機器翻譯模型更穩定的混合模型進行替代。
圖:自2006年成立以來,Google翻譯模型的BLEU得分。(圖片來源:Google)
除了新穎的混合模型體系結構之外,Google還從數以百萬計的示例翻譯中(用於文章、書籍、文檔和Web搜索結果)編譯了用於編譯訓練集的數十年曆史的爬蟲。新的翻譯器基於嵌入的14種主流語言,而不是基於字典的-意味着它使用實數矢量表示單詞和短語-更加註重精度(相關數據在檢索到的數據中所佔的比例)想到(實際檢索到的相關數據總量的一部分)。Google表示,在使用過程中,這使翻譯器提取的句子數量平均增加了29%。
有噪音的數據和轉移學習
另一個翻譯性能提升來自更好地處理訓練數據中噪聲的建模方法。觀察到有噪聲的數據(含有大量無法正確理解或解釋的大量信息的數據)會損害語言的翻譯,因此Google翻譯團隊部署了一個系統,該系統使用經過訓練的模型為示例分配分數對嘈雜的數據進行調優,並對“乾淨的”數據進行調優。實際上,這些模型開始對所有數據進行訓練,然後逐步對較小和較乾淨的子集進行訓練,這是AI研究社區中稱為課程學習的方法。
在資源匱乏的語言方面,Google 在翻譯中實施了反向翻譯方案,以增強並行訓練數據,該語言中的每個句子都與其翻譯配對。(機器翻譯傳統上依賴於源語言和目標語言中成對句子的語料統計)在這種方案中,訓練數據會自動與合成並行數據對齊,從而目標文本是自然語言,但會生成源通過神經翻譯模型。結果是Google翻譯利用了更豐富的單語文本數據來訓練模型,Google表示這對於提高流利性特別有用。
圖:帶有翻譯功能的Google Maps。
Google翻譯現在還利用了M4建模,其中一個大型模型M4在多種語言和英語之間進行翻譯。(M4是於去年在一篇論文中首次提出,證明它在訓練了100多種語言中的250億對句子對之後,提高了30多種低資源語言的翻譯質量。)M4建模使Google翻譯中的遷移學習成為可能,收集了包括法語、德語和西班牙語(有數十億個並行示例)的高資源語言進行訓練提升了表現,從而可以應用於翻譯諸如約魯巴語、信德語和夏威夷語(僅有數萬個示例)的低資源語言。
展望未來
根據Google的説法,自2010年以來,翻譯每年至少提高了1個BLEU點,但是自動機器翻譯絕不能解決問題。Google承認,即使是其增強的模型也容易出錯,包括將一種語言的不同方言混淆,產生過多的直譯,以及在特定題材和非正式或口頭語言上的表現不佳。
微軟試圖通過各種方式解決這一問題,包括通過其Google翻譯社區計劃(Google Translate Community)來招募志願者,通過翻譯單詞和短語或檢查翻譯是否正確來幫助提高低資源語言的翻譯質量。僅在2月份,該程序與新興的機器學習技術相結合,就增加了翻譯,共有7500萬人使用了五種語言:Kinyarwanda、Odia(奧里亞語)、Tatar、Turkmen和Uyghur(維吾爾語)。
追求真正通用翻譯的並不只有Google。在2018年8月,Facebook 公開了一種AI模型,該模型結合了逐詞翻譯,語言模型和反向翻譯的組合,在語言配對方面表現更好。最近,麻省理工學院計算機科學與人工智能實驗室的研究人員提出了一種無監督的模型,即可以從未明確標記或分類的測試數據中學習的模型,該模型可以在兩種語言的文本之間進行翻譯,而無需在兩種語言之間直接進行翻譯。
Google在一份聲明中以外交方式表示,它對“學術界和工業界”的機器翻譯研究表示感謝,其中一些通報了自己的工作。該公司表示:“我們通過綜合和擴展各種最新進展來實現(Google翻譯最近的改進)。通過此更新,我們為提供相對一致的自動翻譯而感到自豪,即使是在支持的108種語言中資源最少的情況下也是如此。”
參考鏈接:https://venturebeat.com/2020/06/03/how-googleis-using-emerging-ai-techniques-to-improve-language-translation-quality/ 雷鋒網(公眾號:雷鋒網)雷鋒網
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。
資料來源:雷鋒網
作者/編輯:包永剛
自Google翻譯首次公開亮後的13年間,諸如神經機器翻譯、基於重寫的範例和本地處理之類的技術使該平台的翻譯準確性有了可量化的飛躍。但是直到最近,翻譯的最新算法表現也落後於人類。Google之外的努力也説明了問題的難度,Masakhane項目旨在使非洲大陸上的數千種語言能夠自動翻譯,但它還沒有超出數據收集和轉錄階段。共同的聲音(雷鋒網注,Common Voice是Mozilla發起的一個眾包項目,旨在為語音識別軟件創建免費的數據庫)自2017年6月推出以來,Mozilla為建立轉錄語音數據的開源集合所做的努力僅審查了40種聲音。
Google表示,其翻譯質量的突破並不是由單一技術推動,而是針對資源較少的語言、高質量源語言、總體質量、延遲和整體推理速度的技術組合。在2019年5月至2020年5月之間,通過人工評估和BLEU(一種基於系統翻譯與人工參考翻譯之間相似性的指標)進行衡量,Google翻譯在所有語言中平均提高了5分或更多,在50種最低水平的翻譯中平均提高了7分或更多。此外,Google表示,“翻譯”對機器翻譯聯想的功能變得更加強大,一種現象是,當給泰盧固語字符“షషషషషష”輸入,“Shenzhen Shenzhen Shaw International Airport (SSH)”)時,AI模型會產生奇怪的翻譯“Sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh”。
混合模型和數據挖掘器
這些技術中的第一個是翻譯模型體系結構——一種混合體繫結構,包含在Lingvo(用於序列建模的TensorFlow框架)中實現的Transformer編碼器和遞歸神經網絡(RNN)解碼器。
在機器翻譯中,編碼器通常將單詞和短語編碼為內部表示,然後解碼器將其用於生成所需語言的文本。Google相關研究人員於2017年首次提出的基於Transformer模型在此方面比RNN更為有效,但Google表示其工作表明大部分質量提升僅來自於Transformer的一個組成部分:編碼器。那可能是因為雖然RNN和Transformer都被設計為處理有序的數據序列,但是Transformers並不需要按順序處理序列。換句話説,如果所討論的數據是自然語言,則Transformer無需在處理結尾之前處理句子的開頭。
儘管如此,在推理時,RNN解碼器仍比“Transformer”中的解碼器“快得多”。意識到這一點,Google Translate團隊在將RNN解碼器與Transformer編碼器結合之前對RNN解碼器進行了優化,以創建低延遲、質量更高,比四年前基於RNN的神經機器翻譯模型更穩定的混合模型進行替代。
圖:自2006年成立以來,Google翻譯模型的BLEU得分。(圖片來源:Google)
除了新穎的混合模型體系結構之外,Google還從數以百萬計的示例翻譯中(用於文章、書籍、文檔和Web搜索結果)編譯了用於編譯訓練集的數十年曆史的爬蟲。新的翻譯器基於嵌入的14種主流語言,而不是基於字典的-意味着它使用實數矢量表示單詞和短語-更加註重精度(相關數據在檢索到的數據中所佔的比例)想到(實際檢索到的相關數據總量的一部分)。Google表示,在使用過程中,這使翻譯器提取的句子數量平均增加了29%。
有噪音的數據和轉移學習
另一個翻譯性能提升來自更好地處理訓練數據中噪聲的建模方法。觀察到有噪聲的數據(含有大量無法正確理解或解釋的大量信息的數據)會損害語言的翻譯,因此Google翻譯團隊部署了一個系統,該系統使用經過訓練的模型為示例分配分數對嘈雜的數據進行調優,並對“乾淨的”數據進行調優。實際上,這些模型開始對所有數據進行訓練,然後逐步對較小和較乾淨的子集進行訓練,這是AI研究社區中稱為課程學習的方法。
在資源匱乏的語言方面,Google 在翻譯中實施了反向翻譯方案,以增強並行訓練數據,該語言中的每個句子都與其翻譯配對。(機器翻譯傳統上依賴於源語言和目標語言中成對句子的語料統計)在這種方案中,訓練數據會自動與合成並行數據對齊,從而目標文本是自然語言,但會生成源通過神經翻譯模型。結果是Google翻譯利用了更豐富的單語文本數據來訓練模型,Google表示這對於提高流利性特別有用。
圖:帶有翻譯功能的Google Maps。
Google翻譯現在還利用了M4建模,其中一個大型模型M4在多種語言和英語之間進行翻譯。(M4是於去年在一篇論文中首次提出,證明它在訓練了100多種語言中的250億對句子對之後,提高了30多種低資源語言的翻譯質量。)M4建模使Google翻譯中的遷移學習成為可能,收集了包括法語、德語和西班牙語(有數十億個並行示例)的高資源語言進行訓練提升了表現,從而可以應用於翻譯諸如約魯巴語、信德語和夏威夷語(僅有數萬個示例)的低資源語言。
展望未來
根據Google的説法,自2010年以來,翻譯每年至少提高了1個BLEU點,但是自動機器翻譯絕不能解決問題。Google承認,即使是其增強的模型也容易出錯,包括將一種語言的不同方言混淆,產生過多的直譯,以及在特定題材和非正式或口頭語言上的表現不佳。
微軟試圖通過各種方式解決這一問題,包括通過其Google翻譯社區計劃(Google Translate Community)來招募志願者,通過翻譯單詞和短語或檢查翻譯是否正確來幫助提高低資源語言的翻譯質量。僅在2月份,該程序與新興的機器學習技術相結合,就增加了翻譯,共有7500萬人使用了五種語言:Kinyarwanda、Odia(奧里亞語)、Tatar、Turkmen和Uyghur(維吾爾語)。
追求真正通用翻譯的並不只有Google。在2018年8月,Facebook 公開了一種AI模型,該模型結合了逐詞翻譯,語言模型和反向翻譯的組合,在語言配對方面表現更好。最近,麻省理工學院計算機科學與人工智能實驗室的研究人員提出了一種無監督的模型,即可以從未明確標記或分類的測試數據中學習的模型,該模型可以在兩種語言的文本之間進行翻譯,而無需在兩種語言之間直接進行翻譯。
Google在一份聲明中以外交方式表示,它對“學術界和工業界”的機器翻譯研究表示感謝,其中一些通報了自己的工作。該公司表示:“我們通過綜合和擴展各種最新進展來實現(Google翻譯最近的改進)。通過此更新,我們為提供相對一致的自動翻譯而感到自豪,即使是在支持的108種語言中資源最少的情況下也是如此。”
參考鏈接:https://venturebeat.com/2020/06/03/how-googleis-using-emerging-ai-techniques-to-improve-language-translation-quality/ 雷鋒網(公眾號:雷鋒網)雷鋒網
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。
資料來源:雷鋒網
作者/編輯:包永剛