在元宇宙聽不懂外語怎麼辦?Meta:新技術可翻譯 128 種語言

作為元宇宙最堅定的支持者之一,Facebook 在上個月宣佈改名 Meta,此後便新動作不斷,先是推出了一個觸覺手套,試圖讓人們在 VR 世界中也能體驗到觸覺變化。

觸覺之後,Meta 又盯上了語言,它要讓人們在虛擬世界中也可以無障礙溝通,哪怕雙方使用的語言不同,你説英語,我説中文都能互相理解。

就這樣 XLS-R 來了,它是 Meta 最近發佈的一個 AI 語言處理模型,最高能識別 128 種語言,目前已經公佈了網頁體驗版。
▲ XLS-R 網頁體驗版僅支持語音輸入

體驗版的功能有一定缺失,僅支持將 22 種語言翻譯為 16 種語言,我試了下最常見的英譯中,一段 7 秒左右英文語音,XLS-R 還是能相對準確地識別,中文翻譯和英文識別都基本正確,兩者耗時都在 1.4 秒 左右,並不算短。

▲XLS-R 識別同一段語音的英文和中文翻譯結果

對比市面上常見語音翻譯應用,這個速度和轉譯表現其實中規中矩,都對口語清晰度有要求,一旦語速稍微快一些,就比較難理解,轉譯會出錯。

XLS-R 的潛力體現在多語言通用 AI 模型上,據 Meta 該技術基於 wac2vec 2.0 預訓練模型,能將語音拆成拆成 25 毫秒的基本單元來分析,利用上下文轉換語音內容,提升識別準確度。

之後 Meta 又對 wac2vec 2.0 技術進行了多次調整,嘗試處理多種語言,轉換準確率提升了不少,經過通過 436000 小時的公開錄音訓練後,才有如今的 XLS-R。

▲XLS-R 識別單詞錯誤率更低

XLS-R 僅僅用一種語言模型就可以轉換 128 種語言,和特殊領域使用特殊模型的常見做法不同,極大地提升了通用性。在官方博客中,Meta 表示它們的目標是用單一模型識別全球 7000 多種語言,從而改進轉換算法。

這是一個新的開始,離真正成為 Meta 所設想的虛擬世界基礎組成部分還比較難,這不僅僅和技術有關,設備算力也是限制。

作為同在在自然語言識別領域擁有大量技術儲備的 Google,其實比 Meta 更早在消費級設備上支持多語種翻譯功能,Pixel 6 系列支持 live Translate 功能,可以在聊天軟件中進行翻譯,無障礙地與外語朋友交流。


只是 live Translate 功能支持的語言並不算多,主要還是英語、德語、日語之間的翻譯,哪怕 Pixel 6 所使用的 Tensor 芯片在 AI 性能方面已經是冠絕全球,達到了驍龍 888+ 的三倍。

只有聯網 live Translate 功能才能做到支持 48 種語言,而使用雲計算技術的 Google 翻譯也僅支持 108 種語言,離 7000 種語言很遠。

元宇宙離我們仍然有一段距離,不過 XLS-R 等技術作為 Meta 口中虛擬世界的基礎建設之一,或許能在其他領域發揮作用,現在它已經發布了 XLS-R 預訓練模型的微調教程,讓業內人士可以基於它進行微調以便應用到具體的工作當中。

或許不久之後,我們能看到越來越多的應用支持更多語種的語音轉譯功能。

題圖來自:unsplash


資料來源:愛範兒(ifanr)

如果喜歡我們的文章,請即分享到︰

標籤: 元宇宙  Meta  翻譯