機器翻譯的前世今生


本文作者:科大訊飛cobbyli、zmwang
不久前,一個實時翻譯視頻風靡網絡,視頻中兩名分別説着英語和西班牙語的人藉助Skype軟件的實時翻譯功能竟然實現了無障礙交流。

這種之前只在科幻片中存在的場景如今已成現實,而這一切都得益於機器翻譯技術。


那麼什麼是機器翻譯呢?機器翻譯(machine translation),又稱為自動翻譯,是利用計算機把一種自然語言轉變為另一種自然語言的過程。

機器翻譯的實現方法

隨着科技和社會經濟的快速發展,全世界的互聯互通已經成為不可阻擋的發展趨勢,那麼不同國家之間如何實現低成本的有效交流呢?

人工翻譯所耗費的成本巨大,也許最好的解決方法就是:充分利用機器翻譯技術提供智能自動翻譯服務。機器不會累、學習快,一個系統同時掌握十幾種語言互譯也不是問題,也許永遠不會像人一樣出現翻譯盲點。

但是語言的複雜性眾所周知,人尚且會有誤解的時候,那麼冰冷的機器究竟是怎麼翻譯一種語言的呢?它會思考嗎?

下面我們就來探討一下機器翻譯技術的實現方式。

目前機器翻譯的主流方式叫“統計翻譯”

統計機器翻譯的基本原理是:從語料庫大量的翻譯實例中自動學習翻譯知識,然後利用這些翻譯知識自動翻譯其他句子。

比如,為了讓機器順利實現中英文之間的翻譯,首先需要收集大量中英文雙語句對,然後使用計算機從這些雙語句對中統計並學習翻譯知識。

看到這裏你也許會覺得,機器翻譯好像也不難,不就是要收集到足夠多的詞彙和例句嗎?

當!然!不!是!

讓機器學習翻譯知識可不是一件簡單的事。

人類語言具有很大的複雜性。首先,很多用詞和表達方式是多義的、模糊的、跟特定應用環境相關的。即使是同一個句子,在不同語境下的意思也不相同。例如,碰到這樣的情況,不僅僅是老外,機器估計也會“迷茫”。


其次,不同語言的語序也不一樣。例如“最好的朋友之一”,翻譯成“one of the best friends”,其中“之一”的翻譯被提前了。

再者,對於同一個句子,它可能有很多種正確的翻譯方法。這樣增加了機器學習過程的不確定性。例如“你好”可以被翻譯成“Hello”,或者“How do you do”等。

因此,一個優秀的機器翻譯系統,對於詞的翻譯知識,短語的翻譯知識、語法結構的翻譯知識、語義的翻譯知識等等全部都要掌握。

以中英翻譯方向為例,系統首先要掌握中英文之間詞、短語、語法結構的翻譯知識。有了這些翻譯知識之後,系統就會把這個中文句子切分成各種詞、短語、或者語法結構的組合(這個過程中,有成千上萬種切分可能,每個單元也有多種翻譯備選),然後分別翻譯每一個單元,最後組合起來形成最終的英文翻譯。

萬萬沒想到吧,在電光火石的一瞬間,系統已經經歷了這麼一個“千迴百轉”的過程。

機器翻譯的過去

在現在看來,機器翻譯毫無疑問是一項被公認為具備廣泛應用前景的技術方向,但縱觀該技術的發展史卻並非一帆風順,其可行性和實用性曾不斷遭受質疑。
但機器翻譯技術的這段歷史走的卻並非一帆風順,甚至曾一度被視為是天方夜譚,其可行性和實用性不斷遭受質疑。縱觀機器翻譯技術發展史,大致可分為草創、萌芽、沉寂、復甦、發展共5個階段。

  • 草創

機器翻譯的研究歷史最早可以追溯到二十世紀三四十年代。二十世紀三十年代初,法國科學家G.B.阿爾楚尼提出了用機器來進行翻譯的想法。

1946年,世界上第一台現代電子計算機ENIAC誕生。隨後不久,信息論的先驅、美國科學家Warren Weaver於1947年提出了利用計算機進行語言自動翻譯的想法。1949年,Warren Weaver發表《翻譯備忘錄》,正式提出機器翻譯的思想。

<!--[if !vml]-->



  • 萌芽

1954年,美國喬治敦大學在IBM公司協同下,用IBM-701計算機首次完成了英俄機器翻譯試驗,向公眾和科學界展示了機器翻譯的可行性,從而拉開了機器翻譯研究的序幕。


(圖:IBM-701計算機的英俄翻譯)

隨後十年左右的時間內,機器翻譯研究熱度不斷上升。美國、前蘇聯及一些歐洲國家均對機器翻譯研究給予了相當大的重視,機器翻譯一時出現熱潮。

  • 沉寂

然而,正當一切有序推進之時,尚在萌芽中的“機器翻譯”研究卻遭受當頭一棒。

1964年,美國科學院成立了語言自動處理諮詢委員會(Automatic Language Processing Advisory Committee)。委員會經過2年的研究,於1966年公佈了一份名為《語言與機器》的報告。

該報告全面否定了機器翻譯的可行性,並宣稱“在近期或可以預見的未來,開發出實用的機器翻譯系統是沒有指望的”。受此報告影響,各類機器翻譯項目鋭減,機器翻譯的研究出現了空前的蕭條。

  • 復甦

進入二十世紀七十年代中後期,隨着計算機技術和語言學的發展以及社會信息服務的需求,機器翻譯才開始復甦並日漸繁榮。業界研發出了多種翻譯系統,例如 Weinder 、EURPOTRAA、TAUM-METEO等。

其中於1976年由加拿大蒙特利爾大學與加拿大聯邦政府翻譯局聯合開發的TAUM-METEO系統,是機器翻譯發展史上的一個里程碑,標誌着機器翻譯由復甦走向繁榮。

  • 發展

1993年IBM的Brown和Della Pietra等人提出的基於詞對齊的翻譯模型,標誌着現代統計機器翻譯方法的誕生。

2003年愛丁堡大學的Koehn提出短語翻譯模型,使機器翻譯效果顯著提升,藉助同時期Franz Och提出的對數線性模型及其權重訓練方法,短語翻譯模型在工業界開始廣泛採用。

2005年David Chang進一步提出了層次短語模型,同時還有多個大學和研究所在基於語法樹的翻譯模型方面研究也取得了長足的進步。

機器翻譯的現狀

隨着全球互聯互通日益頻繁,幾乎人人都渴望着實時翻譯這一“逆天”技術能早日變成現實,伴隨這一代代科學家們不懈的努力,科幻正一步步照進現實。

為了實現機器翻譯的夢想,以IBM、Google、微軟為代表的國外科研機構和企業均相繼成立機器翻譯團隊, 專門從事智能翻譯研究,矢志打破語言障礙。我們科大訊飛也在做這方面的研究。

IBM從2001起就開始大規模開展該領域的研究,並在英語、阿拉伯語和中文之間的互譯領域進行重點投入 。2009年9月IBM正式推出了ViaVoice Translator機器翻譯軟件,為自動化翻譯奠定了基礎。在此之後, IBM所從事的這項研究項目無明顯進展,不就後被放棄。

自2011年開始,伴隨着語音識別、機器翻譯技術、DNN(深度神經網絡)技術的快速發展和經濟全球化的需求,口語自動翻譯研究成為當今信息處理領域新的研究熱點。

Google於2011年1月正式在其Android系統上推出了升級版的機器翻譯服務,現在,Google翻譯已經可以在超過70種語言之間進行互相翻譯。在2012年,Google翻譯的用户使用量大約為2億次。到目前為止,這項服務還是免費的。但對於一項自動化的翻譯服務來説,跨國公司將會樂於使用這種服務,從而為其帶來很高的價值,這意味着在未來Google幾乎肯定可以通過這種翻譯工具獲取大量收入。

2012年微軟研究部門全球負責人裏克·拉希德(Rick Rashid)在中國召開的一次會議上宣佈了機器翻譯 項目的成功。當時他用英語講話,而一台微軟計算機同時將他説的話翻譯成普通話,而且是以拉希德自 己的聲音説出來的,從這點上來看,微軟的這個翻譯程序已經沾染上了一絲人性。微軟的Skype於2014年 12月宣佈推出實時機器翻譯的預覽版、支持英語和西班牙語的實時翻譯,並宣佈支持40多種語言的文本 實時翻譯功能。本文開頭提到的聊天軟件Skype中使用的正是微軟的機器翻譯技術,Skype翻譯背後最重要的技術就是語音識別的巨大提升,使用微軟神經網絡語音識別技術與機器翻譯相結合,允許用户可以在一對一不同語言交流時可以更好的翻譯。

機器翻譯的未來

隨着機器翻譯技術的進步,另一種擔心也在悄然蔓延:“機器會搶同聲傳譯的飯碗嗎?會讓從事這一行業的人類失業嗎?

科大訊飛的工作人員認為,目前擔心這個問題還為時尚早。雖然現在可以通過一些實用的技術讓機器去模擬人的智能活動,模擬人對語義的理解,但相對於徹底的人工智能和語義理解,還有相當長的道路。如果有一天機器真的能夠實現準確的實時翻譯,它們的角色更可能是輔助相關產業的工作人員更輕鬆、便捷地開展工作,而不是取代他們。

本文來自讀者投稿,不代表 36氪 立場


資料來源:36Kr

如果喜歡我們的文章,請即分享到︰

標籤: 機器翻譯