電腦程式真的能模仿人類的交流方式嗎?
本文作者共有三位:Mayel de Borniol和Josef Dunne是致力於開發自然語言處理技術的公司Babelverse的創始人。 Strphanie Jo Kent是一個美國註冊的手語翻譯和Baelverse的語言交流研究員。
幾週前,微軟亞洲研究院放出了一個“Kinect手語翻譯器”原型的展示。他們利用Kinect的傳感器,結合機器翻譯的技術和3D 人像來將手語轉化為文字。同時,語音或者輸入的文字也可以通過擬真人像轉化手語。
Kinect就是一個很好的利用成熟的技術使得人們可以去嘗試和解決許多生活中遇到的問題的例子。並且,者不僅是像微軟這樣有錢的大公司能做到,一些像波蘭的Migam這樣的小團隊也能做到。
坦誠而言,看到如此之多的關注,資源,以及新型的科技被投入到構架視覺語言與聽覺語言(以及語言差異其本身)之間的橋樑上,我們感到極為振奮。然而,有關機器能翻譯手語的言論是一個特殊語境下的誇張。
一如既往的,這個項目引起了聾啞人群體的巨大關注,他們對於手語翻譯的交流便利性和語言準確性都十分重視。然而現在這個版本的Kinect卻有嚴重的不足:它不能識別手語中每根手指的動作,手部的旋轉以及面部的表情。
這些都是手語識別的巨大障礙。儘管對單個詞彙的識別是有建設性的意義的,然而對手語中單獨詞彙的識別是無法構建起有意義的整句的。微軟的自然用戶界面主管Stewart Tansley也解釋說,“目前的這個模型只能辨別每個單詞並把它們在手語言和書寫語言間轉換。”
我們也極為關注機器翻譯的實現方式和視科技發展對手語翻譯帶來新的可能性,正如我們也清楚人類的交流並非只是信息的傳遞這麼簡單。譬如在手語中,除了單詞和手勢外,還有重要的精微之處,比如語境,文化,關係,腔調,情感等。
自然手語
手語都不是線性的。它們不像口語一樣一詞接一詞地成序列的表達。手語的詞彙幾乎都是都是同時發生的。空間位置的不同,手掌的方向,以及手在空中的運動比起手勢本身能傳遞多的多的意義。
並且,許多手語中重要的含義都是通過面部的語法表達和手與手,身體之間的相對距離來得以表達的。 DePaul University的RJ Wolfe教授(the international Sign Language Translation and Avatar Technology symposium的主辦者),便舉例說道,美國手語(ASL)中的一些例如“大”和“小”這樣的形容詞便不是以單獨的手語,而是以手語者對空間的應用以及其他不用手勢的方式來表達的。
“手語識別技術離完善依然還有很長的路要走,”Gallaudent University in Washington的技術入口(Technology Access)項目的負責人Christian Vogler如是說,“依我所見,這個項目組的人還沒有考慮任何手語中的語法因素—不論是面部語法表達還是手勢之間的轉換。”
簡單的來說,手語和口語間是沒有簡單的對應關係的。機器化的手語翻譯不會比機器化的書面語言翻譯更簡單。
下一代Kinect
來自Migam項目的Kamil Drabek 解釋道,新一代的Xbox One Kinect上會有許多重要的創新,其中包括一些對面部表情和身體位移的識別:包括單個手指的移動(不只是手掌),以及手在運動中的轉動等。
Migam正在設計一個波蘭手語詞典,並且這個詞典就要向公眾開放“貢獻新手語”的功能了。這個功能依賴於一種基於Kinect的算法,能學習和理解那些新的手語。 Drabek表示:“這真心是個耗時極長的大型研究項目。”
人機交互
現代人對於“機器也能對我們開口講話”這個概念的執著在科幻小說,概念視頻,以及各種技術的演示中屢見不鮮,Google的“星際迷航電腦計劃”就是一個很好的例子。 (通用翻譯器只是其中的一部分)
顯而易見的,在我們達到真正的人工智能(計算機能真正的理解,思考以及與人類交流)之前,我們始終會停留在對機器發出語音指令這個階段:也就是我們需要去學習和適應那些愚蠢的機械表達。玩兒過Siri的人應該對這點感同身受。
一個很好的例證就是現在直播節目的字幕的產生方式。現在電視台不用打字快速的人來製作字幕,而是讓人去聽節目,然後再把聽到的內容用一種機械的,算法能理解的方式說出來,使得機器能識別節目中說話者本來所說的話。 BBC的字幕製作者說,他們“不能以正常的方式對著麥克風說話。我們必須極為小心的,確保每個字都說得十分清楚,這幾乎是一種完全機械且不自然的說話方式。”
Wolfe博士說:“用戶調查顯示,聾啞人群體普遍表示他們更喜歡人類錄製而非擬真人像的手語視頻,因為它們更好懂。大多數擬真人像都不能完全的表達手語,因為它們只能模仿手臂和手部的動作,然而手語中有很多表達是依賴頭,臉,和身體的。”Vogler教授補充道:“目前的翻譯機原型離能翻譯真正的手語還太遠了,然而Kinect 2的出現似乎能帶來一些提高。”
我們能比“翻譯個大概”做的更好
不僅無人能預測這類項目的進展,什麼時候機器翻譯超過“大概這樣”的質量也難以預測。現在的語音翻譯就好像許多上過幾節語言課的遊客,只知道幾個大致的單詞,總會在時態,韻律,和語法上犯錯誤。
再寬容的用戶也可以(並且應該)質疑那些偽裝成智能的科技。然而,如果我們能如此大方的寬恕機器的翻譯錯誤,為何不能原諒那些遠比機器做的更好的人類翻譯者?畢竟他們更為可靠,而且能幫助人們找到錯誤的翻譯,語意的誤解,失禮的地方等。
我們推荐一種混合的翻譯方式,利用眾包的便利和移動設備的網絡通訊的力量,即,將需要翻譯服務的用戶通過遠程視頻連線到一個翻譯者那裡。真人總是能更好的保證交流的質量,獲得遠超“還可以”的質量,從而幫助人們完全的表達和理解他人。
配圖來自justasc/Shutterstock
資料來源:36Kr