微軟最新的語音識別系統的準確度比人還高


在最近大熱的 HBO 電視劇《西部世界》中,工程師們在和真假難辯的機器人交互時就是直接通過一般的語言實現,雖然時不時還是會出現特定的系統口令,但總體而言,還算溝通得非常自然。


《西部世界》中工程師與機器人交互,出自 HBO官網

但環顧現有的帶語音識別能力的系統,無論是蘋果的 Siri、亞馬遜的 Alexa 還是微軟的 Cortana,用户在使用起來多少還是經常想砸手機,因為它們經常擅自“自動糾正”用户話,可見要簡單地做個好的“聽寫員”實在是不容易。
10 月 17 日的時候,微軟發佈了一份名為《達到與人類具備同等交流對話水平》(Achieving Human Parity in Conversational Speech)的論文。該論文宣稱,他們在語音識別上的技術已經高於專業的人工速記員了。


微軟研究團隊,圖片來自微軟官網

為了能夠進行比較,微軟的研究人員找來了一段它們具有正確腳本的音頻片段,並請來了一家第三方公司來進行語音轉文本處理。這個第三方公司的操作方式分為兩部分:一名謄寫員邊聽音頻邊將內容打出來,而另一名則一邊聽音頻一邊修正第一人提供的文本。隨後,根據和標準的正確文本對比,第三方公司的錯誤率分別是 5.9% 和 11.3%。

而微軟的識別系統,在經過 2000 小時對人類交談素材的學習後,針對同一份音頻材料進行了語音識別,錯誤率分別為 5.9% 和 11.1%,數量上來看,比人類對照組少了十來個錯誤。


圖片來自微軟官網

雖然這次測試的成績不錯,但畢竟處理的音頻材料與真實生活場景的貼近性還是比較遙遠。而微軟的研究人員也表明,下一步會將該系統放在帶有部分背景噪音的場景中,例如在派對或是在高速公路上行駛的汽車上。同時,人類對照組的可參考性也還需要考究。但無論如何,希望這次的針對語音識別的研究突破不會成為那種被報道一次之後就消失的信息。

題圖來自 QUARTZ


資料來源:愛範兒(ifanr)

如果喜歡我們的文章,請即分享到︰