即使吐字不清,Google Now 也能“懂”我的需要
愛範兒在之前的一篇文章中曾詳細介紹過 Siri、Cortana 和 Google Now 之間的區別,總體説來,Google Now 算是目前市場上最為成熟的語音助手。現在,為了精益求精,Google 官方搜索部門又推出了它的更新版本。
現有的聲音模型主要依賴於 LSTM(Long-Short Term Memory),作為一種長短期記憶人工神經網絡,它可以視為 RNN (recurrent neural networks)的一種特殊延伸。和其他的 RNN 相比,LSTM 在記憶單元和門控機制上有着獨特的優勢,能夠記住更多的信息。
(RNN 結構)
在這之前,Google Now 採用的是 DNN 技術,這也是目前市場上最為流行的技術,再之前則是稱霸了整個行業 30 年之久的 GMM(the Gaussian Mixture Model)技術。
前浪死在沙灘上,一代更比一代強。
現在,依靠更加成熟的 LSTM 技術,Google Now 的語音識別功能更快也更精準,哪怕是在噪音環境下,也有着不俗的表現。
另外,針對音素預測(phoneme prediction)會有 30 毫秒延遲這點,Google 搜索部門特意對其進行了訓練,使其更接近實際速度;而 feedback loop 功能則可以在瞬間吸納你説的所有單詞及聲音,即使有些發音你並沒有完全發出來,它都可以將這個單詞變得“一氣呵成”。
(feedback loop)
——也就是説,可能你話還沒有説完,它就已經知道你要説什麼了。
目前 Google app 上已經增添了這一服務,Android 或 iOS 用户均可使用。
題圖來自:apnatimepass 插圖來自:droid-life
資料來源:愛範兒(ifanr)
作者/編輯:周 欣