替代鍵盤輸入的大趨勢:語音輸入法與其背後的技術解析
InfoQ是一個有內容的技術社區,本文原創首發於 InfoQ 微信公眾號,ID:infoqchina。轉載請聯繫微信:infoqzone。
作者丨王硯峰
編輯丨Tina、木環
烏鎮大會上,搜狗CEO王小川用自己的演講首秀了語音識別和機器翻譯技術實現的機器同傳功能;錘子發佈會和訊飛發佈會也向觀眾演示了語音輸入產品。這些現場展示,將語音輸入直接帶到了大眾面前。大家感覺新鮮的同時,很大程度也驚訝於語音輸入的準確度,它甚至超乎了我們的想象。
搜狗、科大訊飛、百度等國內巨頭公司在語音輸入上,從技術到產品行業應用,都做了很多探索。那麼,如何從技術上理能語音輸入?智能語音給日常生活帶來了怎樣的影響?
InfoQ在10月份的時候聯繫了搜狗公司桌面事業部高級總監,桌面研究部和語音交互技術中心負責人,王硯峰。他同時負責搜狗智能語音業務,帶領語音和語義技術團隊實現了業內頂尖的語音交互能力,目前致力於智能語音技術的產品化創新。本文由採訪資料整理而來。
前言
我們都知道搜狗的一個核心產品就是輸入法,2011年的時候,語音還沒有像現在業界這麼火,但是他們認為語音輸入一定是未來很重要的一種輸入方式。所以,搜狗開始佈局自己的語音技術,並在一年之內快速把自己的技術做起來,於2012年1月上線第一個版本。現在搜狗輸入法單日語音請求突破1.9億次,是國內第一大語音輸入應用。
發展到現在,通過人工在真實環境下進行評測,語音輸入準確率已經達到97%。評測條件是對着多家手機,考慮人的口音和環境噪聲,在真實環境下,如麥當勞、食堂、路邊去做對應測試。在這種環境下測試的結果,國內做語音輸入的公司中,科大訊飛準確率也是97%
搜狗語音功能能夠高效上線,究其原因,第一是藉助於搜狗輸入法壟斷的市場地位。搜狗每天能收集到的用户真實語音數據有十幾萬小時,裏面包含了各種用户真實場景下的噪音,口音等;第二背後有搜索服務的支持,這也是早年間為什麼能快速推出語音助手的原因。
搜狗擁有各個垂直搜索以及對應的知識圖譜,這對語義理解和對話的幫助極大。搜狗語音輸入法每天有幾十個億的PV,搜索每天有上億,擁有海量的真實數據確實是一大財富。
你的語音是如何轉變為文本的
搜狗語音識別的總體架構:
搜狗採用的是主流的語音識別流程。語音識別整體都可分成兩個大的部分,第一部分是訓練,採集大量語音,通過訓練工具訓練聲學模型和語言模型。訓練聲學模型需要採集大量的標註語音,而語言模型訓練需要有大量的文本。
第二是在訓練完成的模型指導下,使用解碼器對輸入語音信號進行識別,尋找最優的詞序列作為結果輸出。整體流程請見圖3。識別的公式如圖4所示,可見聲學模型主要描述發音模型下特徵的似然概率;語言模型主要描述詞間的連接概率;發音詞典主要是完成詞和音之間的轉換,其中聲學模型建模單元一般選擇三音素模型,以“搜狗語音為例”:
圖1 語音識別系統流程
圖2 語音識別原理
需要注意的是,輸入特徵矢量X代表語音的特徵。
引用目前不管是科大訊飛還是其他大的互聯網公司,大家的技術基本沒什麼質的差別。
聲學模型上,12年上半年開始做語音識別的時候使用傳統高斯混合分佈。12年終,微軟的深度學習語音識別成果出來後,搜狗開始跟進這個成果。於13年Q2上線了深度學習模型。開始時是用DNN,錯誤率就下降了30%。然後模型更復雜後結合了CNN,錯誤率再次下降20%。隨後混合LTSM形成多種網絡結構,再度提升了10%。
王硯峰説搜狗於前一段時間開始做CTC,使用端到端的方式進行聲學建模。而目前在工業界,去年10月份,百度號稱是降低了20%。Google大概是降低了10%,隨後是搜狗,降低了10%。“現在整個語音識別也會有兩個大的流派,一個大的流派就是基於像LTSM-RNN這種方式,還有一種大的流派是把CNN的部分強化的更多,就是把它變成一個層數更深的CNN”。
LTSM+CTC適合於工業界,在效率上也會比後者高,Google語音也已經實現並上線了,目前在國內搜狗跟百度是屬於前者;科大訊飛走得是後面這條路徑,訊飛花了更多時間在技術探索和品牌效應上。
整個處理流程中最耗時的是聲學部分。目前的複雜網絡集中在聲學部分,但是這並不代表語言模型不行,而是現在語言模型都基於傳統的馬爾科夫模型,如果整體都使用神經網絡模型,開銷就會大大降低。現在的問題是如果在聲學上使用深度學習模型,計算力就無法達到。
比如之前搜狗使用CPU進行運算,聲學部分就佔據了60%-70%的計算開銷。使用LTSM技術之後,識別效果變得很不錯。隨着數據量再增大,模型變得更加複雜,要想取得更好的效果,用CPU就完不成任務。但是如果將CPU全部轉為GPU,計算能力就會大幅提高。最近搜狗開始完全轉為GPU,換GPU以後,無論效果還是性能都有明顯提升。
語音輸入痛點和解決方法
語音輸入痛點有很多,比如口音、方言、多人説話、噪聲、吞音、遠場等等。吞音現在業界解決的普遍較差,比如一旦吞音以後,從聲學上很難捕捉到特別細小的信息。但是語言模型如果做得太強勢,將會產生反作用,包括魯棒性也會受到影響。大家現在所説的準確率97%,就是基於一種相對理想的環境。
現在的痛點:第一是需要能夠從吞音和語速,包括從用户的自然連讀上做得更好;第二點,是需要在有噪音的情況下將魯棒性做得更好。旁邊有人説話,或者旁邊有很強的背景音樂,都能夠做到準確的識別。第三點,是遠場。比如把一個音箱放在離你5米遠的地方,這時候去説話,識別就很困難。
對於去噪,本身有兩種流派。第一種流派是往數據當中加大量的噪音,相當於讓訓練數據去加各種場合的噪音。在訓練的過程當中,去擬合更多的這種場景,去見更多的場合,統一通過聲學模型去做。還有一種是最近兩年才流行起來的方式。當然以前也有,但這兩年在這方面學術成果比較多,就是語音增強,就是怎麼能夠在噪聲當中,把噪聲先通過預處理壓下去,突出語音,減輕後續工作。
但是語音增強也會有問題,如果做得不夠精細,效果不夠好,甚至有可能變差;現在已經有很多方式把DNN引入到語音增強當中,但實際上還需要很大的計算力。這個計算複雜程度有的時候甚至不輸於後端。這一塊目前學術界已經有成果出來。
在數據預處理上搜狗有一個比較好的一個方法。在語音識別結果當中,通過一些產品設計來判斷用户當前是否使用了文字結果,比如識別結果出來,用户卻刪掉了,就説明識別結果不夠準確。這樣的語音,需要重點在模型訓練去使用。
智能語音技術如何影響你
各種發佈會後,相信有不少朋友會去下載語音輸入APP,研究下功能和性能。但是下載之後你還有哪些時候會用到語音輸入?和朋友聊天時絕大多數還是會習慣於打字吧。那麼智能語音什麼時候能影響到你?智能語音的市場已經爆發了嗎?
語音交互目前在手機端比起文字交互來講差距還很大的。目前每天會使用語音輸入的用户佔到8-10%左右,這僅僅是UV比例,如果是PV比例那就更低。老羅在錘子發佈會上給訊飛做了一把宣傳以後,當時訊飛語音輸入着實火了一陣,這也説明一般用户對於語音功能的認知是遠遠不夠的。
目前手機上語音輸入的場景分成兩類:一種是用户當前確實不方便打字,會選擇使用語音。另一方面我們看到年輕人會更加喜歡用語音的方式進行輸入,覺得這種行為更具有style,更好玩兒。
引用哪些語音交互場景最具增長潛力,以及能快速規模化應用?三個有價值的場景,車內,客廳內,以及可穿戴。
引用一下今年互聯網女皇在她報告中提到的,美國同學們使用語音的主要原因和場景:
“不過這幾個場景爆發的順序有先後。我認為,首先是車,然後是智能家居和可穿戴。”
“車的場景和需求最明確,產品定位也最明確,所以語音的目標也最明確,從產業步伐上來看,目前車內導航語音普及率也是最高的。”
最直觀的就是車內的智能導航,以及一些周圍查詢和用車問題。因為在車內你的雙手和雙眼都是被佔用的,當你有臨時性需求時,語音是一種最好的滿足方式。另外就是用户在路上產生的常見問題,比如順便加油、聽FM,回微信消息等。
“智能家居目前圍繞電視和音響,具體的需求主要是搜片和聽歌(以及FM等),這方面的需求比較明確。但是目前市場有些過熱,比如一個以聽歌為主要產品場景的音箱,已經被大家定位成未來家庭智能的入口。”
可穿戴,比如智能手錶。“可穿戴我認為是最晚的,因為市場上產品還沒有成為剛需,比如智能手錶,給用户帶來的價值,其實是遠小於我們內心預期的。”
也就是説語音生態並不是直接面向消費者,而是面對To B客户的,是B2B2C的過程。消費者必然是通過一些中間智能終端產品,比如車載設備、智能家居設備、可穿戴設備,以解放你的雙手和雙眼,來感受語音輸入帶來的便利。
未來語音輸入應用的破局點在哪裏
引用不管是技術也好,產品也好,當它給用户帶來價值的時候,一定是用户有剛需的時候。
很多用户需求是伴隨着場景出現的,就像我們現在在手機上語音輸入的使用率不到10%,這説明什麼?用户在很多場景下是不需要這種產品的。“我們其實並沒有説,從這種發展上或者從這種場景上,希望用户能夠百分之百使用語音輸入,這也不現實,本身也不對”。
但是什麼樣的羣體需要?是老人、小孩,或喜歡酷炫的年輕人。用户在什麼樣的場景下真正需要這個產品?在辦公室裏根本不需要這樣的東西,更多的需求產生在户外和在家裏的時候。
所以從語音輸入發展看,可以分成兩個維度去談,第一個是對人,第二個是對機器。
輸入法就是對人。包括搜狗新研發出的語音翻譯,語音翻譯是針對外國人;語音輸入是針對中國人;而搜索以及雲助手是針對機器。對人和對機器的需求是不同的。對人需要更多是考慮他的場景和痛點以及使用設備情況。比如不方便打字或者打字能力太低的時候,就需要語音輸入。
如果未來你在音箱上放一個聊天功能,而且大家真的去用音箱聊天,那麼音箱肯定是沒法通過鍵盤進行輸入的,只能通過語音輸入方式。所以説語音輸入一定是會伴隨着用户的需求跟場景以及用户使用特點去講的,而不是説未來一定會徹底代替文字。
現在搜狗搜索或者語音助手的延伸,更多的是怎樣更好的服務當前的一些需求。比如上面所説的在開車的時候,不可能邊開車邊用雙手去按鍵,眼睛也需要看路況,那麼在這個時候怎麼能夠讓機器去解決一些問路或找加油站的事情呢?這時候就可以使用語音輸入來進行交互。產品價值要跟用户需求和場景放在一起去談。
但是針對機器來講,未來會有更廣闊的市場空間,因為未來的植入設備,尤其是滿足於垂直領域的智能設備會越來越多,電視變成智能電視,音箱變成智能音箱,手錶變成智能手錶,很多東西都在智能化。因為在智能化的過程中,只要它能夠提供內容,那麼它一定是有用户搜索的需求,只要有用户搜索需求,就有語音的價值,就是主流的價值。
目前搜狗的智能語音應用佈局,王硯峰説有兩個重點:
第一個重點,是PC普通用户的市場,因為搜狗是一個互聯網公司,首先需要在互聯網這條主線上把事情做好。而且大家都知道,像圖像目前在安防和自動駕駛領域應用較熱。但是在普通用户消費品上,圖像產生貢獻不大,普通人很難體驗到圖像處理能力,圖像這塊目前還沒有成為人機交互的主要方式之一。
而現在的人機交互主要還是通過高緯度的信息去交互的,這個高緯度的信息就是語言:文字和語音。“所以未來,在用户產品上,我個人覺得語音是一個在10年之內能夠比圖像更接近用户需求,並能夠產生用户價值的一個領域,而這也是搜狗目前的核心路徑之一”。
目前搜狗輸入法和搜索的核心路徑就是輸入交互。就未來的人工智能戰略而言,搜狗的核心戰略就是:自然交互+知識計算。而語音在交互上承載了一個非常重要的任務,所以第一件事應該是如何在產品上更好的服務用户,包括能夠在技術上產生更多好的用户產品。
第二個重點,實際上,未來不管是人工智能市場也好,還是硬件市場也好,都將走向分化的發展方式。比如國內硬件公司在這個方面就特別擅長,第一類就是產生內容公司,如喜馬拉雅。第二類,就是中間把設備和內容聯繫起來的公司,這種做連接的公司也就是人工智能公司。
而比如音箱,導航,不可能是語音輸入公司自己做,但是用户確實是在這樣的產品上進行語音交互,從而獲得服務拿到結果。以前是PC時代,當前是手機時代,但是未來不管是智能設備也好,可穿戴也好,這些市場一定會慢慢起來。所以現在也不單純是2B的市場,是B2B2C的市場,產品提供出來最終是要面向用户的。
引用除了做好自己的產品以外,確實還要考慮,怎麼把從語音到搜索、從交互到內容提供的完整體系提供給一些我們認為有價值的廠商,用好的產品同他們聯合研發,更好的提升用户體驗,這是我們的思路。
關於語音輸入的研發過程,王硯峰説他最大的感悟是:需要用一個好的產品來推動技術發展,並且產品能夠反過來促進技術進步,從而形成一個閉環。如果是去定位一個技術專家,那麼技術專家他不需要去理解產品的邏輯或者市場邏輯,只需要漸漸的去推動這個技術發展。
但如果要做一個技術方向,並且把這個技術方向作為公司未來的一個主要方向,那麼就一定要去把產品和用户形成一個好的閉環。這也是語音能夠快速發展的原因。“
綜上,語音技術什麼時候能爆發,還是要取決於:
第一,車聯網以及智能家居等產業的進一步成熟,能給用户帶來真正的價值,讓用户在這些產品上產生切實的消費,而不僅僅是體驗一下。這樣產業和產品的需求就會反過來推動技術的進步。
第二,語音的魯棒性的問題需要進一步解決,比如遠場,噪聲,多説話人等問題。當然這是一個漸進式的過程。
第三,自然語言的理解能力也需要更大的提升,機器更懂得用户的意圖,才能給用户帶來更穩定的體驗,產品才真正的可用。
所以爆發不僅僅是技術層面那麼簡單,而是從產品設計到技術能力,都要比現在有一個更好的提升。
作者簡介:
王硯峰,搜狗公司桌面事業部高級總監,桌面研究部和語音交互技術中心負責人。帶領桌面研究團隊承擔輸入法、號碼通、個性化新聞等搜狗桌面產品在大數據和算法研究方面的工作,通過研究能力提升產品核心品質推動產品創新。同時負責搜狗智能語音業務,帶領語音和語義技術團隊實現了業內頂尖的語音交互能力,目前致力於智能語音技術的產品化創新。
資料來源:36Kr