四大AI虛擬助手哪家強?Siri、Alexa、Google助理和Cortana實測
編者按:本文來自微信公眾號“InfoQ”(ID:infoqchina),作者TalkingData,編輯朱昊冰;36氪經授權發佈。
人工智能的技術概念已經有了爆發的跡象,屬於AI的時代也許即將來臨。作為屢屢被用户調戲的AI虛擬語音助手,這四家到底誰更強呢?我們一起看下實戰評測!
寫在前面
2016年是主流科技公司迎接虛擬語音助理的發展元年,而近期在歐美持續走紅的亞馬遜Echo更是凸顯了該趨勢。涉及人工智能的主流科技公司普遍認為人工智能將成為人機互動的砥柱,同時也開始通過智能虛擬助理為切入點,佈局他們的人工智能市場,如:蘋果的Siri,亞馬遜的Alexa,微軟的Cortana以及Google的Google助理。
雖然智能虛擬助理技術已經歷了較長時間的發展,但這些科技巨頭都認為智能虛擬助理尚處發展期,未來智能助理髮展的道路仍任重而道遠。儘管如此,智能虛擬助理已開始逐步滲透入人們的生活之中。
為了更加有效的驗證各家公司智能虛擬助理的性能,本文對四款智能虛擬助理分別進行了測試。由於缺乏標準化、體系化的方法用於評測智能虛擬助理的綜合能力;因此,實驗中選取了儘可能多的基本話題,以達到最佳的測試效果,包括:
- 出行
- 電子郵件
- 信息
- 體育運動
- 翻譯
- 系統功能
- 基本知識
- 音樂
- 天氣
- 日程
- 生活服務
基於這十一項測試條目,對四類智能虛擬助理分別提出常見的問題和指令進行測試。值得一提的是,本次測試所使用的設備:
- Siri,測試設備為iPhoneSE
- Google的助理,測試設備為Goodgle Pixel XL
- Cortana,測試設備為ThinkPad X1 Yoga
- Alexa,測試設備為Amazon Echo Dot
Note:儘管亞馬遜目前已面向Kindle Fire平板推出Alexa,但在進行本測試前,Alexa尚未在Kindle Fire上發佈。
為了更加有效的評估各類虛擬助理的功能性,TalkingData從:情景交互能力、知識庫完整度、AI智能功能完整度以及第三方應用功能整合能力四方面對四類智能虛擬助理進行評估。
測試1:出行場景表1 出行場景測試結果
1、出行路徑規劃:從路徑規劃角度來看,Google助理的智能化能力最強。首先,從情景交互層面,Google助理與Alexa能夠實現出行路徑規劃的全語音交互,語音交互具備實現上下文關聯的識別能力;Siri和Cortana在該情景的交互上,無法實現上下文的關聯,深度交互依賴於手動觸碰選擇。在功能的智能化方面,Google助理依託於Google地圖的強路徑規劃能力,能夠主動規劃路徑,並提供不同交通方式的路徑與耗時;Siri與Cortana在語音匹配地址時通過模糊匹配,需用户二次確認才能進行後續的路徑規劃;Alexa雖然能夠依託YelpData計算與目的地的距離及行車耗時,但不具備路徑規劃的能力。
2、航班預訂:Google助理在航班預訂的功能上也最為完善。首先,在情景交互層面:Google助理與Alexa在語音交互均未實現上下文關聯的深度交互,需要配合觸碰操作完成交互。其次,在功能的智能化方面,Google助理通過整合Google Flights支撐用户查閲、預定機票的功能(主要依賴觸碰交互);Alexa 雖然整合了Kayak的航班查閲功能,但預定功能尚未開放。Siri與Cortana未能語音識別航班預定的需求,其航旅出行的知識庫仍有待完善。
3、出租車預訂:Siri、Cortana、Alexa均能通過交互較好的實現出租車預訂功能。首先在情景交互層面,Siri、Cortana、Alexa均能與用户實現在目的地確認、車型選擇、車輛預訂的深層交互。其次,在功能方面,除了能夠滿足選型與預定功能,Siri、Cortana、Alexa通過整合的地圖功能,幫助用户實現路徑規劃以及乘車成本的估算。由於Google助理未整合第三方出租車應用,尚不具備這方面的交互能力;在語義識別能力方面,也無法識別打車語義。
總結:Google助理在已實現的出行場景功能方面表現的最好,主要體現在語音深度交互的體驗以及基本功能的完善度;然而Google助理功能覆蓋度尚不完善,主要表現在第三方的應用整合上。Siri在已實現的功能上,整體表現較好,但在語義深度分析上,稍弱於Google助理;Alexa在出行領域的功能覆蓋面最全面,也儘可能的進行了第三方應用的整合,但顯然第三方應用的功能整合並不完全;Cortana出行功能的完善度與Siri基本一致,但在路徑規劃的精準語義分析方面稍弱於Siri。
測試2:郵件場景表2 郵件場景測試結果
1、郵件發送:Google助理與Siri在郵件發送的交互與功能最為完善。在情景交互層面,Google助理與Siri均能實現郵件發送場景下通過語音交互,實現上下文的的關聯,並且對姓名有很高的語義識別度,只是Google助理的交互界面相比Siri更加豐富一些;相比之下,Cortana雖然能夠實現深度語音交互,但其對語音姓名的識別度較差,錯誤率高。在功能方面,Google助理、Siri、Cortana都較為完善,均能夠實現郵件新建、編輯與發送。最後,從應用的整合角度來看,Cortana表現的最佳,能夠關聯任何windows自定義的郵件;相比之下,Google助理與Siri分別只支持各自的郵箱Gmail和Apple Mail。
2、未讀郵件查閲:Siri是唯一能夠正確語音識別新郵件查閲並進行交互的智能虛擬助理。在情感交互層面,Siri能夠理解語義,調用郵箱未讀郵件與用户交互;在功能層面,Siri能夠較好的整合Apple mail的功能,主動調出未讀郵件箱。Google助理雖然能夠看出在郵件查閲功能上確實有所應用,但在交互能力以及智能化的功能實現(理解語義並調用未讀郵件箱)以及應用的整合方面(Gmail)都未完善。Cortana面對知識庫無對應解決方案時,會調用Bing搜索解決問題。
3、查閲最近郵件:同樣,只有Siri能夠正確的完成最近郵件的查閲。在情感交互層面,Siri能夠理解語義,並正確調用最近未讀郵件進行交互;在功能層面,Siri同樣能夠按照時間序列/排序很好的篩選出最近未讀的郵件,展現並實現查閲郵件的跳轉(至Apple Mail)。Google助理和Cortana存在的問題同上。
總結:Siri在郵件場景的情景交互以及功能最為完善,主要原因可能在於蘋果作為手機廠商的許多默認內置應用的優勢,尤其在應用功能整合的成本要比其他助理小得多。同樣,Google助理在已實現的功能上(郵件發送)表現最為優秀,但其功能完整度問題仍然較大,而且值得注意的是,Google助理與Gmail在打通整合方面存在一定問題。Cortana很直觀的表現出其知識庫以及智能化能力不足的問題,將無法識別的問題直接調用Bing搜索。
測試3:信息場景表3 信息場景測試結果
1、信息發送:Google助理與Siri在信息發送的交互與功能最為完善。在情景交互層面,Google助理與Siri均能實現上下文的語義關聯,通過語音全流程實現交互(甚至包括內容輸入),並且對姓名有很高的語義識別度;相比之下,Cortana雖然能夠實現語音交互,但在信息輸入無法通過語音交互,且在語音的姓名識別度較差,錯誤率高。在功能方面,Google助理、Siri、Cortana都較為完善,均能夠實現郵件新建、編輯與發送。
2、未讀信息查閲:僅有Siri能夠識別並很好的完成本項功能。在情景交互層面,Siri幾乎支撐全流程的語音深度交互(查閲、諮詢是否回覆、信息回覆)並配合可視化展現正確的短信功能;在功能上,Siri也做得十分完善,能夠智能的篩選未讀短信、語音支持短信文本編輯,信息回覆等。
3、閲讀推特信息:Alexa在推特信息閲讀的功能最為完善。在情景交互層面,Alexa能夠實現全流程的語音深度交互,語音交互具備上下文關聯能力,且很好的識別、播放每一類需求;Siri雖然迴應其無法查閲推文,但其在某些語境下(如推特熱點),仍能調用正確推特的功能。在功能上,Alexa除了能夠正常的調用推文的閲讀需求,還在語義分析上做了多維度細分,如最近Like的推文、最近被提及的推文、最近發送的推文等等。
總結:在信息功能方面,Siri的表現最為優秀,不僅在於功能覆蓋的廣度,還在於其語音全流程深度交互,這也得益於手機設備內置的短息功能的整合與打通;Google助理與先前一致,在能夠實現的短息功能方面表現的很好,但功能覆蓋度仍有所欠缺;Cortana在語音交互上稍微遜色,同時,在語音識別的問題上,存在較大的錯誤率。Alexa雖然不具備短息功能,但在第三方推特功能的整合和實現上十分優秀,還進行了深度的語義區分,滿足各類需求。
測試4:系統基本功能表4 系統基本功能測試結果
測試的基本功能包括:應用(App)的開啟、系統設備、鬧鐘設置、備忘錄建立與修改、鎖屏等設備自帶的系統功能。
經過測試,Siri與Alexa在各自系統功能的交互與功能調用最強。首先,在情景交互層面,四類智能虛擬助理在能夠識別和支撐的語義的條件下,基本都能正常打開系統應用能夠,但Alexa在部分系統功能的調用上,設置了深度交互的功能(如設置系統時間時,Alexa會諮詢具體情況,而非直接調用時間設置功能)。在功能的智能實現上,Siri與Alexa能夠覆蓋的功能最為廣泛;Google助理和Cortana有許多系統功能無法調用,尤其是Google助理,甚至連Google下的chrome都無法調用。
測試5:翻譯場景表5 翻譯功能測試結果
經過測試,僅有Google助理與Cortana具備跨語種翻譯的功能。在情景交互層面,Google助理和Cortana均能實現翻譯的需求,並通過語音回覆翻譯需求。從功能智能度的層面來看,Google助理無論是對語義的理解還是語法的理解都遠強於Cortana,雖然並未直接調用Google翻譯,但鑑於Google助理較強的翻譯功能,可以推斷Google助理在翻譯功能上整合了Google翻譯的功能。
測試6:基本知識場景表6 基礎知識場景測試結果
1、基本知識:面對基本知識語音問題處理最佳的是Alexa。首先在情景交互層面,四類智能虛擬助理在能夠理解的範圍內,都能實現正常的交互以及應答。但在功能的智能度方面,Alexa所覆蓋的知識庫最為全面,並且能夠準確的回答問題;Google助理,Siri,Cortana的知識庫都有各自的侷限,其中Google助理的功能能夠識別的基本知識問題最為侷限;面對無法解答的基本知識時,都會調用其相應的搜索引擎。
2、新聞:新聞方面的交互和功能實現Google助理處理的最好。在情景交互方面,Google助理、Cortana和Alexa均能很好的識別用户的新聞需求問題,並將正確的查詢結果返回。在智能化方面,各智能虛擬助理均能實現語義的精準匹配新聞內容(依賴搜索引擎);但從第三方整合來看,Google助理支持的新聞搜索範圍最廣。
總結:在基礎知識問題的解決方面,Alexa對應的知識庫最為廣泛,能夠識別不同領域的基礎知識問題,並精準搜索給出答案;同時也體現了Amazon在基礎知識庫搭建上下了較重的功夫;而Google助理、Siri、Cortana在基礎知識的語義理解上時常存在一定偏差,給出的結果未必準確。在新聞話題方面,Google助理仍是保持其精品化的特徵,相比其他智能虛擬助理,Google助理在新聞話題整合了大量的第三方新聞媒體作為信息源,很好的提升了用户體驗。
測試7:體育場景圖7 體育場景測試結果
1、查詢當前賽況(比分):Google助理、Siri和Alexa都能很好的完成該項任務。在情景交互層面,能夠正常識別語音並返回結果。在功能的智能化層面,能夠精準定位棒球比賽,並對棒球各類比賽進行細分,尋找當前賽事的實時比分。
2、查詢比賽賽程與球隊現狀:四類助理在比賽賽程的查詢上均表現很好,但都不具備該話題深度交互的能力,最糟的是,除了Google助理,其他助理均無法識別“scorer”的語義,詞庫完善度還有待提升。
3、查詢賽季冠軍:四類助理對於足球賽事的識別能力都較弱,無法正確關聯“獲勝者”與“英超賽事”。
總結:Google助理、Siri、Alexa在籃球與棒球的體育話題表現較好,基本可以準確查詢賽程和賽況,但體育話題的深度交互上,存在一定的上下文關聯問題;Cortana在賽況的標籤不如另外三者,證明其對體育賽事的實時性支撐還有待提升。值得注意的是,四類智能虛擬助理在足球賽事的表現都較弱,這可能與美國地區更偏好籃球和棒球相關(四類助理均由美國開發)。
測試8:音樂場景表8 音樂場景測試結果
1、播放指定歌曲:所有的智能虛擬助理都能識別音樂播放需求,並調用音樂媒體播放,但Google和Alexa支撐使用的媒體更為豐富。另外,值得一提的是Alexa是唯一一款具備交互播放器設置的助理。
2、播放新音樂:僅有Alexa對“新音樂”的語義理解較為正確,能夠自動掃描並播放最近添加的新音樂。雖然與測試預期不一致(主要原因在於開發者對新音樂與測試者理解的不一致性),但相比其他助理錯誤的語義理解,已好出許多。
3、識別外播放器歌曲:Siri與Cortana在識別以及深度交互處理得較好。在智能化功能層面,Siri,Cortana和Alexa均能通過外播放器的音樂,語音識別成歌曲。然而,僅有Siri和Cortana具備進一步情景交互的能力,幫助用户搜索歌曲並交互確認是否播放。
總結:Alexa在音樂主題整體表現的較高,主要表現在語義理解以及交互功能的完整性上。Siri和Cortana整體功能也較為完善,但在語義理解方面稍有不足。Google助理在音樂主題上,表現並不理想,優勢在於其整合的第三方音樂流媒體最為豐富。
測試9:天氣場景圖9 天氣場景測試結果
1、天氣預報:Google助理與Cortana在天氣預報的功能最為完善。在情景交互層面,四類助理都能交互並預測具體某一天的天氣,但在信息回覆上,Siri無法實現完全語音的交互。在智能化上,僅有Google助理和Cortana能夠實現上下文語法的關聯,支撐深度的交互。
2、天氣查詢:Google助理在天氣查詢的功能上最為完善。在智能化方面,Google助理,Siri以及Alexa都能實現語義的深度理解,能夠從帶傘映射到天氣情況;但在天氣預報方面,只有Google助理能夠實現精準的天氣預報,Siri與Alexa只能問官答官。在情景感知方面,三者基本一致,能夠通過語音進行交互,並正常播報相關天氣信息。
總結:Google助理在天氣場景的處理能力最強,尤其在於其語義分析的能力,不僅能夠很好的實現上下文關聯,給出語音回覆,還能夠對一些語義下的問題進行延伸。Alexa的語義分析能力引導的智能化功能稍弱於Google,但基本功能都能實現。Siri在智能化以及情景交互能力,都弱與Google助理。Cortana則有一些極端,在天氣預報場景效果與Google助理基本一致,但在天氣查詢話題上,由於無法關聯其“帶傘”與天氣的關係導致無法識別此類問題。
測試10:日程場景表10 日程場景
1、日程查詢:四款助理均能較好的實現日常的查詢,但只有Siri做到了上下文的關聯,能夠基於已有語境,進行深度的日程交互查詢。
2、日程安排修訂:Siri日程修訂方面表現的最佳。在情景交互層面,Siri,Google助理以及Alexa都實現了語音的深度交互(Cortana需要依賴觸碰選擇)。但在功能智能度方面,Siri和Cortana才能實現添加與刪除的功能均能支撐。值得注意的是,Siri甚至還能從日程場景識別姓名,關聯到用户的通訊錄。
總結:Siri在日程場景的智能度,以及功能完善性最為優秀,這需要再次得益於Siri作為蘋果手機廠商開發的優勢,能夠很好的整合設備內部,由蘋果開發的其他功能。Cortana基本能夠實現日程功能,但在語音交互層面稍微弱於Siri。Google助理與Alexa在日程場景則表現一般,部分功能無法實現。
測試11:生活服務場景表11 生活服務場景測試
1、周邊事件:Cortana和Alexa都能較好的實現周邊事件的發掘,並調用相關信息,通過信息選擇,可以進一步查看相關活動信息。Google助理與Siri則表現得較弱。
2、周邊餐廳:Siri在周邊餐廳功能方面作為較為完善。在智能化層面,Siri除了能夠實現另外三款的周邊餐廳信息查閲的功能外,還支持餐廳預定、餐廳評價參考、更多餐廳選擇等功能,對應的情景交互功能也更加豐富。
3、周邊住宿:只有Siri能夠很好的完成周邊住宿問題的回覆。Siri不僅支持周邊酒店的信息查閲,還支持酒店預定,酒店當前狀態確認(是否可預定)等功能,並且在情景交互層面,都具備較好的語義與觸碰的互動,完成全流程的功能實現。
總結:Siri在明確指向的生活服務,具備很強的功能完整性及交互性,同時,也需要注意的是,Siri在生活服務方面,整合了大量的第三方應用來實現其功能。相比之下,Cortana和Alexa在非指向性的生活服務功能表現得較好,另外也可以發現,Cortana調用Bing搜索時,有時也經過了一定的語義理解與翻譯。
最後總結
結合以上十一類場景的測試結果,TalkingData對四類智能虛擬助手進行綜合評估。下表為Google助理、Siri、Cortana、Alexa面對11類話題,在情景交互、智能度以及功能完整度的總體評估。
表12 各款智能虛擬助理得分
可以看見,Google助理與Siri的在場景的取勝次數,以及得分次數基本一致。值得注意的是,Alexa緊隨其後,甚至在某些話題上超過了Google助理和Siri,Cortana的功能覆蓋度較弱,仍有較大提升空間。
Google助理:
在已實現並已整合Google其他應用的測試場景中,Google助理表現得極為優秀,尤其在深度語義理解,會稍強於其他虛擬助手。但可以發現,Google助理的功能覆蓋度並非十分齊全,問題主要出現在對其他應用的整合上;尚且不提及對第三方應用,Google助理還有許多Google體系內的應用功能都未能整合完全。相信隨着對更多應用的整合,Google助理的功能將更加強大與完善。
Siri:
Siri在已實現的功能模塊,標籤得也極為出色。雖然在個別場景的深度語義理解上稍弱於Google助理,但基於語義理解後的功能模塊,比其他智能虛擬助理要更縱深一些,這歸功於對第三方應用的整合以及整合後的功能調用。另外,值得一提的是,得益於手機廠商的優勢,Siri在手機基本功能、系統功能的智能實現度都強於其他智能虛擬助理。第三方應用的接入,也將助理Siri功能完善度更上一層。
Cortana:
相比其他三款智能虛擬助理,Cortana就稍顯遜色,一是智能知識庫建立的不完善,很多語義無法理解,只能直接調用Bing搜索處理;二是在能夠實現功能的縱深度上,也不及其他智能虛擬助理。Cortana作為一款智能虛擬助理,還有很長的路要走,包括語義知識庫的建立,以及功能的建設,第三方應用的整合等等。
Alexa:
Alexa的生態最為開放,大多數功能都依賴於第三方插件的,未來在功能完善度上,Alexa有極大的空間。但值得注意的是,Alexa雖然在特定場景能夠準確的調用第三方插件,但在第三方插件的功能整合上,會稍弱於Siri,在出行以及生活服務場景這個特點尤為明顯;在語義的深度分析上,也稍弱於Google助理。未來Alexa的發展,如果能強化其語義深度分析能力,並提升第三方插件在功能模塊的整合,相信Alexa將成優秀的智能虛擬助理。
總體來説,TalkingData認為智能虛擬助理髮展的核心在於以下三點:
- 交互層的情景感知:語音智能助理需要能夠對大量非結構化的語音進行識別,並基於其AI網絡進行響應。交互層的網絡深度,同樣也決定了智能助理功能的完整性,尤其是在基於已有交互的深層次交互。
- 知識庫的構建:知識庫的規模和類型決定了智能助理能夠響應的場景以及在各場景能夠決策響應的顆粒度。其提供的大量分類的數據集,將作為情感交互層學習的重要輸入。
- 應用能力的整合:智能助理的功能主要用户交互,但功能的進一步實現需要通過其他應用實現。這要求智能助理能夠很好地與第一方其他應用或其他第三方應用進行整合,才能確保智能助理實際場景化的應用。
資料來源:36Kr