王小川:為什麼 AlphaGo 會在第四局輸給李世乭?
隨着第三屆互聯網大會進入第二天,搜狗 CEO 王小川也登台演講,分享了自己對以深度學習為代表的人工智能的理解。
整個演講從 AlphaGo 與 李世乭的對決為引,王小川説這次對決成為人工智能引爆的一個開端;但是作為一個產品經理,王小川認為人工智能有三個產品方向:
- 識別。包括語音識別、圖像識別和視覺識別;
- 創造。比如説基於一幅圖,能夠生成它的文字描述,甚至生成音樂;
- 判斷。也就是決策;這個方向是最重要的,有着重大的商業意義。
接着,演講的話題回到了 AlphaGo 本身;王小川説:
引用如果沒有之前三千萬局人機對戰的棋譜,AlphaGo 是沒有能力做到只通過強化學習去贏得人類的。如果將目標交給機器,而機器能夠做自我學習並有新的突破,那我們離新的人工智能時代的到來就更近了。
王小川還談到 AlphaGo 在第四局中的失敗。他引用了 DeepMind 公司工程師的説法稱,之所以會失敗,不是程序有 bug,就是深度學習本身有瓶頸。一直到今年 6 月份,這個問題依然沒有得到解決,而且即使 AlphaGo 能夠下好第四局,也有可能出現新的問題。
據此,王小川説,深度學習是有瓶頸在的。
除了 AlphaGo,目前人工智能發展的許多方面也都存在很大問題。比如説語音識別,在安靜環境下準確率可能達到 95% 以上,但是一旦有噪音干擾,語音識別的效果就會立即下降。實際上,即使是包括 Google 的語義分析、自然語言處理等技術都還存在問題。
另外,王小川還談到了無人駕駛。他認為:
引用對於見過的場景、對於封閉場景,無人駕駛汽車確實是可以使用的,但是對於真正開放的環境,不只是跑在高速上或者是五環路上的汽車,以現在人類的技術,是不安全的。
以下是王小川在世界互聯網大會上的演講實錄:
我非常喜歡張一鳴先生剛才的分享,作為一個創業時間不長的公司,取得今天這樣一個成績,既有技術,也有情懷。已經聽了 12 場分享了,最後一場是我給大家帶來的我們對人工智能的理解。
前面 12 場中間有技術、有產品,我希望我給大家的分享能夠有些不同的內容,有自己獨有的視角。
今天一開始大家都提到了 AlphaGo 這個事情,作為今天人工智能引爆的一個開端,深度學習在中間承擔了最重要的責任。今天大家開始暢想的時候,有可能認為人工智能未來真的會取代人,我希望今天的分享更多地能夠知道人工智能在今天能做什麼,不能做什麼,未來終極的理想又是什麼。AlphaGo 之後,我們看到最重要的領域突破是在語音和圖像上,但事實上在文字領域的進展是緩慢的,今天在機器翻譯裏面會有一些突破,但是更多的問答或者其他的對語音的理解並不夠。
所以,我們回到 AlphaGo 之外的圖靈測試,上個世紀 50 年代圖靈就提出了問答機器和對話系統這樣一個概念。開篇來講,我們今天有一個直觀的感受就是語音圖像進步很快,但是自然語言的處理是慢的。
拋開技術,作為一個產品經理,我會提到人工智能有三個產品的方向,今天的會上我們都談到了,一個叫識別,語音識別、圖像識別、視覺的識別。另外一個大家提的比較多的是創造,基於一幅圖,我們生成它的文字描述,生成音樂,生成圖像,這些都有。還有一件事情是判斷,就是我們講的做決策。這三件事情裏面,我跟一些做投資的人聊過,我告訴他們中間最重要的、有重大商業意義的在於判斷,今天大家分享的時候有提到了類似的概念。
大家提到了人工智能往前進步的幾個層次,我想換一個語言來描述,就是工程師在今天人工智能時代會處於越來越重要的位置。我們開始提到傳統的方法是把規則交給機器,隨着統計系統的發展,包括深度學習,我們開始更容易地將答案交給機器。剛才湯道生講的監督學習就是這樣一個方式,所以,在數據足夠的積累下,我們就能讓機器變得更聰明。
這裏面最前沿的方式是將目標交給機器。AlphaGo 融合了這樣幾套算法。但是我跟他們工程師溝通的時候,這樣一個目標交給機器的強化學習還並不成熟。也就是説,如果沒有之前三千萬局人機對戰的棋譜,這樣一個 AlphaGo 的機器是沒有能力做到只通過強化學習去贏得人類的。我會感覺在技術層面這是往下需要突破的一個重點。如果將目標交給機器能夠做自我學習有新的突破,那我們離新的人工智能時代的到來就更近了。
今年 6 月份我去了英國倫敦,也跟 DeepMind 公司的工程師做了交流。我特別好奇的是在下棋的第四局機器輸掉了,我遇到他們的第一個問題就是第四局怎麼回事?他們跟我説,不是程序有 bug,就是深度學習本身有瓶頸。圍棋比賽是 3 月份,我是 6 月份去的倫敦,已經過了 3 個月。3 個月的時間。對不起,這個問題依然沒有解決掉。但是很好的是在我離開後的第一個星期,他們的程序能夠正確地面對之前的第四局棋譜,但是問他是否這個 bug 修好了?工程師跟我説沒有,只是代表第四局那個特定的問題正好機器能夠解決,但是,我們依然不知道什麼情況下這樣一個 AlphaGo 會繼續出錯,所以我們知道深度學習這樣一個體系還是有它的瓶頸所在。所以我今天更多的想跟大家談以深度學習為代表的人工智能技術還有哪些不靠譜的地方是在產品上不適用的。
第一個問題先問一下語音識別靠譜嗎?剛才百度和騰訊都提到了語音識別這樣一個能力,今天我跟大家的演示也談到了語音識別,這是搜狗自己的技術。安靜的環境下我們的識別準確率到了 95% 或者 97%,但是一旦有噪音迅速下降,這種噪音可能還只是汽車引擎噪音,風的噪音,我們把噪音當成原始數據進入到監督學習系統裏面,把這種噪音變成機器能見過的問題之一。但是假設同時兩個人在説話,會怎麼樣?可以告訴大家,在今天的學術界依然無解,同時兩個人説話,這樣的噪音我們都沒見過,我也沒辦法做提前的訓練。
今年 6 月份我也在問學術界的人,人跟機器在語音識別上的區別究竟怎麼解決?我們機器上能採用立體聲的方式做定向的識別,我們做個麥克風矩陣,通過立體方式能夠知道其中一個人在説話,把另一個人説的話去掉,那人是這麼幹的嗎?如果把我的一隻耳朵堵上,我是否沒辦法從兩個人中間分別出説話的人,或者把兩個人説話的聲音錄到一個單聲道的錄音帶裏,人還能識別嗎?在座各位怎麼看?人是可以的,所以人的方法跟機器並不一樣。因此,我就跟一些博士在聊,究竟人怎麼識別?是因為兩個人的音色不一樣,還是一個人聲音大,一個人聲音小,還是因為他們説不同的語言?那個博士笑了,他説,但凡同時有兩個人説話的時候,只要能夠找到一個差別,人就能把其中的一個聲音識別出來,所以,人在跟機器處理的過程中還有巨大的不同。我在這裏先不展開。我們認為語音識別已經在機器智能方面最成熟的領域還是跟人有很大的區別的。
另外一件事是語義靠譜嗎?就是對語言的理解。Google 之前是用知識圖譜的方法解決,現在開始遇到了瓶頸。今年 6 月,我在一個實驗室看到他們最先進的人機對話系統,這個系統能幫你訂餐和訂酒店。在對話過程中,機器的表現是非常驚豔的,讓我們上去試,中間有個環節請大家注意,機器開始問你,你是需要停車位,還是不要停車位?如果這個時候,我們回答説要或者不要,都沒問題。我們就説,我沒車。大家知道機器怎樣的?它完全不理解我沒車就代表着我不需要停車位,這是因為今天的機器在自然語言概念的理解裏面還是遠遠不夠的。所以,自然語言的處理是可以做的,但是,語音的理解到現在還是個不靠譜的階段。
Google 今年也發佈了一套對於自然語言能夠做句子分析的一個引擎,把主語、謂語、賓語都能提出來,但是準確度可能就在 90%,就提不上去了,它自己也説,為什麼呢?是因為這個時候光靠統計、靠語法已經不足夠支撐了,往下需要對句子中具體的概念有理解才能消除歧義,就像我們知道不可能把一條馬路放在一個冰箱上面,對人來講是特別簡單的事情,但是對計算機的挑戰就非常大,所以這是深度學習為代表的人工智能還不夠的地方。
很敏感的問題是,無人駕駛靠譜嗎?今天百度在現場也提出了發佈無人駕駛的汽車,但是從我的了解來看,如果以今天人類的技術,對於見過的場景、對於封閉場景的無人駕駛汽車確實是可以使用的,但是對於真正開放的環境,不只是跑在高速上或者是五環路上的汽車,對不起,以現在人類的技術,是不安全的。因為這個場景只要它沒見過,它可能會犯嚴重的錯誤,就像 AlphaGo 下棋一樣,它會突然發瘋,所以我們可能叫輔助駕駛是可行的,無人駕駛在有新的技術突破前,我認為還做不到。
所以今天深度學習的弱點大家提得比較多了,本身不透明,所以它的可靠性有限,缺乏推理能力,特別缺乏對符號的理解。如果不能理解符號,自然語言的理解就會成為瓶頸。即便是這樣,我們也提到它能夠取代一些行業,比如説棋手、醫生、司機,機器在裏面都能做到很好的輔助,但是對於一些大家沒見過的創造性的事情、規劃、科研,其實是很難的。我們今天在媒體上看到的機器能夠自動寫文章、自動畫圖,我覺得更多的是在科研層面給我們展示出來它的一些例子,但是並不是能達到取代人真正使用的階段。
所以在這裏面我先把大家對人工智能的預期降低下來,也有人在問是否會出現第三次的退潮?前兩次我們都認為人工智能到來了,但這一次可能會比之前好。在之前兩次的人工智能退潮前,我們問一個老師,你是研究人工智能的嗎?這是罵他的話,因為人工智能不靠譜。這一次是第一次真正進入到了使用,確實在語言處理、聲音處理、圖像處理和一些高維數據空間上,它能比人做得更好。因此,這次的區別就是大量的資金、資本投入到了人工智能,也有大量的研究人員在畢業後從事人工智能的工作,這是跟之前的工作不一樣的,所以一方面開始使用,另一方面我們開始期待不斷的產生新的突破。
我個人對這次是樂觀的,但是我也會很緊張,也許我們自己做的搜索引擎就是會被顛覆的一部分。
在這裏面,我要開始暢想未來的路在什麼地方?從我自己的描述來看,搜索的未來就是人工智能時代的皇冠。為什麼這麼説呢?搜索的未來是什麼?人工智能的未來又是什麼?為什麼是皇冠?簡單來講,我會認為搜索的未來就是問答機器人,因為我們已經習慣了一件事情,是做搜索的時候我們先輸入關健詞,然後給你 10 條結果或者是 10 條鏈接,但是這真的是最好的方法嗎?肯定是不夠的。我們也會提到是否我們用個性化的方法能夠使得搜索的結果更準,但其實個性化能夠提供的信息非常有限。真正能夠使得這個系統變得有用的辦法是用問句。以前不用問句的一個原因是因為機器聽不懂你在説什麼。真的到了問句之後,它能夠從給你 10 條鏈接變成給你一個答案,就會好很多。
我們可以想像,如果你問機器四個字,“烏鎮大會”,這個信息不可能給你想要的內容,最多是隻能把新聞,烏鎮的百科或者官網介紹給你,但是如果你問到烏鎮大會哪一天開?這個時候機器才有機會給你更好的答案。所以我相信隨着技術往下突破,搜索引擎會自然而然轉化成一個問答引擎。
在這個道路里面,很多公司都在做,包括蘋果、微軟、亞馬遜、Google,這裏面起步最早做對話系統的大家知道是蘋果的 Siri,這個系統並不成功,在中國用的人很少,不知道對英語現在的使用會怎樣?為什麼不成功?簡單的原因是因為現在的技術還沒有到來,現在我們對於自然語言的處理能力和自然語言的理解能力還非常有限,我就在想,為什麼蘋果這樣一個追求極致的公司會把這個系統發佈出來?一種可能性是蘋果對技術了解不夠,另一種可能性我認為是喬布斯的一個意願,咱們知道在發佈 iPhone 手機的時候,他已經躺在病床上看發佈會了,發佈會完成之後,他很快就離開人世了。所以這像一個早產的嬰兒在 iPhone 4s 裏面發佈出來,所以我認為這樣一個系統代表了喬布斯對於人類蠻終極的一種人機交互的暢想。
事實上在我們大量的文學作品、電影、科幻裏面都會提到問答的機器,不管是《星球大戰》、《超能陸戰隊》、《星際穿越》都會提到。一個最偉大的科幻作家阿西莫夫也在他的小説裏面有一個短片,叫做《最後的問題》,他描繪的就是人類造出一台機器把整個地球、整個宇宙的能源都用上去。這個機器回答不了一個終極的問題,就是這個宇宙是怎麼誕生的,但是其他的問題它都能回答。所以文學作品,其實是代表了我們對問答機器的一個思考。
除了搜索引擎做問答以外,咱們知道在中國搜狗的輸入法擁有 3 億的用户,輸入法的未來是什麼?我也會提到跟自動問答有關係。
之前我們討論輸入法的時候很多朋友跟我説語音是最重要的,搜狗有完整的語音識別的技術和語音合成的技術,但是在我內心,這個遠不是輸入法的極致,它真正的極致是能夠開始尋找信息,幫你去思考。剛才大家演示的是一個分享的能力,真正的回答能力可以在後面給大家做一個新的演示。
在我們討論問答技術和討論人機對話的時候,輸入法也許是一個最好的切入場景。我們之前提到了百度的度祕或者是 Google 的 Assistant,它都是一個獨立的引擎,但是輸入法作為人的一個分身,剛才餘承東提到的這個概念,更容易幫助你建立人的思考,輸入法也會從一個拼音工具開始走向一個對話和問答的系統。
搜狗我們有兩個核心產品,一個是輸入法,一個是搜索,就提到了表達信息和獲取信息,讓表達和獲取更簡單。隨着 AI 技術的發展,我們也真正能夠去更好地解放人的思考。所以我們會有一個理念,兩件事情,一個是做自然的交互,不只是語音,而是語言。另外,就是做知識的計算,能讓機器逐步建立推理的能力。搜狗輸入法擁有最大的語言數據的積累,我們最有機會在這個領域裏面取得突破。
所以,謝謝,這是搜狗給大家的分享。
資料來源:愛範兒(ifanr)