世界首個人工智能律師是如何煉成的?
編者按:本文來自微信公眾號”機器之心“(ID:almosthuman2014),作者ChainnZ、微胖、李亞洲,原題目《機器之心獨家對話Ross Intelligence:世界首個人工智能律師是如何煉成的?》。
ROSS Intelligence 現位於矽谷,是全球第一家致力於法律服務的人工智能創業公司。
2014 年底,多倫多大學的幾位學生在參與 IBM 認知計算機科學競賽(IBM Cognitive Computing Competition)的過程中,將 Watson 的 Q&A 技術運用到了有關破產法律研究中。他們基於法律的分類法和本體論,通過使用 Watson 的 Q&A API,讓 Watson 學習了數千頁的法律文件,並基於Google的 PageRank 算法,建立了用於法律搜索的機器學習層 LegalRank。這套系統能自行識別出法律信息的重要程度,例如它能分辨出最高法院的判決要比地區法院排名靠前。
雖然這個系統在比賽中錯失了第一名,但是這幾位學生的競賽項目成功轉化為創業公司 ROSS Intelligence,連續兩年入選彭博人工智能圖景法律應用板塊,並得到眾多媒體的報道(比如,福布斯,紐約時報,經濟學人、連線、新科學家、衞報,大西洋月刊及眾多頂尖法律期刊等)。
2015 年夏天,ROSS 得到全球最大律師事務所 Dentons 旗下的 NextLaw Labs 的投資,並正式成為了 Dentons 的業務夥伴。之後的一年內,ROSS 不僅成功上線,並且在 Dentons 之外逐漸獲得了更多的客户,包括大型律所 Baker and Hostetler 等。不久之前,機器之心對 ROSS Intelligence 的 CTO、聯合創始人 Jimoh Ovbiagele 進行了專訪,他向國內的讀者介紹了 ROSS 的創業歷程、ROSS 所採用的技術以及未來 ROSS Intelligence 的發展方向。
一、創業歷程
機器之心:能否給大家介紹一下 ROSS,以及講述一下你們是如何開始的?
Jimoh Ovbiagele:ROSS 是世界上第一個人工智能律師,它可以幫助人類律師比以往更高效地進行案例檢索。過去律師們在通過關鍵詞進行搜索時會得到大量結果,這樣律師們需要花費大量時間去檢索答案才能找到真正有價值的案例或條款。
有了 ROSS,律師們便可以自然地對其提問,就像你我交談一樣。使用人工智能技術,ROSS 在接收到問題後,只需幾秒鐘就可以完成從閲讀海量法律文檔到幫助律師找到含有問題答案的精確段落的整個過程。
那麼我們是怎麼開始的呢?
法律與我們每個人的生活息息相關,不管我們懂不懂,它就是我們這個社會的遊戲規則,影響着我們每個人的生活。我的父母在我小時候試圖離婚,我親眼目睹了法律賬單是如何堆積成山的。在美國,百分之八十的法律需求方付不起法律服務的賬單。世界上的其他地方也存在類似情況。
這個數字很驚人,如果歷史性地回顧法律服務價格,它是在上升的,但這並不該發生——新的技術和創新理應在降低成本。我和聯合創始人意識到裏面有需要解決的問題,我們看到人工智能在法律服務的機會——通過人工智能,我們可以讓法律服務更加富有成效,讓更多的人和小商業主用得到法律服務。
IBM 打造的 Watson 贏得了 Jeopardy! 之後試圖商業化 Watson,在這個過程中,他們意識到需要將技術交給試圖找到通過技術改變產業的年輕創新者手中。於是,ROSS 參加了 2015 年的 IBM 認知計算機科學競賽(IBM Cognitive Computing Competition)。我們的對手都是來自世界上其他最好的計算機科學學校,比如卡耐基梅隆、UC 伯克利,以及斯坦福,等等。
比賽第一名會得到十萬美元獎金用以繼續創業。我們當時得了第二名(沒有獎金),但我們一點沒覺得低落,因為我們知道我們是有真產品的靠譜生意(real business),因此比賽後我們還是繼續在做 ROSS。後來我們上了加拿大最大報紙(Global & Mail)的商業版面頭版,吸引了許多律所前來,其中一個是世界上最大的律所 Denton。他們的頂級高管從華盛頓特區跑來到多倫多與我們見面,並表示想看看我們的產品。於是我們像展示水晶球一樣向他們演示了 ROSS。他們非常激動,説道「這就是未來」。於是,Denton 成了我們的早期公測客户,並且隨後也成為了我們的首批正式客户之一,並且投資了我們。
Denton 的興趣是一個巨大市場信號:我們在做的東西真的有市場。於是我和一位聯合創始人從大學退學了;另一位聯合創始人 Andrew,也就是我們公司現在的 CEO 也辭去了他的律師工作,和我們一起用技術更加深遠地改變這個行業。我們一開始一直在一個朋友寓所的地下室裏寫代碼,並且給客户打電話。一開始還是比較艱苦的,我記得 2014 年到 2015 年的那個冬天特別冷,而且我們在的那個地下室沒暖氣。
我們震撼了市場並且引起全世界的巨大興趣,這些興趣不止來自於北美,還包括丹麥、澳洲到巴西。這也讓我們認識到我們解決的問題並非只是個地區性問題,而是一個全球性的問題。不久之後,我們決定離開多倫多去矽谷,畢竟如果要做成一個全球性的業務,我們需要去那裏。當我們打好包,買好機票準備出發去矽谷的時候,我們的顧問説,「你們應該去一下 Y Combinator。」當時我們只是聽過這個名字,其實並不太了解 Y Combinator 是做什麼的,於是我們問「啥是 Y Combinator?」(笑)後來我們了解到 YC 會投一些錢(那時我們沒錢),並提供導師指導,帶你認識有價值的人,總體來説好像還是不錯的。
於是我們提交了申請,並進入了 YC——後來我們才知道這有多難!所有申請中,僅有大約 2% 的申請被接收。那段經歷非常難以置信,我們和頂級創業者一起工作,學到了很多技巧和經驗,並且改掉了很多壞習慣。這對 ROSS 產生了重大影響。在 YC 的那段時間,我們得到了許多律所合夥人的幫助,他們給予反饋幫助我們改善產品。
從 YC 出來之後,我們籌集到了第一輪投資。我們用這筆錢將 BETA 產品繼續開發為真正的商業應用。2016 年三月,我們發佈了這款產品,並且拿到不少 AM Law 200(編者注:類似法律界的財富 500 強)的客户,例如 Latham Walkins(全世界收入最多的律所),Denton(全世界職員最多的律所),著名律所 Baker Hostetler 和 Briesen & Roper 等。
最終這些客户的成功獲得某種程度上是逐漸積累起來的。我們剛剛起步的時候法律行業對技術的態度是非常冷淡的,他們不明白為什麼要做這些,我們的做的這些有何重要價值。我的合夥人 Andrew 可以説像傳教士一樣,他傳播的不僅是 ROSS,而且還包括了人工智能對法律行業的重要影響。如今,法律行業的從業者們逐漸認識到可以如何使用技術擴大市場,增加為客户帶來的價值;就像其他行業一樣,法律行業也可以享受到技術革新的紅利。
在過去幾個月我們看到了行業許多喜人的變化。現在我們正在繼續擴大我們的業務,並將主要精力放在銷售和產品技術兩個方面。
機器之心:聽起來你們和 Kensho 似乎有很多相似處——他們致力於用人工智能改變金融行業,你們致力於用人工智能改變法律行業;他們去年獲得了紐約時報的深度報道,而你們前一段時間獲得了 American Lawyer 的深度報道。你怎麼看?
Jimoh Ovbiagele: 哈哈,説起來是有那麼一點!
二、ROSS 的技術
機器之心:能否介紹一下公司產品所使用的一些技術,比如 NLP 或 Knowledge Representation?
Jimoh Ovbiagele:我們使用了很多不同的自然語言和機器學習技術。我們使用了深度神經網絡、依存解析(dependency parsing)、命名實體識別等(name entity recognition),language model 等。我覺得 language model 超酷的,我們使用了 word embedding , 比如詞嵌入(word2vec),以百萬計的法律案例訓練我們的 word embedding。同時,我們發現了一些有趣的東西,比如,總統減去權利,我們得到副總統;不幸的是,我們用律師減去金錢,得到遵守道德。(笑)
這裏面存在一些問題,其中一個是在使用機器學習解決判刑問題或預測罪犯時,發現有很強的種族偏見。人們批判機器學習存在種族歧視,但現實是我們的社會存在種族歧視。機器學習像鏡子一樣反映出社會的歧視,它如同鏡子反應出社會的看法。這些機器學習系統是從數據中進行學習,但是這些數據來自我們人類,所以最終其實還是是學習我們人類。
機器之心:那 ROSS 是如何搭建 knowledge base 以及如何做信息提取?
Jimoh Ovbiagele:這取決於具體的方法。比如使用 word embedding 這樣的無監督學習技術,我們把判例法輸進去,搞清楚單詞的語境然後建立詞的表徵。我們也會進行大量人類互動,讓系統更加完善。我們採用多種自然語言理解方法來決定推薦的文章是否回答了問題。雖然有很多種辦法,但是我們得搞清楚如何給與每個特徵或參數恰當的權重或得分。一種方法是我們使用機器學習來從歷史問題和已知答案的訓練數據組中學習,進行數以千計的迭代,為那些權重測試不同參數,看看哪些可以得出最理想的結果(基於訓練數據集)。
此外我們擁有遍及全球教育 ROSS 如何回答問題的律師。「理解」這一點很重要:我們並非教授 ROSS 法律,我們是在教授 ROSS 如何閲讀法律。因此,即使律師教授的是具體問題,ROSS 也要從這些問題中發現模式,運用到回答從未見過的問題上。
最後,當用户使用我們的產品,我們會邀請用户給予反饋(比如點贊或吐槽),然後根據反饋強化問答或鼓勵我們反思。
總體來説,第一是律師主動地訓練系統,其次用户在使用中通過反饋訓練系統給出更好的答案,此外就是基於大量的數據使用適當的算法學習出表徵。
機器之心:技術方面到目前為止你們遇到的最大困難是什麼?哪部分最難?
Jimoh Ovbiagele:最大的問題是自然語言理解。這方面我們花費了很多時間,比如詞(words) 具有多義性,具體的意思取決於使用的語境。雖然 ROSS 在這方面已經甩開競爭對手不少,但畢竟機器理解語言的能力和人類理解語言的能力還存在很大距離,這還有很長的路要走,同時也是我們正在着力之處。
現在 ROSS 已經可以閲讀法律文件然後找出相應段落並回答你的問題了。我們接下來幾年的最大目標之一,是希望 ROSS 可以瀏覽多個案例和證據,然後生成備忘錄,總結問題,並列出不同觀點。這將會改變律師們研究案子的方式。我們大體上知道要如何做到這個,哪些地方我們知道怎麼做,哪些部分我們還不太知道要怎麼做,而那些不知道的就是最有挑戰的地方。
機器之心:在加拿大有不少從事 NLP/NLU 研究的,你們和那些研究實驗室有密切聯繫嗎?
Jimoh Ovbiagele:那是必須的!多倫多大學邀請我們參與過一些研究生的項目,我們也從研究實驗室僱傭機器學習工程師,並且在各個不同的領域都有專門的科研顧問。對我們來説,和學校的合作非常重要。因為我們的重點做好在法律行業的應用產品,但我們需要使用最先進的人工智能技術。我們將自己視為應用的建築師,這就像建設一座摩天大樓一樣,我們需要使用最好的鋼材,但我們並不一定需要自己去鍊鋼。在競爭中,速度是最重要的。
機器之心:IBM 研究所負責研究,全球的其他產品團隊則用基於這些研究之上的 API 為客户量身打造產品。這樣產品團隊可以更好專注地做出客户滿意的垂直應用,而研究人員可以專注於提高算法的性能。ROSS 的策略和 IBM 商業化 Watson 的策略似乎也很相似?
Jimoh Ovbiagele:是的。説起來我們和 IBM 真是有很多淵源。十一月我們還將和 IBM CEO Genni 一起宣佈我們自己的法律自然語言理解框架 Legal Cognition。這個框架可以幫助律師回答複雜的問題。
機器之心:你提到在文本中有大量的信息,但我們也知道在圖像或媒體中有大量的信息,你如何處理這裏面的信息?
Jimoh Ovbiagele:是的,我們已經開始嘗試處理圖像和視頻了,不過現在主要還是實驗項目,因為我們沒有發現有客户在這方面有明確的需求。現在的情況是,我們有這個技術和產品小樣,但還沒發現合適的使用場景。我相信在以後,這會是一個非常令人激動的技術。
機器之心:那具體的處理過程是如何的呢?是通過對圖像添加註釋,然後再分析文本嗎?
Jimoh Ovbiagele:是的,這是一種方法。使用視覺識別來產生自然語言文本,然後接着使用自然語言處理系統來處理這些文本。此外還有其他的方式,比如直接處理圖像。這是一個解決起來非常有趣的問題。
三、產品與公司佈局
機器之心:對於客户來説,你們系統的體驗是怎樣的?
Jimoh Ovbiagele:對客户來説,一切是非常簡單的。我們告訴律師們啟用 ROSS 只需要網絡連接。律師們一開始都很驚訝,因為他們都習慣了需要經過繁瑣流程安裝在本地的應用,而 ROSS 是完全基於雲端的。現在,他們只需要輸入用户名和密碼,如果有需要的話還可以進行雙因素認證(Two-factor authentication),接着在輸入框輸入你的問題就可以了。
舉個例子,你可以輸入「過去 5 年內,在紐約,破產後學生貸款債務可以被清償嗎?」
我們的系統首先就會明白你想知道你要的是紐約過去 5 年的法律。然後,它會將搜索範圍限制到相關法院。接着我們的深度自然語言處理技術會對問題進行分解、搞清楚詞與詞之間的關係、擴展詞的含義,並應用我們的語言模型等等。
所有的這些均發生在幾秒之內,之後用户會得到 10 個可以回答所輸入問題的相關文章段落。用户可以點擊展開查看相關段落在原始案例文本中的前後文。此外,我們還會顯示相關的預測結果,高亮標出我們認為用户可能會需要的看的一些部分。
這個過程就類似於你讓一個助手幫你找一個問題的答案,他花費幾個小時給你帶回來一堆他認為很重要的文檔,並且標出重點。一般來説,只有律所的高級合夥人才有可能僱得起這樣的助手。而有了 ROSS,這一切就變得輕鬆多了,即使是律所中最年輕的律師,也不再需要花費好幾個小時,幾秒鐘即可完成這項工作,ROSS 給他們帶來了更多的發揮空間。
我們這一代人隨着互聯網長大,我自己從 Google 學會的編程,從 Youtube 學會的神經網絡技術,我們這一代人比上一代人要擁有更多的信息。對過去的律師而言,如果碰上一點不了解的法律問題可能需要花費 9 到 16 個小時去圖書館鑽研。但有了 ROSS,只需要幾分鐘就能成為該法律問題上的專家。配備了人工智能工具的律師將會成為前所未有的最聰明的律師,這也將是我們這一代法律工作者的工作方式。
機器之心:你剛才提到的是搜索紐約州的案例。但如果我想要了解其他州的呢?美國州與州之間的法律不同。該系統能分辨之間的不同嗎?這會是一項挑戰嗎?
Jimoh Ovbiagele:嗯,我們已經做這件事了。你可以明確你想要獲得答案的管轄權是哪裏。你可以通過明確地區、時間範圍來限定搜索範圍。如果你在紐約,你肯定不想要愛達荷州的信息,你肯定也不想要 1914 年的法律,我們明白相關性的重要性,最近期的決策才更有意義。
機器之心:現在公司的團隊大概是一個什麼情況?你們在擴大銷售/諮詢團隊和項目開發團隊?
Jimoh Ovbiagele:銷售團隊和開發團隊現在人數差不多。我們團隊總人數還是保密一下,因為我們想保持神祕感(笑)。一開始我們開發的人比較多,現在我們已經有了受到律師們認可的實用的產品,所以我們開始建立自己的銷售團隊擴張市場。此外,我們最初以美國破產法律為起點,但現在我們有了堅實的底層技術,接下來幾個月我們也會發布對知識產權、勞工法、保險法等的支持。
機器之心:你提到 ROSS 要成為一個全球化公司,ROSS 現有的模型能夠直接從英語遷移到漢語嗎?
Jimoh Ovbiagele:那肯定不能直接就用到中文,我認為這是一個介於中等難度和高等難度之間的問題。現有的英漢互譯技術還不是很完美。當我們正式進入中國市場時,肯定首先會建好中文模型。我們與大成律師事務所達成合作時我們是很激動的,在中國它是最大的法律公司,我們與它的合作勢必也會涉及在各個不同國家的服務。我非常期盼我們很快就能這麼做。中國不僅是個巨大的市場,也有很多非常棒的技術人員,在大學時我就認識很多非常棒的來自中國的計算機科學家與人工智能人才。
機器之心:讓我們進一步討論下國際市場,你認為擴展國際市場的最大困難時是什麼?
Jimoh Ovbiagele:我們的技術能夠延展,這一點我們很自信,但我們也需要延展我們的銷售和市場。我們的擴展不只是適應當地的文化,因為我們知道之前的一些公司所犯的錯誤。當你觀察 Uber 和亞馬遜進入中國或日本市場時,他們認為只要翻譯文本、躍過文化障礙就行。但其實這是一些很細節的問題,比如印刷格式。的確,一些中文印刷格式看起來很有趣、友好,但對美國人來説看起來卻很愚蠢。這中間有一堆這樣瑣屑小事情很容易被忽略。而且就像你與客户交流的時候也需要遵循文化規則。因此如果我們要進入國際市場,不想只是複製我們的工作框架,我們更傾向於在中國「重新建立」ROSS。
機器之心:關於人工智能對法律行業帶來的影響,你怎麼看?
Jimoh Ovbiagele:我想很多人可能會認為人工智能增加了律師的效率之後我們就會需要更少的律師。但其實像我之前提到的那樣,法律還有未開發的市場,80% 的美國人的市場。由於沒有可以降低成本的科技,律師無法向這些市場提供有效的法律服務。
有了人工智能之後,大型法律公司就能擴展業務到這些市場。過去,畢業不久的年輕律師必須花很多年時間進入公司獲取經驗、經受訓練、建立自己的社交網絡等,而有了人工智能的幫助,他們也可以建立自己的業務。這很像 AWS 對開發者的幫助,不再需要大量人手管理服務器了。
我們在法律產業做的事情是讓整個行業觸碰之前沒能開發的市場,這對整個產業是有利的。即使這 80% 的人不富有,但也代表了價值數十億的法律需求。法律服務更加分散和平易近人對社會而言也是有好處的。
此外,人和機器之間的差距是很大的,你永遠需要人來理解人類並處理人和人類之間的關係。我們的願景是讓律師和機器一起和諧工作。
機器之心:這種變化是否會影響到法律院校教授學生的方式?
Jimoh Ovbiagele:我認為是的。有一些法學院已經決定在課程中教授學生們如何使用 ROSS。現在還不好透露太多,我們之後會對外公開相關信息。
機器之心:機器學習可以學習預測法官的判決,比如他的偏好(案例類型)。如果使用人工智能發現法官的偏好,是否會對法律公正產生不良影響?
imoh Ovbiagele:這是一個很棒的問題,現實中一些律師其實會搜索法官的偏好,以便於找到更好的方式將客户的案例呈現給法官。不管有沒有機器學習,我不認為這本身是一個問題。它是一種有效的交流方式。高效的交流者會在交流時搞清楚與我交流的人注重什麼、有什麼交流模式、我如何向他解釋自己。
每個人多少都有偏見,這和你的成長過程有關,很難避免。有了人工智能,我們就能夠通過了解法官過去的決策,從而幫助法官發現自己所存在的偏見,這樣就可以防止偏見帶來的問題。
資料來源:36Kr
ROSS Intelligence 現位於矽谷,是全球第一家致力於法律服務的人工智能創業公司。
2014 年底,多倫多大學的幾位學生在參與 IBM 認知計算機科學競賽(IBM Cognitive Computing Competition)的過程中,將 Watson 的 Q&A 技術運用到了有關破產法律研究中。他們基於法律的分類法和本體論,通過使用 Watson 的 Q&A API,讓 Watson 學習了數千頁的法律文件,並基於Google的 PageRank 算法,建立了用於法律搜索的機器學習層 LegalRank。這套系統能自行識別出法律信息的重要程度,例如它能分辨出最高法院的判決要比地區法院排名靠前。
雖然這個系統在比賽中錯失了第一名,但是這幾位學生的競賽項目成功轉化為創業公司 ROSS Intelligence,連續兩年入選彭博人工智能圖景法律應用板塊,並得到眾多媒體的報道(比如,福布斯,紐約時報,經濟學人、連線、新科學家、衞報,大西洋月刊及眾多頂尖法律期刊等)。
2015 年夏天,ROSS 得到全球最大律師事務所 Dentons 旗下的 NextLaw Labs 的投資,並正式成為了 Dentons 的業務夥伴。之後的一年內,ROSS 不僅成功上線,並且在 Dentons 之外逐漸獲得了更多的客户,包括大型律所 Baker and Hostetler 等。不久之前,機器之心對 ROSS Intelligence 的 CTO、聯合創始人 Jimoh Ovbiagele 進行了專訪,他向國內的讀者介紹了 ROSS 的創業歷程、ROSS 所採用的技術以及未來 ROSS Intelligence 的發展方向。
一、創業歷程
機器之心:能否給大家介紹一下 ROSS,以及講述一下你們是如何開始的?
Jimoh Ovbiagele:ROSS 是世界上第一個人工智能律師,它可以幫助人類律師比以往更高效地進行案例檢索。過去律師們在通過關鍵詞進行搜索時會得到大量結果,這樣律師們需要花費大量時間去檢索答案才能找到真正有價值的案例或條款。
有了 ROSS,律師們便可以自然地對其提問,就像你我交談一樣。使用人工智能技術,ROSS 在接收到問題後,只需幾秒鐘就可以完成從閲讀海量法律文檔到幫助律師找到含有問題答案的精確段落的整個過程。
那麼我們是怎麼開始的呢?
法律與我們每個人的生活息息相關,不管我們懂不懂,它就是我們這個社會的遊戲規則,影響着我們每個人的生活。我的父母在我小時候試圖離婚,我親眼目睹了法律賬單是如何堆積成山的。在美國,百分之八十的法律需求方付不起法律服務的賬單。世界上的其他地方也存在類似情況。
這個數字很驚人,如果歷史性地回顧法律服務價格,它是在上升的,但這並不該發生——新的技術和創新理應在降低成本。我和聯合創始人意識到裏面有需要解決的問題,我們看到人工智能在法律服務的機會——通過人工智能,我們可以讓法律服務更加富有成效,讓更多的人和小商業主用得到法律服務。
IBM 打造的 Watson 贏得了 Jeopardy! 之後試圖商業化 Watson,在這個過程中,他們意識到需要將技術交給試圖找到通過技術改變產業的年輕創新者手中。於是,ROSS 參加了 2015 年的 IBM 認知計算機科學競賽(IBM Cognitive Computing Competition)。我們的對手都是來自世界上其他最好的計算機科學學校,比如卡耐基梅隆、UC 伯克利,以及斯坦福,等等。
比賽第一名會得到十萬美元獎金用以繼續創業。我們當時得了第二名(沒有獎金),但我們一點沒覺得低落,因為我們知道我們是有真產品的靠譜生意(real business),因此比賽後我們還是繼續在做 ROSS。後來我們上了加拿大最大報紙(Global & Mail)的商業版面頭版,吸引了許多律所前來,其中一個是世界上最大的律所 Denton。他們的頂級高管從華盛頓特區跑來到多倫多與我們見面,並表示想看看我們的產品。於是我們像展示水晶球一樣向他們演示了 ROSS。他們非常激動,説道「這就是未來」。於是,Denton 成了我們的早期公測客户,並且隨後也成為了我們的首批正式客户之一,並且投資了我們。
Denton 的興趣是一個巨大市場信號:我們在做的東西真的有市場。於是我和一位聯合創始人從大學退學了;另一位聯合創始人 Andrew,也就是我們公司現在的 CEO 也辭去了他的律師工作,和我們一起用技術更加深遠地改變這個行業。我們一開始一直在一個朋友寓所的地下室裏寫代碼,並且給客户打電話。一開始還是比較艱苦的,我記得 2014 年到 2015 年的那個冬天特別冷,而且我們在的那個地下室沒暖氣。
我們震撼了市場並且引起全世界的巨大興趣,這些興趣不止來自於北美,還包括丹麥、澳洲到巴西。這也讓我們認識到我們解決的問題並非只是個地區性問題,而是一個全球性的問題。不久之後,我們決定離開多倫多去矽谷,畢竟如果要做成一個全球性的業務,我們需要去那裏。當我們打好包,買好機票準備出發去矽谷的時候,我們的顧問説,「你們應該去一下 Y Combinator。」當時我們只是聽過這個名字,其實並不太了解 Y Combinator 是做什麼的,於是我們問「啥是 Y Combinator?」(笑)後來我們了解到 YC 會投一些錢(那時我們沒錢),並提供導師指導,帶你認識有價值的人,總體來説好像還是不錯的。
於是我們提交了申請,並進入了 YC——後來我們才知道這有多難!所有申請中,僅有大約 2% 的申請被接收。那段經歷非常難以置信,我們和頂級創業者一起工作,學到了很多技巧和經驗,並且改掉了很多壞習慣。這對 ROSS 產生了重大影響。在 YC 的那段時間,我們得到了許多律所合夥人的幫助,他們給予反饋幫助我們改善產品。
從 YC 出來之後,我們籌集到了第一輪投資。我們用這筆錢將 BETA 產品繼續開發為真正的商業應用。2016 年三月,我們發佈了這款產品,並且拿到不少 AM Law 200(編者注:類似法律界的財富 500 強)的客户,例如 Latham Walkins(全世界收入最多的律所),Denton(全世界職員最多的律所),著名律所 Baker Hostetler 和 Briesen & Roper 等。
最終這些客户的成功獲得某種程度上是逐漸積累起來的。我們剛剛起步的時候法律行業對技術的態度是非常冷淡的,他們不明白為什麼要做這些,我們的做的這些有何重要價值。我的合夥人 Andrew 可以説像傳教士一樣,他傳播的不僅是 ROSS,而且還包括了人工智能對法律行業的重要影響。如今,法律行業的從業者們逐漸認識到可以如何使用技術擴大市場,增加為客户帶來的價值;就像其他行業一樣,法律行業也可以享受到技術革新的紅利。
在過去幾個月我們看到了行業許多喜人的變化。現在我們正在繼續擴大我們的業務,並將主要精力放在銷售和產品技術兩個方面。
機器之心:聽起來你們和 Kensho 似乎有很多相似處——他們致力於用人工智能改變金融行業,你們致力於用人工智能改變法律行業;他們去年獲得了紐約時報的深度報道,而你們前一段時間獲得了 American Lawyer 的深度報道。你怎麼看?
Jimoh Ovbiagele: 哈哈,説起來是有那麼一點!
二、ROSS 的技術
機器之心:能否介紹一下公司產品所使用的一些技術,比如 NLP 或 Knowledge Representation?
Jimoh Ovbiagele:我們使用了很多不同的自然語言和機器學習技術。我們使用了深度神經網絡、依存解析(dependency parsing)、命名實體識別等(name entity recognition),language model 等。我覺得 language model 超酷的,我們使用了 word embedding , 比如詞嵌入(word2vec),以百萬計的法律案例訓練我們的 word embedding。同時,我們發現了一些有趣的東西,比如,總統減去權利,我們得到副總統;不幸的是,我們用律師減去金錢,得到遵守道德。(笑)
這裏面存在一些問題,其中一個是在使用機器學習解決判刑問題或預測罪犯時,發現有很強的種族偏見。人們批判機器學習存在種族歧視,但現實是我們的社會存在種族歧視。機器學習像鏡子一樣反映出社會的歧視,它如同鏡子反應出社會的看法。這些機器學習系統是從數據中進行學習,但是這些數據來自我們人類,所以最終其實還是是學習我們人類。
機器之心:那 ROSS 是如何搭建 knowledge base 以及如何做信息提取?
Jimoh Ovbiagele:這取決於具體的方法。比如使用 word embedding 這樣的無監督學習技術,我們把判例法輸進去,搞清楚單詞的語境然後建立詞的表徵。我們也會進行大量人類互動,讓系統更加完善。我們採用多種自然語言理解方法來決定推薦的文章是否回答了問題。雖然有很多種辦法,但是我們得搞清楚如何給與每個特徵或參數恰當的權重或得分。一種方法是我們使用機器學習來從歷史問題和已知答案的訓練數據組中學習,進行數以千計的迭代,為那些權重測試不同參數,看看哪些可以得出最理想的結果(基於訓練數據集)。
此外我們擁有遍及全球教育 ROSS 如何回答問題的律師。「理解」這一點很重要:我們並非教授 ROSS 法律,我們是在教授 ROSS 如何閲讀法律。因此,即使律師教授的是具體問題,ROSS 也要從這些問題中發現模式,運用到回答從未見過的問題上。
最後,當用户使用我們的產品,我們會邀請用户給予反饋(比如點贊或吐槽),然後根據反饋強化問答或鼓勵我們反思。
總體來説,第一是律師主動地訓練系統,其次用户在使用中通過反饋訓練系統給出更好的答案,此外就是基於大量的數據使用適當的算法學習出表徵。
機器之心:技術方面到目前為止你們遇到的最大困難是什麼?哪部分最難?
Jimoh Ovbiagele:最大的問題是自然語言理解。這方面我們花費了很多時間,比如詞(words) 具有多義性,具體的意思取決於使用的語境。雖然 ROSS 在這方面已經甩開競爭對手不少,但畢竟機器理解語言的能力和人類理解語言的能力還存在很大距離,這還有很長的路要走,同時也是我們正在着力之處。
現在 ROSS 已經可以閲讀法律文件然後找出相應段落並回答你的問題了。我們接下來幾年的最大目標之一,是希望 ROSS 可以瀏覽多個案例和證據,然後生成備忘錄,總結問題,並列出不同觀點。這將會改變律師們研究案子的方式。我們大體上知道要如何做到這個,哪些地方我們知道怎麼做,哪些部分我們還不太知道要怎麼做,而那些不知道的就是最有挑戰的地方。
機器之心:在加拿大有不少從事 NLP/NLU 研究的,你們和那些研究實驗室有密切聯繫嗎?
Jimoh Ovbiagele:那是必須的!多倫多大學邀請我們參與過一些研究生的項目,我們也從研究實驗室僱傭機器學習工程師,並且在各個不同的領域都有專門的科研顧問。對我們來説,和學校的合作非常重要。因為我們的重點做好在法律行業的應用產品,但我們需要使用最先進的人工智能技術。我們將自己視為應用的建築師,這就像建設一座摩天大樓一樣,我們需要使用最好的鋼材,但我們並不一定需要自己去鍊鋼。在競爭中,速度是最重要的。
機器之心:IBM 研究所負責研究,全球的其他產品團隊則用基於這些研究之上的 API 為客户量身打造產品。這樣產品團隊可以更好專注地做出客户滿意的垂直應用,而研究人員可以專注於提高算法的性能。ROSS 的策略和 IBM 商業化 Watson 的策略似乎也很相似?
Jimoh Ovbiagele:是的。説起來我們和 IBM 真是有很多淵源。十一月我們還將和 IBM CEO Genni 一起宣佈我們自己的法律自然語言理解框架 Legal Cognition。這個框架可以幫助律師回答複雜的問題。
機器之心:你提到在文本中有大量的信息,但我們也知道在圖像或媒體中有大量的信息,你如何處理這裏面的信息?
Jimoh Ovbiagele:是的,我們已經開始嘗試處理圖像和視頻了,不過現在主要還是實驗項目,因為我們沒有發現有客户在這方面有明確的需求。現在的情況是,我們有這個技術和產品小樣,但還沒發現合適的使用場景。我相信在以後,這會是一個非常令人激動的技術。
機器之心:那具體的處理過程是如何的呢?是通過對圖像添加註釋,然後再分析文本嗎?
Jimoh Ovbiagele:是的,這是一種方法。使用視覺識別來產生自然語言文本,然後接着使用自然語言處理系統來處理這些文本。此外還有其他的方式,比如直接處理圖像。這是一個解決起來非常有趣的問題。
三、產品與公司佈局
機器之心:對於客户來説,你們系統的體驗是怎樣的?
Jimoh Ovbiagele:對客户來説,一切是非常簡單的。我們告訴律師們啟用 ROSS 只需要網絡連接。律師們一開始都很驚訝,因為他們都習慣了需要經過繁瑣流程安裝在本地的應用,而 ROSS 是完全基於雲端的。現在,他們只需要輸入用户名和密碼,如果有需要的話還可以進行雙因素認證(Two-factor authentication),接着在輸入框輸入你的問題就可以了。
舉個例子,你可以輸入「過去 5 年內,在紐約,破產後學生貸款債務可以被清償嗎?」
我們的系統首先就會明白你想知道你要的是紐約過去 5 年的法律。然後,它會將搜索範圍限制到相關法院。接着我們的深度自然語言處理技術會對問題進行分解、搞清楚詞與詞之間的關係、擴展詞的含義,並應用我們的語言模型等等。
所有的這些均發生在幾秒之內,之後用户會得到 10 個可以回答所輸入問題的相關文章段落。用户可以點擊展開查看相關段落在原始案例文本中的前後文。此外,我們還會顯示相關的預測結果,高亮標出我們認為用户可能會需要的看的一些部分。
這個過程就類似於你讓一個助手幫你找一個問題的答案,他花費幾個小時給你帶回來一堆他認為很重要的文檔,並且標出重點。一般來説,只有律所的高級合夥人才有可能僱得起這樣的助手。而有了 ROSS,這一切就變得輕鬆多了,即使是律所中最年輕的律師,也不再需要花費好幾個小時,幾秒鐘即可完成這項工作,ROSS 給他們帶來了更多的發揮空間。
我們這一代人隨着互聯網長大,我自己從 Google 學會的編程,從 Youtube 學會的神經網絡技術,我們這一代人比上一代人要擁有更多的信息。對過去的律師而言,如果碰上一點不了解的法律問題可能需要花費 9 到 16 個小時去圖書館鑽研。但有了 ROSS,只需要幾分鐘就能成為該法律問題上的專家。配備了人工智能工具的律師將會成為前所未有的最聰明的律師,這也將是我們這一代法律工作者的工作方式。
機器之心:你剛才提到的是搜索紐約州的案例。但如果我想要了解其他州的呢?美國州與州之間的法律不同。該系統能分辨之間的不同嗎?這會是一項挑戰嗎?
Jimoh Ovbiagele:嗯,我們已經做這件事了。你可以明確你想要獲得答案的管轄權是哪裏。你可以通過明確地區、時間範圍來限定搜索範圍。如果你在紐約,你肯定不想要愛達荷州的信息,你肯定也不想要 1914 年的法律,我們明白相關性的重要性,最近期的決策才更有意義。
機器之心:現在公司的團隊大概是一個什麼情況?你們在擴大銷售/諮詢團隊和項目開發團隊?
Jimoh Ovbiagele:銷售團隊和開發團隊現在人數差不多。我們團隊總人數還是保密一下,因為我們想保持神祕感(笑)。一開始我們開發的人比較多,現在我們已經有了受到律師們認可的實用的產品,所以我們開始建立自己的銷售團隊擴張市場。此外,我們最初以美國破產法律為起點,但現在我們有了堅實的底層技術,接下來幾個月我們也會發布對知識產權、勞工法、保險法等的支持。
機器之心:你提到 ROSS 要成為一個全球化公司,ROSS 現有的模型能夠直接從英語遷移到漢語嗎?
Jimoh Ovbiagele:那肯定不能直接就用到中文,我認為這是一個介於中等難度和高等難度之間的問題。現有的英漢互譯技術還不是很完美。當我們正式進入中國市場時,肯定首先會建好中文模型。我們與大成律師事務所達成合作時我們是很激動的,在中國它是最大的法律公司,我們與它的合作勢必也會涉及在各個不同國家的服務。我非常期盼我們很快就能這麼做。中國不僅是個巨大的市場,也有很多非常棒的技術人員,在大學時我就認識很多非常棒的來自中國的計算機科學家與人工智能人才。
機器之心:讓我們進一步討論下國際市場,你認為擴展國際市場的最大困難時是什麼?
Jimoh Ovbiagele:我們的技術能夠延展,這一點我們很自信,但我們也需要延展我們的銷售和市場。我們的擴展不只是適應當地的文化,因為我們知道之前的一些公司所犯的錯誤。當你觀察 Uber 和亞馬遜進入中國或日本市場時,他們認為只要翻譯文本、躍過文化障礙就行。但其實這是一些很細節的問題,比如印刷格式。的確,一些中文印刷格式看起來很有趣、友好,但對美國人來説看起來卻很愚蠢。這中間有一堆這樣瑣屑小事情很容易被忽略。而且就像你與客户交流的時候也需要遵循文化規則。因此如果我們要進入國際市場,不想只是複製我們的工作框架,我們更傾向於在中國「重新建立」ROSS。
機器之心:關於人工智能對法律行業帶來的影響,你怎麼看?
Jimoh Ovbiagele:我想很多人可能會認為人工智能增加了律師的效率之後我們就會需要更少的律師。但其實像我之前提到的那樣,法律還有未開發的市場,80% 的美國人的市場。由於沒有可以降低成本的科技,律師無法向這些市場提供有效的法律服務。
有了人工智能之後,大型法律公司就能擴展業務到這些市場。過去,畢業不久的年輕律師必須花很多年時間進入公司獲取經驗、經受訓練、建立自己的社交網絡等,而有了人工智能的幫助,他們也可以建立自己的業務。這很像 AWS 對開發者的幫助,不再需要大量人手管理服務器了。
我們在法律產業做的事情是讓整個行業觸碰之前沒能開發的市場,這對整個產業是有利的。即使這 80% 的人不富有,但也代表了價值數十億的法律需求。法律服務更加分散和平易近人對社會而言也是有好處的。
此外,人和機器之間的差距是很大的,你永遠需要人來理解人類並處理人和人類之間的關係。我們的願景是讓律師和機器一起和諧工作。
機器之心:這種變化是否會影響到法律院校教授學生的方式?
Jimoh Ovbiagele:我認為是的。有一些法學院已經決定在課程中教授學生們如何使用 ROSS。現在還不好透露太多,我們之後會對外公開相關信息。
機器之心:機器學習可以學習預測法官的判決,比如他的偏好(案例類型)。如果使用人工智能發現法官的偏好,是否會對法律公正產生不良影響?
imoh Ovbiagele:這是一個很棒的問題,現實中一些律師其實會搜索法官的偏好,以便於找到更好的方式將客户的案例呈現給法官。不管有沒有機器學習,我不認為這本身是一個問題。它是一種有效的交流方式。高效的交流者會在交流時搞清楚與我交流的人注重什麼、有什麼交流模式、我如何向他解釋自己。
每個人多少都有偏見,這和你的成長過程有關,很難避免。有了人工智能,我們就能夠通過了解法官過去的決策,從而幫助法官發現自己所存在的偏見,這樣就可以防止偏見帶來的問題。
資料來源:36Kr