雅虎的人工智能有獨門武器!
又有一家科技巨頭向全世界公開了他們的 know-how 人工智能。今天,Yahoo 發佈了 CaffeOnSpark 人工智能的源代碼,每個學術研究人員或是大公司都可以使用或是加以修改。
Yahoo 在科技方面的實力大概鮮有人知。事實上開源 Hadoop 就是 Yahoo 孵化的;Facebook、Twitter 以及其他不少公司都在用這個數據處理平台。因此在人工智能方面,Yahoo 公司有着獨到的長處,因為在培訓人工智能系統的時候,數據就和算法一樣重要。而且 Yahoo 手握着全球最有趣最大的資料庫之一:相片社羣網站 Flickr。
就如諸多新的開源人工智能項目一樣,CafffeOnSpark 的根基是深度學習。深度學習是人工智能的一個分支,以其人類語音、照片和視頻等的識別能力見長。Yahoo 就是用這項技術來識別照片中的不同內容,以此改良 Flickr 網站的搜索結果。與其他網站不同,Flickr 的圖片搜索並不是靠圖片描述或是用户輸入的關鍵詞。Yahoo 會教電腦如何識別照片的某種特徵,例如特定的顏色,甚至是物體或動物。
在最近幾個月裏,Google 開放了深度學習網絡 TensorFlow 的源代碼,Microsoft 開放了類似的網絡 CNTK,Facebook 分享了人工智能硬件設計,中國搜索引擎巨頭百度也公開了深度學習訓練軟件。
這些開源技術項目都各自有所側重,偏向不同。例如 Yahoo 的目的是要在現存的系統上運行深度學習,避免把數據從一個地方傳輸到另一個地方。Yahoo 的構架副總裁 Andy Fent 向我們解釋,訓練深度學習系統識別圖片需要巨量的數據信息。你得往算法裏放大量的例子,越多越好,比如如果是一隻貓的話,系統要足夠的圖才會「學會」辨認貓之間的共同特徵,分辨貓和其他動物。
Flickr 網站上有成千上萬張圖片,足夠拿來訓練人工智能了。但是開發團隊不想把這些圖片從 Flickr 服務器傳送到另一層運行深度學習軟件的服務器裏。於是他們發明了在已有的構架上運行深度學習軟件的方法。
從名字上看,CaffeOnSpark 結合了兩種現有的科技:深度學習框架 Caffe 和大規模數據處理系統 Spark。Yahoo 所做的就是想辦法在 Spark 層次上運行 Caffe。找到方法後,Caffe 不僅可以在 Spark 上運行,還可以兩者一起在 Hadoop 上運行。Yahoo 的開發不僅會讓人工智能開發者用更簡單熟悉的工具、省去傳送數據的麻煩過程,還能讓深度學習更方便地同時處理數個服務器的內容。Feng 還特意告訴我們,這一點 Google 的 TensorFlow 目前還做不到,Yahoo 領先了一步。
Feng 説到,去年團隊在博客上發表了有關 CaffeOnSpark 的帖子後,不少公司都希望 Yahoo 開放 CaffeOnSpark 的源代碼。於是他們發現,不少公司其實服務器上都已經具備了不少信息,但是他們不想傳送。
原文來源:Wired , 本文由 Tech2ipo / 創見 Locin 編譯,首發於 TECH2IPO / 創見
資料來源:TECH2IPO