雅虎的人工智能有獨門武器！

http://dn-noman.qbox.me/Fh71_J3h1I14t5hSoN1V2t3pjFTv

圖片來源：dn-noman.qbox.me

又有一家科技巨頭向全世界公開了他們的 know-how 人工智能。今天，Yahoo 發佈了 CaffeOnSpark 人工智能的源代碼，每個學術研究人員或是大公司都可以使用或是加以修改。
Yahoo 在科技方面的實力大概鮮有人知。事實上開源 Hadoop 就是 Yahoo 孵化的；Facebook、Twitter 以及其他不少公司都在用這個數據處理平台。因此在人工智能方面，Yahoo 公司有着獨到的長處，因為在培訓人工智能系統的時候，數據就和算法一樣重要。而且 Yahoo 手握着全球最有趣最大的資料庫之一：相片社羣網站 Flickr。

就如諸多新的開源人工智能項目一樣，CafffeOnSpark 的根基是深度學習。深度學習是人工智能的一個分支，以其人類語音、照片和視頻等的識別能力見長。Yahoo 就是用這項技術來識別照片中的不同內容，以此改良 Flickr 網站的搜索結果。與其他網站不同，Flickr 的圖片搜索並不是靠圖片描述或是用户輸入的關鍵詞。Yahoo 會教電腦如何識別照片的某種特徵，例如特定的顏色，甚至是物體或動物。

在最近幾個月裏，Google 開放了深度學習網絡 TensorFlow 的源代碼，Microsoft 開放了類似的網絡 CNTK，Facebook 分享了人工智能硬件設計，中國搜索引擎巨頭百度也公開了深度學習訓練軟件。
這些開源技術項目都各自有所側重，偏向不同。例如 Yahoo 的目的是要在現存的系統上運行深度學習，避免把數據從一個地方傳輸到另一個地方。Yahoo 的構架副總裁 Andy Fent 向我們解釋，訓練深度學習系統識別圖片需要巨量的數據信息。你得往算法裏放大量的例子，越多越好，比如如果是一隻貓的話，系統要足夠的圖才會「學會」辨認貓之間的共同特徵，分辨貓和其他動物。

Flickr 網站上有成千上萬張圖片，足夠拿來訓練人工智能了。但是開發團隊不想把這些圖片從 Flickr 服務器傳送到另一層運行深度學習軟件的服務器裏。於是他們發明了在已有的構架上運行深度學習軟件的方法。

從名字上看，CaffeOnSpark 結合了兩種現有的科技：深度學習框架 Caffe 和大規模數據處理系統 Spark。Yahoo 所做的就是想辦法在 Spark 層次上運行 Caffe。找到方法後，Caffe 不僅可以在 Spark 上運行，還可以兩者一起在 Hadoop 上運行。Yahoo 的開發不僅會讓人工智能開發者用更簡單熟悉的工具、省去傳送數據的麻煩過程，還能讓深度學習更方便地同時處理數個服務器的內容。Feng 還特意告訴我們，這一點 Google 的 TensorFlow 目前還做不到，Yahoo 領先了一步。

Feng 説到，去年團隊在博客上發表了有關 CaffeOnSpark 的帖子後，不少公司都希望 Yahoo 開放 CaffeOnSpark 的源代碼。於是他們發現，不少公司其實服務器上都已經具備了不少信息，但是他們不想傳送。

原文來源：Wired , 本文由 Tech2ipo / 創見 Locin 編譯，首發於 TECH2IPO / 創見

資料來源：TECH2IPO

標籤: CaffeOnSpark Yahoo

雅虎的人工智能有獨門武器！

如果喜歡我們的文章，請即分享到︰