Apple Photos智能識圖的本質是什麼，以及它為什麼比Google Photos晚來了整整一年？

雷鋒網按：本文作者系圖普科技工程師，雷鋒網原創首發。

http://static.leiphone.com/uploads/new/article/740_740/201606/57639bf388993.jpg?imageMogr2/format/jpg/quality/80

圖片來源：static.leiphone.com

| iOS 10的Photos用AI做什麼？

在剛剛結束的舊金山蘋果全球開發者大會上，蘋果軟件工程高級副總裁 Craig Federighi 講述了新的照片管理功能 Photos。

http://static.leiphone.com/uploads/new/article/740_740/201606/5763cccb80653.jpg?imageMogr2/format/jpg/quality/80

圖片來源：static.leiphone.com

在iOS 10的照片中，蘋果利用深度學習和計算機視覺技術徹底更新了照片應用程序，通過人臉識別和物體識別自動識別圖片內容，給相冊中的人物分類。並且，新增的“回憶”功能，可以基於照片中的位置、人、場景和主題聚集在一起，然後選擇音樂配以創建“短期、中期、長期”的視頻或者電影。
例如，它會識別與旅行相關的所有照片，將它們集中置於一個相冊，也許命名為“家庭度假”；或者説它會識別散落在相冊各處的母親的照片，並將它們分組集中起來。

| Apple Photos與Google Photos、Microsoft Photos有哪些差異？

簡單來説，對圖像的深度學習算法是通過多層的神經網絡，不斷地提取圖像的高層次抽象具有強表達能力的語意層次的特徵，即去偽存真的過程，有了很好的特徵，就可以很好地對圖像進行各種處理。

http://static.leiphone.com/uploads/new/article/740_740/201606/5763c73cb26d0.jpg?imageMogr2/format/jpg/quality/80

圖片來源：static.leiphone.com

機器視覺領域以前提取特徵的方式多為人工設定，而現在深度學習的方式是通過大規模的數據讓算法自己去學，人的設定總是有侷限的，而現在的深度學習可以在大規模數據的幫助下學習出人無法設計出的特徵，這也是深度學習的魔力來源。當然現在一個基於深度學習的產品系統是非常複雜的，其還會結合時序信息，上下文的建模來達到驚人的能力。
無論是Apple，Google，Microsoft Photos裏面使具體技術細節我們無從探知，畢竟這是這些公司關於人工智能的機密技術，但是我們還是可以從其提供的功能表象，再結合正在機器視覺領域掀起革命的深度學習技術，對其背後的技術原理進行一番推測。

http://static.leiphone.com/uploads/new/article/740_740/201606/5763c7bf3b084.jpg?imageMogr2/format/jpg/quality/80

圖片來源：static.leiphone.com

無論是按人臉、地理位置、記憶分組，其背後本質上都是 image classification，clustering，sorting， tagging等機器視覺任務。現在流行的深度學習技術（無論是深度卷機網絡CNN還是LSTM長短時記憶網絡）近兩年來在此類任務上取得了驚人的成績，諸如Apple，Google等IT巨頭公司必然大量儲備了此類技術，同時加上去獨一無二的海量數據和用户運用場景，使得這些公司可以運用這些深度學習技術將看起來很酷炫的機器視覺任務推向大眾。
Google於2015年率先推出了基於人工智能的Photos產品，其可以將用户圖片聚合於people，places和things這三個類別中，Apple在剛剛結束的WWDC上推出的Photos也緊隨其後，推出了類似的功能，如人臉識別，和按官方稱的按memories進行分組（裏面也包含預測location功能，同時能在map上顯示出來），具體不同的業務場景取決於各個公司對其客户使用方式的把控，但是從業務邏輯和功能背後的技術上看並沒有顯出太大差異。

http://static.leiphone.com/uploads/new/article/740_740/201606/5763d23f52799.png?imageMogr2/format/jpg/quality/80

圖片來源：static.leiphone.com

由於Google是一家互聯網導向公司，在雲計算上有非常強的實力，所以Google photos是使用雲的方式對客户圖片進行存儲和各種人工智能的處理，這樣的方式使得Google可以使用其雲端強大的計算能力去進行很複雜的運算處理，從而達到非常智能的效果，但是客户需要將其照片同步至雲端，這會帶來一些隱私的問題。

http://static.leiphone.com/uploads/new/article/740_740/201606/5763d2cc6b774.jpg?imageMogr2/format/jpg/quality/80

圖片來源：static.leiphone.com

而Apple作為硬件為主體的公司，將人工智能的功能運行在其公司的移動設備是其達到最大效應的方式也是最自然選擇，所以Apple的photos的智能處理運行於本地，這就使得用户不需要連上雲就可以享受到這些功能，這極大打消了用户的隱私方面的擔憂，這確實是Apple一個很大的賣點。

另外，Apple在本地，尤其移動設備上，運行人工智能算法是具有很大意義的。如何在有限的計算資源上達到高性能和低功耗，是其着重考量的點，當前深度學習在模型能力探索到一定階段後（變深變強），學術界和工業界的注意力慢慢也轉向模型大規模使用的層次，即變小變快——

引用蘋果的人工智能在本地運行的背後應該很大依賴於現在學術界正在重點關注的研究領域，模型壓縮 (model compression)，也就是在稍微損失準確率的情況下，讓所需計算量大幅度降低，使得深度學習的模型可以運行在計算能力受限的設備上。

http://static.leiphone.com/uploads/new/article/740_740/201606/5763cd245552a.jpg?imageMogr2/format/jpg/quality/80

圖片來源：static.leiphone.com

這方面是一個巨大的挑戰，至於Apple是否有獨有領先學界業界的黑科技使得photos做到低功耗高性能的運用，這就不得而知，所以Apple的photos本地運行深度學習算法更加令人期待。

同時我們也不能忘記IT另一個在深度學習，機器視覺技術上有深厚積累的微軟，微軟也有類photos產品，但是可能由於其並沒有太強的用户場景，其photos並沒有作為一個獨立的產品推出，所以沒有引起太大關注，考慮到微軟在此方面非常好的技術，對此感到有點遺憾。

| 圖像識別技術在移動端應用，究竟難在哪裏？
目前，圖像識別技術是基於深度學習算法多維度解讀圖像內容，需要強大的計算能力來支撐機器的程序運行。即使是比較簡單的深度學習圖片識別，比如在2012年的ImageNet大賽上的也需要上億次的運算，而在四年後的今天，深度學習算法對一張圖片進行解讀都需要進行幾十億的運算，甚至上百億，但是這些都是在雲端進行的運算，並且有專用的硬件系統，所以能夠在較短的時間內進行高速大量的運算。

根據我們的自己的經驗，tuputech的圖像識別系統，每天進行超過9億張的圖片識別，並且還需要較高的識別精確度，這對於模型的優化、計算能力、帶寬的傳輸效率等要求都是非常高的。

但是手機端的本地計算不同於雲端計算，如果在手機端進行如此高速、大量的運算，在算法層面技術難點主要還是在於這三個方面：

引用第一、模型的複雜程度，也就是模型的聰明程度、準確率、精確度等；

第二、計算時間，指計算一張圖片需要花多長時間；

第三、功耗，指的是計算一張圖片需要消耗的手機電池的電量

並且手機電池的續航能力一直是各個廠商想要攻破的難題，所以如果缺乏適配於手機端的計算能力，直接在手機上跑幾十億次的運算，可能只理解幾張圖片，手機電池就會被耗光。

另外，對於硬件能力的提升也是一大重點，怎麼設計出更好的硬件去支持現在的深度學習算法，從而降低功耗、加快速度，我想Apple作為有硬件閉環的公司，在硬件上應該做了很大的定製化和創新, 使得基於人工智能的photos產品可運用在手機端，這也是Apple相對於其他互聯網巨頭得天獨厚的優勢，不要忘記Apple是硬件導向的巨頭。

目前的人工智能基本都是在可控性較好的雲端，而移動設備的計算能力和能耗都還不夠好，所以可能計算結果沒那麼精準、計算速度沒那麼快，但若移動設備裝配上人工智能的能力，無論是商業市場上還是真正改變人類的生活上，想象力是巨大的。所以Apple、Google和Microsof還是會選擇將圖像識別技術應用在手機端上，他們本身就是手機服務商，有這樣的市場需求，他們自然會開始重視深度學習在端上的應用，相對於其他的手機應用，這是他們將深度學習系統全部應用在端的一個集合。比如説蘋果的硬件包括手機、iPad、watch、Mac等，其所有的深度學習應用的程序和接口都是一樣的，擁有統一的神經網絡庫。
畢竟移動端的應用更加貼近人類的生活。只要有市場需求，就有發展，正如我們現在的手機能力比當年登月的芯片的計算能力高了不知道多少倍，那些芯片幫助人登上了月球，而我們現在卻用更好的芯片刷微博。其實也是在説，技術發展得確實非常快，可能現在覺得不大可能的事情，一兩年後可能人人都會在談説論道。

http://static.leiphone.com/uploads/new/article/740_740/201606/5763d2b6842d2.jpg?imageMogr2/format/jpg/quality/80

圖片來源：static.leiphone.com

|iOS 10的Photos推出，還有更大的意義

但是這項自動將相冊分類功能看上去好像只是錦上添花的工作，如果這個功耗太大，而且準確率還不夠高，就會得不償失，用户就不希望這個功能消耗更多的電量，甚至於很多客户寧願不要，因為他們肯定知道會消耗電量。
但是我們tuputech的技術控們還提了個問題，其實大家還會擔憂“隱私”的問題，因為一個太智能的東西在幫你打點東西，大多數人會有隱私被侵犯的感覺，所以智能更適合做一些不太敏感的分類。不然相冊裏有一些黃圖，系統告訴你是黃圖並且自動幫你歸類，你會沒有安全感，同時會產生恐懼，最後對整個產品喪失信任，而且現在公眾確實還不大適應人工智能，還需要接受的時間。

但是人工智能、圖像識別在手機端的應用也是很廣泛的，在進入移動互聯網時代後，智能廣告、推薦已經從輔助路徑轉變到了主路徑上，比如説手機淘寶，其首頁的商品推薦已經個性化，很大程度上提升了首頁的分發能力；而今日頭條新聞客户端，其主打特色也將智能推薦的資訊內容放入了產品主路徑等。這些智能推薦引擎用大量的細分內容協助廣告主細分了不同的用户，更精準得進行廣告投放。

除此之外，現在也是一個移動視頻應用爆炸增長的時代，一個較大的直播平台的用户量在高峰期可以同時幾千萬、甚至上億人在線，但是目前直播獲益方式還是以與網紅分成為主。

如果通過圖像識別對主播進行分類，可以得出直播平台的內容是否健康，或者給主播打上標籤，平台是否需要培養和扶持一些比較稀缺、受歡迎的主播。或者根據直播的視頻內發出的所有圖像信息，包括人物、地點、活動、事物、背景等，在以人工智能技術作為基本支撐下，可以幫助用户智能搜索所需信息，像KTV 、餐廳、教室等，機器人可以根據用户偏好，智能推送相應直播視頻，幫助直播企業更好地進行用户互動運營。這些都是可以提高產品和用户體驗，或者企業想將這些信息流量變現，均可按企業需求定製。
雷鋒網(搜索“雷鋒網”公眾號關注)注：本文為雷鋒網原創約稿首發文章，轉載請聯繫我們授權並註明出處和作者，不得修改內容。

資料來源：雷鋒網
作者/編輯：tuputech

Apple Photos智能識圖的本質是什麼，以及它為什麼比Google Photos晚來了整整一年？

如果喜歡我們的文章，請即分享到︰