蘋果如何在收集你們數據的同時,卻不侵犯你的隱私?


蘋果和所有的巨型企業一樣,想盡可能多地了解它的客户。但它同時也把自己標榜為矽谷的隱私冠軍,不像其廣告驅動的競爭對手,希望儘可能少地了解你。該公司目前公開吹噓其在數學上一個不起眼的分支,正在成功處理這種矛盾。

北京時間今天凌晨,在蘋果全球開發者主題演講中,軟件工程高級副總裁Craig Federighi,強調蘋果並不收集用户資料,iMessage和Facetime的加密都是點對點的,計算儘量在你的個人設備而不是蘋果的服務器上完成。但Federighi也承認,事實上,尤其是在大數據分析和機器學習的時代,收集用户信息對做出好的軟件至關重要。他給出的答案相當含糊:“微分隱私”(differential privacy)。

“我們認為你應該有強大的功能和十足的隱私,”Federighi告訴開發者人羣。 “微分隱私是在統計和數據分析方面的研究課題,它使用散列,二次抽樣和噪聲注入,使眾包學習成為可能,同時保持個人用户的數據完全私密。蘋果一直在這方面做着超級重要的工作,以使微分隱私能大規模運用。”

微分隱私,從蘋果的發言翻譯過來,就是儘可能多研究一羣人,同時儘可能少地研究任何個人的統計科學。有了微分隱私,蘋果可以收集、存儲其用户的數據,從而收集有用的概念,比如説,人們喜歡和想要的東西。但它不能提取關於某個人單一的、特定的東西,因為這可能代表了侵犯隱私。而且,在理論上,黑客或情報機構也不能。

“有了大型數據集包括個人的記錄,你可能想把數據庫作為一個整體,運行一個機器學習算法,獲得統計的見解,但要防止一些旁觀者或攻擊者,在數據集了解到一些特定的[個人]信息。”賓夕法尼亞大學的計算機科學教授Aaron Roth説,Federighi在主題演講中提到Roth寫了一本關於微分隱私的書。(該書為Algorithmic Foundations of Differential Privacy《微分隱私算法的基礎》由Roth與微軟研究員Cynthia Dwork所寫。)“微分隱私可以讓你從大型數據集獲得見解,但數學證明了,沒有人可以了解其中的個體。”

Roth指出,所謂的“數學證明”,微分隱私並不僅僅試圖混淆或“匿名”用户的數據。他認為,這種匿名的做法,往往會失敗。例如,在2007年,Netflix發佈了觀眾的電影分級數據的大集合,消除了人們的姓名和其他身份細節,只公佈了他們的Netflix評級,作為比賽的一部分,以優化其建議。但研究者很快將Netflix的數據與IMDB公眾審查數據交叉對比,找出類似的模式,並添加名稱回Netflix所謂的匿名數據庫。

對於那種去匿名招數也有對策,比如説,消除了Netflix的電影標題,只保持他們的流派。但是也不能保證其他一些聰明的技巧或交叉對比數據不能撤消混淆。 “如果你從數據中刪除人們的名字,也不會停止聰明的人交叉對比。”羅斯説。 “可是微分隱私可以阻止這樣的事情。”

“這是未來的防護”

Roth解釋,微分隱私旨在數學上證明,某種形式的數據分析不能揭示任何個體,不管是否具有任何給定的私人數據輸入,一個算法的輸出保持相同。羅斯説。 “因為微分隱私具有可證明的保證,打破了循環。所以它是未來的防護。”

Federighi一直強調微分隱私,可能意味着蘋果實際上,在給它的服務器發送更多的數據,以進行進行分析,就像Google、Facebook和所有其他科技公司一樣。但是Federighi暗示蘋果只通過變換、微分、私人的形式傳輸數據。事實上,Federighi將三個變換命名為:散列法,一個不可逆地將數據轉化成唯一、隨機的字符串的加密功能;二次採樣,或只採取數據的一部分;和噪聲注入,加入隨機數據,掩蓋了真正的、敏感的個人信息的。

當WIRED問及蘋果如何應用微分的更多信息時,蘋果代表的答覆只提到了iOS 10預覽指南,介紹瞭如何將技術用在最新版本的iOS上:

從iOS 10開始,蘋果採用微分隱私技術,以發現大量用户的使用模式,而不損害個人隱私。為了掩蓋一個人的身份,微分隱私把數學噪聲增加個人使用模式的小樣本中。隨着越來越多人用同樣的模式,便開始出現通用模式,它可以通知和提升用户體驗。在iOS 10,這一技術將有助於提高快速打字和emoji建議,聚焦深度鏈接的建議和在Notes中查找提示。

蘋果在採用微分隱私技術時,是否帶着必要的嚴謹性,充分保護客户的隱私,這是另外一個問題。

via wired


資料來源:雷鋒網
作者/編輯:潔穎

如果喜歡我們的文章,請即分享到︰