揭祕:美國天網文檔泄露,機器學習算法或錯誤殺害數千人

按:本文來自arstechnica,作者Christian Grothoff J.M. Porup,由新智元原創翻譯。


[導讀]從2004年至今,美軍無人機的轟炸已經在巴基斯坦的某個地區殺死了2500~4000人,其中絕大多數死者都被美國政府歸類為“極端分子”。轟炸對象的選擇背後,很可能是美國天網計劃,採用機器學習算法對5500完民眾進行打分。但本文作者Christian Grothoff 和 J.M. Porup 認為,這種算法會帶來很大的誤報率,而0.18%的誤報率意味着99000名無辜民眾被錯誤地標記為“恐怖分子”。在這些死亡的人數中,又有多少是無辜的民眾?

作者Christian Grothoff在法國國家信息與自動化研究所(Inria)領導一支研究團隊。他從UCLA獲得了計算機科學博士學位。他也以自由記者的身份進行科技和國家安全方面的報道。

J. M. Porup是一位網絡安全方面的自由記者,居住在加拿大多倫多。當他死後,他的墓誌銘將會寫上“承擔違約責任”幾個字。他在Twitter上的賬號是@toholdaquill。

全文如下:



引用專家表示,這種“樂觀到可笑”的機器學習算法是“徹頭徹尾的胡説八道”。


一架MQ-9收割者偵察機停在停機坪上。

在2014年,同時負責領導美國中情局(CIA)和國安局(NSA)的主管人宣佈,“我們根據元數據來殺人(we kill people based on metadata)”。現在,重新翻看先前披露的斯諾登檔案——被殺害的人中有許多可能都是無辜的。
去年,Intercept披露了一些詳細描述NSA“天網”計劃的文件。從這些文件中可以得知,“天網”涉及到通過巴基斯坦的移動通信網絡對民眾實行監控,隨後使用機器學習算法,基於5500萬民眾的蜂窩網絡元數據,嘗試着為其中每一個人是否是一名恐怖分子的可能性打分。

先前在戰犯法庭開庭前給出過專家證詞的Patrick Ball——他是一位數據科學家,也是人權數據分析組織的研究主管——用“樂觀得可笑”和“徹頭徹尾的胡説八道”來形容NSA的這個方法。Ball告訴我們,NSA在訓練“天網”用於分析蜂窩元數據的機器學習算法上的一個瑕疵,讓它的結果在科學上是不可靠的。

據新聞調查局(Bureau of Investigative Journalism)所言,從2004年至今,美軍無人機的轟炸已經在巴基斯坦的某個地區殺死了2500~4000人,其中絕大多數死者都被美國政府歸類為“極端分子”。鑑於有一份“天網”PPT的歸檔時間寫着“20070108”,這種機器學習程序可能早在2007年就已經開始了研發。

隨後數年,巴基斯坦可能有數以千計的無辜民眾都被這個“在科學上不可靠”的算法錯誤地標記為恐怖分子,讓他們不幸身亡。

|大數據的塞壬之歌

“天網”的工作方式就像一個現代典型的大數據業務應用。這個程序收集來元數據、將它們儲存在NSA的雲服務器上,提取相關信息,然後應用機器學習的方法來辨別執行既定行動的線索。除了不像商業應用那樣試圖向目標人羣兜售某樣東西之外,這種活動——考慮到美國政府在巴基斯坦的整體業務重心——可能也涉及到美國政府的另一個機構,CIA或者軍方,通過掠食者無人機和地面暗殺小隊(death squads)來執行他們的“尋覓——修正——收工(Find-Fix-Finish)”策略。


從GSM的元數據中,我們可以測量每個被選中的人的生活模式、社交網絡、以及出行習慣等方面。

除了要處理記錄下的蜂窩手機通話數據(所謂的“DNR”,也就是被叫號碼識別數據,包括通話時間、通話長度、誰呼叫誰等數據),“天網”也收集用户的位置信息,建立詳細的出行檔案。關閉手機則被當做是試圖逃避監控的跡象而受到“天網”的標記。天真地相信更換SIM卡就能防止被追蹤、並且這麼做了的人,也會受到“天網”的標記(燒入手機的ESN、MEID或是IMEI會讓手機即使換了SIM卡也會被追蹤痕跡)。


對海量的元數據進行出行模式、基於行為的分析、以及其他“補充內容”的分析,以此判斷“恐怖分子程度(terroristiness)”。

幻燈片稱,即使是更換手機也會被探測到並受到標記。這種探測,我們只能猜測(因為幻燈片上沒有對這一點進行詳細介紹),可能是基於其他元數據(比如現實世界中的用户位置、社交網絡等)不變的基礎上的。

有了完整的元數據集,“天網”就能拼湊出一個人典型的日常軌跡——和誰一起出行、有哪些共同聯繫人、和朋友們一起通宵、去其他國家旅行或是永久地搬離了。總體而言,這些幻燈片顯示,NSA的機器學習算法使用超過80種不同的屬性來為人們的“恐怖分子程度”打分。

幻燈片告訴我們,這個程序的假設是,恐怖分子與普通居民在其中一些屬性的行為上有顯著的區別。然而,在Intercept去年的披露中可以清楚地看到,被這個機器學習程序打出最高分的是Ahmad Zaidan,半島電視台在伊斯蘭堡的分社社長。

得到最高評分的人是PROB AHMED ZAIDAN,他去過Peshawar和Lahore。他長期擔任半島電視台在伊斯蘭堡的分社社長。


據Intercept報道,Zaidan為了採訪叛軍、報道新聞,經常前往有恐怖活動的地區。不過,這種機器學習算法背後的NSA工程師們不但沒有質疑產生這種可笑結果的機器學習方法,反而在他們內部的報告會中鼓吹Zaidan的例子證明了“天網”的勝利,其中一張幻燈片上將Zaidan標為“基地組織成員”。

|給機器輸入數據

訓練機器學習算法,就像是在訓練一個貝葉斯垃圾郵件過濾器:你將已知的垃圾郵件和已知的非垃圾郵件輸入給它。從這些“確定事實(ground truths)”中,算法學習怎樣正確地過濾垃圾郵件。

同樣地,“天網”程序的一塊關鍵部分是將“已知的恐怖分子”數據輸入給機器學習算法,以此來教會算法探測相似的人羣。

問題是,能輸入給算法用來學習的“已知的恐怖分子”數量較少,而就算NSA就這個問題發佈一份調查收集數據,真正的恐怖分子們也不可能回答。NSA內部文檔顯示,“天網”使用“已知的聯絡員”數據作為確定事實,默認假定其他人都是無辜的。

巴基斯坦有大約1.92億人口,到2012年底時——也是工作人員作“天網”報告的時候——蜂窩手機持有量在1.2億左右。NSA分析了5500萬移動手機的數據。鑑於有5500萬人的數據和80個要考慮的變量,人工處理數據、探索其中的意義顯而易見是不可能的。所以,就像其它任何一個大數據應用一樣,NSA用機器學習來幫助——或者也許是替代,幻燈片上沒有説到——人類,進行推理和判斷。

“天網”的分類算法分析了元數據和確定事實數據,然後基於元數據為其中的每一個人都生成了一個分數。這個做法的目標是,為恐怖分子生成較高的分數,為剩下的無辜人羣生成較低的分數。


“天網”生成的出行報告樣例。

為了做到這一點,“天網”算法使用的是隨機森林算法,這種算法被經常用在這類大數據應用上。事實上,據上週新披露的斯諾登文檔的説法,英國的政府通信總部(GCHQ)似乎也用到了相似的機器學習方法。“這看上去像是,當説到讓機器學習算法做出選擇的技術時,就是隨機決策森林,”倫敦大學學院(UCL)安全與隱私工程副教授George Danezis在一篇博客中對披露的文檔這樣分析道。

隨機森林法在訓練集數據中隨機選擇子集來創造決策“樹”的“森林”,隨後通過對這些樹的預測做平均來將結果綜合到一起。“天網”的算法從每個手機用户身上都提取80個屬性,然後為他們生成一個分數——就像一個垃圾郵件過濾器。

做完這些以後,“天網”要選擇一個閾值——超過這個值的手機用户會被分類為“恐怖分子”。幻燈片中展示了當閾值被設定為50%漏報率(false negative)時的評估結果。這個時候,原本將會被分類為“恐怖分子”的人中有一半就被分到了無辜民眾的類別,以此讓誤報率——無辜民眾被錯誤地歸類成“恐怖分子”——儘可能的低。

|誤報

當然,我們不能肯定的是,在這次展示中使用的50%漏報率,是否就是在生成最終的獵殺名單時使用的閾值。不管怎麼樣,如何處理無辜的誤報情況仍然是一個問題。

“他們這樣做的原因,”Ball解釋説,“是因為漏報越少,誤報就肯定越多。這是不對等的:有那麼多的正確拒斥(true negative),如果降低閥值以減少漏報1個人,這就將增加數以千計人的誤報。所以有這樣的決策。”


統計算法能夠在誤報率很低的情況下找出聯絡員(courier),如果能允許我們錯失其中的半數人。

一張NSA的幻燈片自誇道,“統計算法能夠在誤報率很低的情況下找出聯絡員(courier),如果能允許我們錯失其中的半數人。”

但是,NSA所謂的“很低”,到底是多低?

|“徹頭徹尾的胡説八道”

Ball告訴我們,問題在於,NSA是如何通過確定事實來訓練算法的。

NSA將已知的7個恐怖分子的數據放入隨機選擇的10萬人的數據子集(通過他們手機上的MSIDN/MSI來辨別)中,以此來評估“天網”程序。他們向學習算法中輸入其中6個恐怖分子的數據進行訓練,然後讓天網程序找出第7個恐怖分子。上面那張幻燈片展示了誤報的概率。

“首先,能用來訓練和測試模型的‘已知的恐怖分子’數量非常少,”Ball説道,“如果他們測試模型時使用的記錄與訓練模型時使用的一樣,那麼他們對擬合性的評估就是徹頭徹尾的胡説八道。通常的做法是,一開始就從數據集中分離出一部分數據、不參與訓練過程,這樣的話測試時用到的記錄就是這個模型從未見過的了。如果沒有這一步,他們對分類效果的評估就樂觀到可笑了。”

這麼説是因為,10萬名居民是隨機選擇出來的,而7名恐怖分子則來自於一個已知的小羣體。隨機選擇出不到總體的0.1%的迷你數據子集,那麼居民們的社交圖譜密度就會大幅降低,但是“恐怖分子”羣體內部的關聯度仍然很高。科學上可靠的統計分析會要求NSA在隨機選擇子集之前就將恐怖分子混入普通居民的數據集中——但是由於恐怖分子的數量過少,這沒有實際操作意義。

這可能聽起來僅僅是一個學術問題,但是,Ball説道,這實際上高度傷害了結果的質量,並最終傷害了將從人羣中預測出恐怖分子並將之暗殺的準確程度。在這種情況下,進行質量評估是尤為重要的,因為我們知道隨機森林法會過擬合它的訓練集,產生過度樂觀的結果。因此NSA的分析並不能很好地展現出這個方法質量如何。


在5500萬人中,0.18%的誤報率意味着99000名無辜民眾被錯誤地標記為“恐怖分子”。

如果能夠允許漏報的人(真正的“恐怖分子”)存活下來一半,那麼NSA 0.18%的誤報率依然意味着成千上萬的無辜者被錯誤地分類為“恐怖分子”,並可能為他們帶來死亡的命運。即便是NSA最樂觀的結果——0.008%的誤報概率——也仍然意味着許多無辜民眾的死亡。

“誤報率的那張幻燈片上,注意最後一行,寫着‘+固定的選擇器(Anchory Selectors)’,”Danezis對我們説,“這是關鍵,而具體的數字卻沒有報道……如果你對5500萬人口應用0.18%的誤報率,你實際上可能會殺害成千上萬的無辜民眾(5500萬的0.18%是99000)。然而,如果你是在一個你已經預測是恐怖主義盛行的羣體上應用這個誤報率——因為,比如説他們位於一羣恐怖分子的兩跳鄰居關係(two-hop neighbourhood)之內——那麼你殺死的無辜民眾會少一些。

除於明確反對“殺死多少無辜者是可以被接受的”這個話題,這也假定了一個前提:有許多恐怖分子需要被識別出來。“我們知道,在一個羣體中,‘真正的恐怖分子’的比例是非常小的,”Ball指出,“正如Cory説的那樣,如果這個前提不是正確的,那麼我們都已經(被他們殺)死了。所以,很小的誤報率也會讓很多人被錯誤地認為是恐怖分子。”

“更重要的一點是,”Ball補充道,“這個模型完全忽略了‘真正的恐怖分子’中那些與用來訓練模型的‘真正的恐怖分子’在統計上表現極為不同的傢伙。”

|在大多數案例中,0.008%是個不錯的出錯率

0.008%的誤報率對於傳統的商業應用而言是非常非常低的。當出錯的結果是把廣告投放到錯誤的人身上、或是向某人錯誤地收取高昂的會員價時,這個誤報率是可以接受的。然而,即使是0.008%的巴基斯坦人口,也意味着有15000人可能會被誤判為恐怖分子併成為軍隊的打擊目標——更不用説無意中被捲入暗殺的路人,或者首先來到現場的先遣急救員(first responders)了。

安全專家Bruce Schneier表示同意。“大數據在政府層面的使用和企業層面的使用在本質上就不同,”他告訴我們,“對精確度的要求意味着同一種技術可能不再適用。如果Google的應用出了錯,人們會看到不想買的汽車的廣告。而如果政府的應用出了錯,他們就會殺害無辜者。”

日內瓦公約禁止殺害平民,美國是簽約國之一。然而,關於天網程序的許多方面仍然是未知的。例如,天網是一個閉環系統嗎,或者説,對於它根據元數據篩選出的恐怖分子用户,分析師是否會在暗殺實行前審查每一個用户的檔案?是否有在致力於抓捕這些“恐怖分子”嫌疑人、對他們開庭審判?鑑於生成獵殺名單的機器學習算法有明顯缺陷,美國政府如何要確保它不會殺害無辜的人?

“對於使用天網是否是一種戰爭罪行這件事,我尊重律師的看法,”Ball説道,“這是壞的科學,該死的這毫無疑問,因為分類在本質上就是概率性的。如果你要判處一個人死刑,通常我們有一個‘超出合理懷疑’的標準,這和你談論分數接近“可能的恐怖分子”的那些人,完全就不是一回事。而這假定了分類器處在篩選恐怖分子的流程的第一階段——我很懷疑這樣的設置,因為,很簡單,我們沒有足夠的“已知的恐怖分子”的例子,來讓隨機森林為它們生成一個不錯的模型。”

遭泄露的NSA幻燈片提供了強有力的證據,表明有數以千計的無辜民眾被貼上了恐怖分子的標籤。被貼上標籤以後會發生什麼,我們就不知道了。我們不了解全貌,NSA也不怎麼可能會幫我們填補這個空白。(我們曾經多次試圖從NSA那裏獲得關於這個問題的評論,但直到這篇文章刊發前它都沒有給出迴應)

算法正越來越多地統治着我們的生活。從運用“天網”的邏輯搜尋巴基斯坦的“恐怖分子”,到運用相似的方法在國內搜尋“毒販”、“抗議者”或者只是對政府持有異議的人士,只需要邁出小小的一步。“基於元數據”來殺人,正如Hayden説的那樣,當它發生在遙遠的土地上的時候是很容易被人忽略的。但當天網應用在我們身上的時候會發生什麼——如果它現在還沒有的話?


資料來源:雷鋒網
作者/編輯:新智元

如果喜歡我們的文章,請即分享到︰