發明驗證碼的天才讓全世界心甘情願幫他幹活
二維碼的作用才不是為了用基於人的計算來證明你是個人類,以及煩你。
在你購買阿黛爾巡迴演出高價票的時候出現的那些奇怪扭曲的話就是驗證碼。你知道它們,我知道它們,大家都知道它們是什麼,但是沒有人喜歡這些東西。
它們出現有一陣子了,但直到不久之前,我才把這些為了組織互聯網上機器人和騙子而設立的犯人的東西淘汰掉。
但這帶來了意外的驚喜:很多時候,驗證碼是具有實際意義的文本,我花在打驗證碼上面的五秒鐘加上其他人們花在這上面的五秒鐘,不知不覺中會構成強大的計算能力。
這個故事發生有段時間了,但我相信大部分人還不知道它。
這是一個有關驗證碼如何產生,以及發明它的人為啥是個天才的故事。
問題
2000 年的時候,Luis von Ahn 還是卡內基梅隆大學的研究生。他和他的教授 Manuel Blum 一起進行一項只有人類可以通過,電腦不能通過的測試,用來防止黃牛用電腦程序自動購票然後以更高的價格轉手賣出去。
他們得到的解決方案是 CAPTCHA,也就是初級的驗證碼,被稱為「用來區分人類與電腦的全自動圖靈測試」。人們通過識別系統顯示的扭曲字母序列和複雜的縮寫來證明自己是人類。
問題解決了對嗎?可能吧。
雖然這種驗證碼對於識別詐騙機器人有效,但 von Ahn 有意識到了一個有關效率的新問題。在接受 The Walrus 採訪時,Luis 説他在無意中創造了一個會浪費人類最重要資源——由一個又一個十秒鐘累積而成的數萬小時的人類大腦循環。
具體來説,這種驗證碼每天都會讓大家看 2 億個單詞,每個單詞大約 10 秒鐘,也就是每天會浪費大約 50 萬小時的人力資源。
解決方法
故事是這樣的。在開車從華盛頓到匹茲堡的路上,von Ahn 想到了將那些被浪費掉的人力利用起來的方法,就是將雜亂無章的單詞轉換成有意願的詞語。用這種方法,那些被「浪費」掉的人類大腦運轉時間又一次被利用了。
他將兩種低效用腦的方法結合起來,產生了一個雙贏的方案。這是個天才的想法,他因此獲得了 2006 年的麥克阿瑟天才獎,獎金 50 萬美元。
在光學字符識別(OCR)中,有大約 20% 的掃描材料是不能被讀取印刷材料的計算機程序識別的。
von Anh 利用進階版驗證碼程序做的第一件事就是去幫助紐約時報的檔案館數字化,檔案館建立於 1851 年,有超過 1300 萬篇文章。現在,這些文章都已經被識別完可以從網上搜索到了。
以下是維基百科對於驗證碼工作原理的介紹:
引用 不能識別的字符將會被單獨找出來,和一些能夠識別的字符同時顯示。如果填寫驗證碼的人將能識別的字符回答正確,那麼他們對於不能被識別的字符也會被判定為正確,他們對於不能識別字符的判定結果就會被認為是有效的。OCR 程序自己識別出的字將會得到 0.5 分的分值,而每個人對於這個字的判斷都會得到 1 分。當一個字的分數超過 2.5 分,這個字就會被認為是有效的。那些被人們得出過一致結論的詞就又會被認為是「可識別的詞語」來判別其他詞語。如果前三個人類用户識別結果一致,但他們的結果與 OCR 得出的結果不一致,那麼人類的結論將被採納,這個詞會被認為是可識別詞。如果一個詞語被六個用户得出不同的結論,那麼它將會被認為是不可識別的而被棄置。
顯而易見,Luis 將兩個看似無關的事情放在了一起,讓很多人通過少量工作共同努力完成一件有意義的事情,並能達到 99.1% 的準確率。
Facebook、TicketMaster、Twitter、4chan、CNN.com、StumbleUpon, 以及 Craigslist 這些網站每天都會顯示超過一億次驗證碼,這些驗證碼正在幫助互聯網信息的數字化。
Google 也看到了驗證碼的價值,雄心勃勃地宣稱要講全世界每一本書都收錄在內的 Google Books 也在使用驗證碼來掃描書籍。目前他們已經掃描了超過 2500 萬本書,在全世界範圍內使用了 1 億 3000 萬條驗證碼。
注:你是否曾經遇到過看上去像是房子門牌號的驗證碼?Google 2012 年開始在驗證碼系統中投入街道截圖,用來識別地址、街道名稱和交通標誌。
啟示
儘管驗證碼在區分人和機器這件事上十分重要,它依然曾經因為沒有向幫助他們轉錄的人付勞動薪水而被批評,就像是亞馬遜的 Mechanical Turk 沒有向工人付薪水一樣。
事實上,驗證碼的詞語是雜亂無章的還是一個有意義的詞真的重要嗎?從用户的角度看,其實沒什麼區別。但我很願意幫助到別人,就像我們在 2002 年都回去下載 SETI 的屏幕保護來幫助他們尋找外星人一樣。(譯註:「SETI」是英文:Search for Extra-terrestrial Intelligence 的縮寫,意思是搜尋外星文明,SETI@home 是加州大學伯克利分校發起的意向利用全球互聯網共同搜尋地外文明的計劃,志願者可以通過下載他們的軟件,在屏幕保護或後台模式等不影響用户使用他們電腦的情況下,利用多餘的處理器系統下載並分析從射電望遠鏡傳來的數據幫助該項目尋找外星文明。)
無論你在不知情勞動這件事上持什麼立場,你都不得不佩服 von Ahn 利用計算來完成一個偉大的想法,幫助人類完成雙贏的行為。
Kickstarter 是個做眾籌的網站,眾包共同完成工作在商業上並不是什麼新鮮事。但這在基於人類的計算當中尚未得到廣泛應用。Mechanical Turk 在被正確使用時,就是一個能夠將大量工作分散到成千上萬人的有力工具。就好像是一個人只花了 200 美元就得到了一萬張羊皮卷。
更棒的是這種想法還可以在各種各樣的應用程序當中使用,就像 Luis 現在工作的公司,提供免費在線學習語言服務的 Duolingo。對不熟悉的人而言,這是一個通過在網頁端或 App 中通過翻譯遊戲來學習語言的服務。想知道這些被翻譯的文字是哪來的?Duolingo 跟 BuzzFeed 和 CNN 合作,翻譯他們的內容。
通過 Duolingo 上到 2015 年 6 月為止的一億活躍用户的努力,巴西人們將會跟我們看到同樣的新聞。
文章來源 theHUSTLE 本文由 TECH2IPO / 創見 Rowson 編譯。譯文創見首發,轉載請註明出處。
資料來源:TECH2IPO