ChatGPT 爆火背後,那些幫它「洗白」的人

人工智能的成功,不只歸功於金字塔尖的天才。
AI 不會識別物體,需要大量數據學會分辨五官和交通燈。

AI 對信息來者不拒,仰仗人工幫它剔除數據庫有害的那部分。

當 AI 最終出現在鎂光燈下,數據標註員們完成了單調而重要的職責,然後又隱入黑暗。

火爆全球的 ChatGPT,大概也是一個「一將功成萬骨枯」的故事。
ChatGPT 的「幕後英雄」

ChatGPT 有多厲害不必多言,它和你用自然語言交談,編寫代碼、撰寫論文、通過考試、創作詩歌都不在話下。

比起之前的「人工智障」,ChatGPT 的前身 GPT-3 也是一大進步,但它存在一個問題,容易脱口而出暴力、性別歧視和種族主義言論,所以無法真正普及開來。

有了前車之鑑,為了保證 ChatGPT 的温和無害,OpenAI 建立了一個額外的安全機制。

▲ 圖片來自:shutterstock

它基於涉及暴力、仇恨和性虐等內容的例子,訓練出能夠檢測有害內容的 AI,再把這個 AI 作為檢測器,內置到 ChatGPT 之中,在內容到達用户之前,起到檢測和過濾的作用。

以上例子需要經過數據標註(Data labelling),這是一項浩如煙海的人力勞動,由肯尼亞的工人們負責,為有害內容打上標籤。

從 2021 年 11 月起,OpenAI 向外包公司 Sama 發送了數萬個文本片段,其中大部分體現着互聯網最黑暗的角落,涉及性虐、自殺、酷刑等內容。

▲ 圖片來自:Sama
一位數據標註員在閲讀無法接受的有害內容後,開始反覆出現幻覺。

工作的重負,並沒有換來待遇的優越。

《時代週刊》調查發現,為 OpenAI 工作的 Sama 數據標註員,工資約為每小時 1.32 美元至 2 美元。他們每 9 小時輪班,閲讀和標註 150 至 250 段文字,每段從 100 個單詞到 1000 多個單詞不等。

但是 Sama 迴應,工人每 9 小時輪班標註 70 段文字,而不是最多 250 段,税後每小時的收入在 1.46 美元到 3.74 美元之間。


Sama 還自稱是一家「有道德的 AI 公司」,幫助 5 萬多人擺脱了貧困。

如果有道德是指幫助脱貧,那或許沒有錯,畢竟這些生活困苦的工人沒有更多的選擇。

但是「副作用」如影隨形,身心折磨成了必要的代價。

因為 Sama 對員工工作效率要求極高,公司很少組織心理輔導活動,更何況這些活動本身也沒有什麼用處。有員工曾提出想要一對一的諮詢,但被 Sama 管理層一再拒絕。


OpenAI 也回覆了外媒 Quartz,他們支付的費用幾乎是東非其他內容審核公司的兩倍,並給員工提供福利和養老金。

儘管各方説法不一,但是基本的事實沒有出入。

為了讓 AI 更安全,為了讓 OpenAI 的通用 AI 造福人類,海量工人付出了巨大的精力,甚至遭受了創傷。但是當 OpenAI 估值近 300 億美元,他們始終籍籍無名。

末端的毛細血管

數據標註員並不是一個新鮮的工種。

早在 2007 年,計算機視覺專家李飛飛僱傭了一羣普林斯頓的本科生,以 10 美元/小時的價格讓他們試驗做數據標註。

如今,數據標註早已發展成產業,但待遇明顯下降,主角也不再是大學生。

2019 年前後,有媒體報道過國內的數據標註員,他們散落在河南、山東、河北等地的四五線小城。


類似地,Sama 的總部位於舊金山,在肯尼亞、烏干達和印度僱傭員工。除了 OpenAI,它還為 Google、Meta 和微軟等硅谷客户標註數據。

然而在近兩年,Sama 打定主意「金盆洗手」。

2022 年 2 月,Sama 決定結束與 OpenAI 的合作,員工不再需要忍受痛苦,但生計也難以維持,「對我們來説,這是養家餬口的一種方式」。


今年 1 月,Sama 的態度更加決絕,打算退出所有自然語言處理和內容審核工作,只做計算機視覺數據標註,與所有涉及敏感內容的業務分道揚鑣,包括終止與 Meta 在東非的合同。
為 Meta 工作的 Sama 員工在非洲內羅畢辦事處,專注審核本地生產的內容,斬首、虐待兒童等內容超出了他們的接受程度。一位員工將審核圖片內容描述為「生活在恐怖電影中」。

有需求就有市場,從來不缺這樣的外包公司。

總部位於盧森堡的外包公司 Majorel,在非洲負責 TikTok 的審核服務,有報道稱將由它接手 Meta 的工作。


這家公司也曾為人詬病。2022 年 8 月,Insider 調查了摩洛哥 Majorel 的狀況,發現工人們經常輪班工作超過 12 小時,標註涉及虐待動物、性暴力等的短視頻,休息時間少於美國同行,公司的「健康顧問」又幫不上什麼忙。

作為科技產業鏈末端的毛細血管,數據標註還出現在更多的地方。

2022 年 11 月,The Verge 報道,亞馬遜在印度和哥斯達黎加聘請了工人,他們負責觀看倉庫攝像機數以千計的視頻,從而改進亞馬遜的計算機視覺系統。

▲ 圖片來自:Reuters

但是因為至少八小時的目不轉睛,他們出現了頭痛、眼痛和視力下降。

自動駕駛汽車同樣需要數據標註,才能學習怎麼識別路牌、車輛、行人、樹木和垃圾桶,它對標註的準確性要求還要更高,因為這可能直接決定了人的生死。

《麻省理工科技評論》2022 年 4 月的一項調查發現,包括特斯拉在內的自動駕駛公司,讓委內瑞拉工人標註自動駕駛數據,工資僅有平均每小時 90 美分多一點。

至少目前,數據庫依然需要人類淨化,AI 識圖仍然需要人類拉框。而問題在於,和付出的精力相比,工人們的待遇和心理健康並不那麼理想。

那些越來越邊緣的人

自 ChatGPT 橫空出世,不少人擔心起了自己的飯碗,這可能是一種非常具體的危機感。

與此同時,AI 和人類的關係,也在另一個維度發生了微妙的變化——它改變了人類的工作方式,以及存在的工作類型,讓海量的勞動力隱居幕後。

比如數據標註員,他們的工作門檻並不高,往往沒有硬性的學歷要求,經過幾天培訓就能上崗。知道要標註的是什麼、標在哪裏,基本就算入門了,剩下的時間留給熟能生巧。


他們往往也不是正式員工,而是外包形式,就像為 OpenAI 服務的肯尼亞工人。

這意味着,他們身處一個更加不穩定的世界,待遇更低,地位更加邊緣,職場發言權也更少,只是亦步亦趨而已。AI 的進展究竟如何,他們或許並不知道。

2018 年,GQ 報道在 《那些給人工智能打工的人》提到:「我們沒有研發能力,純粹也就是一個(代工的)富士康。」

▲ 盧德運動.

相似的情形曾在歷史上演。在 19 世紀初的英國,自動化紡織機普及開來,工廠更希望僱傭廉價的無技術勞動力操作機器,導致許多技術嫺熟的手工工人失業。

時代的車輪在繼續前行,為 AI 服務的數據標註員,也在被 AI 慢慢替代。

2022 年 6 月,特斯拉計劃解僱 200 名美國員工,他們負責標註視頻,幫助改進駕駛員輔助系統。原因可能在於,近年來特斯拉的自動化數據標註有了進展,可以代替人力完成部分工作。


特斯拉 Autopilot 軟件總監曾在 AI Day 上表示,公司能在一週內收集並自動標註 1 萬個 45 到 60 秒的視頻片段。相比之下,「人工標記每個片段可能需要幾個月的時間」。

2020 年,世界經濟論壇預言,到 2025 年,8500 萬個工作崗位將被機器取代,9700 萬個新工作崗位又將誕生。


被他們看好的職位,基本都是人工智能和機器學習專家、數字化轉型專家、信息安全分析師這類技術人才。

與之相對的低收入、低技術職業,則在一步步地退出舞台,最終可能消失在機器的陰影之中。

資料來源:愛範兒(ifanr)

如果喜歡我們的文章,請即分享到︰

標籤: ChatGPT