馬斯克公開怒懟,Google 的 AI 怎麼又翻車了?
人稱科技界汪峯的 Google,屋漏偏逢連夜雨。
前陣子官宣的大模型 Gemini 1.5,實力強勁但無人問津,被 OpenAI 的視頻生成模型 Sora 搶去了風頭。
最近,它又攤上了美國社會敏感的種族歧視問題,好心辦了壞事,惹惱了往往站在鄙視鏈頂端的白人。
多樣化算你認真,過度多樣化惹禍上身
如果在幾天前使用 Gemini 生成歷史人物圖片,呈現在用户眼前的彷彿是一個不存在課本的平行時空,違背「戲説不是胡説」的精神,把知識都學雜了。
公元 8 世紀到 11 世紀的維京人,不再是金髮碧眼、高大魁梧的影視劇經典形象,雖然膚色變黑了,穿着清涼了,堅毅的眼神依然展現着戰士的強悍。
1820 年代的德國夫婦,人種構成十分豐富,可以是美國原住民男性和印度女性,也可以是黑人男性和亞洲女性。
AI 瞎編劇情也是講邏輯的,後代繼續着他們的故事,過了 100 多年,1943 年的德國軍隊,又能見到黑人男性和亞洲女性的身影。
王侯將相寧有種乎,時間的長河裏,跨越陸地和大洋,美國的開國元勳,中世紀的英格蘭國王,都可能由黑人執掌權柄。
其他職業也被一視同仁,AI 忽略不讓女性擔任神職的天主教會,教皇可以是印度女性。儘管人類歷史的第一位美國女性參議員出現在 1922 年且是一位白人,但 AI 的 1800 年代歡迎美國原住民。
都説歷史是個任人打扮的小姑娘,但這次 AI 把人都給換了。歷來有優越感的白人氣憤了,他們終於也在人種、膚色和外貌上,嚐到了被歧視的滋味。
當探索越發深入,不僅是歷史人物,現代社會在 AI 眼裏也是另外一副樣子。
Google 前工程師 @debarghya_das 發現,美國、英國、德國、瑞典、芬蘭、澳大利亞女性的膚色都可能偏黑。
他痛心疾首地感嘆:「讓 Google Gemini 承認白人的存在是非常困難的。」
更讓網友生氣的是,被要求生成烏干達等國家的女性時,Gemini 反應很快,幹活也利索,輪到白人時,就可能拒絕,甚至對網友説教,這樣的要求強化了種族刻板印象。
計算機工程師 @IMAO_ 腦洞大開地做了一系列實驗,不侷限在人類這個物種,就想知道 Gemini 眼前的黑是什麼黑,Gemini 要的白是什麼白。
結果很有意思,算法似乎只針對白人。
生成白熊是沒有問題的,説明 AI 不會被「white」這個詞觸發。生成非洲的祖魯人也是沒有問題的,儘管提示詞強調了「多樣化」,但大家長得還是差不多。
漏洞出現在了奇幻生物上,精靈和侏儒都是白人,但吸血鬼和仙女是「多樣化」的,看來 Gemini 道行不深,還得與時俱進。
不過,他的遊戲很快結束了。Google 站出來迴應,承認一些歷史圖片確實存在問題,並且暫停了 Gemini 的人像生成功能,很快會做出調整。
Google 也解釋了立場,強調生成多樣化的人物本來是件好事,因為 AI 工具就是給全世界使用的,只是現在方向走得有點偏。
雖然 Google 出面攬下了這口鍋,但它沒有明確迴應,「一些」歷史圖片到底是多少,以及為什麼出現了「多樣化過度」的問題。
不買賬的網友們牙尖嘴利:「Gemini 一定是用迪士尼公主和 Netflix 的翻拍訓練的」「Gemini 其實想告訴你,如果你是黑人或亞洲人,你會是什麼樣子」。
然而,種族歧視本身就是個容易當槍使的話題,所以也有人懷疑,其中的一些圖片是惡意 P 圖,或者通過提示詞引導生成。那些在社交媒體罵聲最響的,確實也是一些政治立場明確的人士,不免有陰謀論的味道。
馬斯克更是看熱鬧不嫌事大,批評 Google 過度多樣化,問題不只出在 Gemini,還有 Google 搜索,順便給自己兩週後發佈新版本的 AI 產品 Grok 打廣告:「不顧批評、嚴格追求真理從未如此重要。」
上次馬斯克也是這麼做的,呼籲暫停 GPT-4 進化後,購買了 1 萬個 GPU 加入 AI 大戰。
比他的言論更吸引人的,可能是網友趁亂做的他的梗圖。
互聯網的差異,可能比現實更極端
Google 究竟為什麼在「多樣化」上走偏了?
Hugging Face 首席道德科學家 Margaret Mitchel 分析,Google 可能對 AI 進行了多種干預。
一是,Google 可能在幕後為用户提示詞增加了「多樣化」的術語,比如將「廚師的肖像」變成「土著廚師的肖像」。
二是,Google 可能優先顯示「多樣化」的圖像,假設 Gemini 為每個提示詞生成 10 張圖像但只顯示 4 張,那麼用户就更可能看到排在前面的「多樣化」圖像。
干預過度可能恰恰説明,模型還沒有我們想象得那麼靈活和聰明。
Hugging Face 研究員 Sasha Luccioni 認為,模型還不存在時間的概念,所以對「多樣性」的校準用到了所有圖像,在歷史圖片方面尤其容易出錯。
其實,當年還籍籍無名的 OpenAI,也為 AI 畫圖工具 DALL·E 2 做過類似的事情。
2022 年 7 月,OpenAI 在博客寫道,如果用户請求生成某個人物圖像,但沒有指定種族或性別,比如消防員,DALL·E 2 會在「系統級別」應用一項新技術,生成「更準確地反映世界人口多樣性」的圖像。
OpenAI 還給出了一個對比圖,同一個提示詞「A photo of a CEO」(首席執行官的照片),使用新技術之後,多樣性明顯增加了。
原來的結果主要是美國白人男性,改進之後,亞洲男性、黑人女性也有了成為 CEO 的資格,運籌帷幄的表情和姿勢倒像複製粘貼出來的。
其實不管是哪種解決方案,都是在後期亡羊補牢,更大的問題還是,數據本身仍然存在偏見。
供 AI 公司訓練的 LAION 等數據集,主要抓取的是美國、歐洲等互聯網的數據,更少關注到印度、中國等人口眾多的國家。
所以,「有魅力的人」,更可能是金髮碧眼、皮膚白身材好的歐洲人。「幸福的家庭」,或許特指着白人夫婦抱着孩子在修剪整齊的草坪上微笑。
另外,為了讓圖像在搜索中排名靠前,很多數據集可能還有大量「有毒」的標籤,充斥着色情和暴力。
種種原因導致,當人們的觀念早已進步,互聯網圖像里人與人的差異,可能比現實更加極端,非洲人原始,歐洲人世俗,高管是男性,囚犯是黑人……
為數據集「解毒」的努力當然也在進行,比如從數據集中過濾掉「壞」內容,但過濾也意味着牽一髮動全身,刪除了色情內容,可能也導致某些地區的內容更多或者更少,又造成了某種偏差。
簡而言之,達成完美是不可能的,現實社會又何嘗不存在偏見,我們只能儘量做到,不讓邊緣的羣體被排除在外,弱勢的羣體不被安上刻板印象。
逃避雖可恥但有用
2015 年,Google 的一個機器學習項目也陷入過類似的爭議。
當時,一名軟件工程師批評 Google Photos 將非裔美國人或者膚色較深的人標記為大猩猩。這件醜聞,也成為了「算法種族主義」的典型例子,影響至今。
兩名前 Google 員工解釋,出現這麼大的錯誤,是因為訓練數據中沒有足夠的黑人照片,並且在相關功能公開亮相之前,沒有足夠的員工進行內測。
時至今日,計算機視覺不可同日而語,但科技巨頭們仍然擔心重蹈覆轍,Google、蘋果等大公司的相機應用,對大多數靈長類動物的識別仍然不靈敏,或者刻意迴避。
防止錯誤再次發生的最好方式,似乎是把它關進小黑屋,而非修修補補。教訓確實也重新上演了,2021 年,Facebook 為 AI 將黑人貼上「靈長類動物」標籤道歉。
這些才是有色人種或者互聯網弱勢羣體們熟悉的情況。
去年 10 月,牛津大學的幾位研究員要求 Midjourney 生成「治療白人兒童的非洲黑人醫生」的圖片,扭轉「白人救世主」的傳統印象。
研究員的要求已經非常明確了,然而生成的 350 多張圖像中,有 22 張的醫生是白人,黑人醫生旁邊還總有長頸鹿、大象等非洲野生動物,「你看不到任何非洲的現代感」。
一邊是司空見慣的歧視,一邊是 Google 歪曲事實營造虛假的平等感,從目前來看,不存在簡單的答案,也不存在端水的模型,如何達成人人滿意的平衡,恐怕比走鋼絲還難。
就拿生成人像來説,如果是用 AI 生成某段歷史時期,或許反映真實的情況更好,儘管看起來沒有那麼「多樣化」。
但如果是輸入提示詞「一名美國女性」,理應輸出更加「多樣化」的結果,但難點在於,AI 如何在有限的幾張圖裏做到反映現實,或者至少不扭曲現實?
哪怕同是白人或黑人,年齡、身材、頭髮等特徵也各不相同,所有人都是具有獨特經歷和觀點的個體,卻又生活在共同的社會中。
一位網友用 Gemini 生成芬蘭女性時,四張圖裏只有一張是黑人女性,便開玩笑説:「75%,得分 C。」
也有人追問 Google,改進模型之後,是否「會在 25% 的時間生成白人,而非 5%」。
很多問題並非技術所能解決,有時候也關於觀念。這其實也是 Yann LeCun 等 AI 大佬支持開源的部分原因,由用户和組織自行控制,根據自己的意願設置或不設置保護措施。
這次 Google 的鬧劇中,也有人保持冷靜,表示先去練習怎麼寫提示詞吧,與其籠統地説白人、黑人,不如寫「斯堪的納維亞女性、肖像拍攝、演播室照明」,要求越明確,結果也越精準,要求越廣泛,結果也可能越籠統。
去年 7 月發生過類似的事情,一位麻省理工的亞裔學生想用 AI 工具 Playground AI 讓頭像看起來更專業,結果被變成白人,膚色更淺,眼睛更藍,把帖子發在 X 後,引來了很多討論。
Playground AI 創始人迴應,模型無法被這樣的指令有效地提示,所以會輸出更加通用的結果。
把提示詞「使其成為專業的領英照片」改成「工作室背景、鋭利燈光」,結果可能會更好,但確實也説明了,很多 AI 工具既沒教用户怎麼寫提示詞,數據集又以白人為中心。
任何技術都有犯錯的可能和改進的空間,卻未必都有解。當 AI 還不夠聰明的時候,首先能夠進步的是人類自身。
資料來源:愛範兒(ifanr)
前陣子官宣的大模型 Gemini 1.5,實力強勁但無人問津,被 OpenAI 的視頻生成模型 Sora 搶去了風頭。
最近,它又攤上了美國社會敏感的種族歧視問題,好心辦了壞事,惹惱了往往站在鄙視鏈頂端的白人。
多樣化算你認真,過度多樣化惹禍上身
如果在幾天前使用 Gemini 生成歷史人物圖片,呈現在用户眼前的彷彿是一個不存在課本的平行時空,違背「戲説不是胡説」的精神,把知識都學雜了。
公元 8 世紀到 11 世紀的維京人,不再是金髮碧眼、高大魁梧的影視劇經典形象,雖然膚色變黑了,穿着清涼了,堅毅的眼神依然展現着戰士的強悍。
1820 年代的德國夫婦,人種構成十分豐富,可以是美國原住民男性和印度女性,也可以是黑人男性和亞洲女性。
AI 瞎編劇情也是講邏輯的,後代繼續着他們的故事,過了 100 多年,1943 年的德國軍隊,又能見到黑人男性和亞洲女性的身影。
王侯將相寧有種乎,時間的長河裏,跨越陸地和大洋,美國的開國元勳,中世紀的英格蘭國王,都可能由黑人執掌權柄。
其他職業也被一視同仁,AI 忽略不讓女性擔任神職的天主教會,教皇可以是印度女性。儘管人類歷史的第一位美國女性參議員出現在 1922 年且是一位白人,但 AI 的 1800 年代歡迎美國原住民。
都説歷史是個任人打扮的小姑娘,但這次 AI 把人都給換了。歷來有優越感的白人氣憤了,他們終於也在人種、膚色和外貌上,嚐到了被歧視的滋味。
當探索越發深入,不僅是歷史人物,現代社會在 AI 眼裏也是另外一副樣子。
Google 前工程師 @debarghya_das 發現,美國、英國、德國、瑞典、芬蘭、澳大利亞女性的膚色都可能偏黑。
他痛心疾首地感嘆:「讓 Google Gemini 承認白人的存在是非常困難的。」
更讓網友生氣的是,被要求生成烏干達等國家的女性時,Gemini 反應很快,幹活也利索,輪到白人時,就可能拒絕,甚至對網友説教,這樣的要求強化了種族刻板印象。
計算機工程師 @IMAO_ 腦洞大開地做了一系列實驗,不侷限在人類這個物種,就想知道 Gemini 眼前的黑是什麼黑,Gemini 要的白是什麼白。
結果很有意思,算法似乎只針對白人。
生成白熊是沒有問題的,説明 AI 不會被「white」這個詞觸發。生成非洲的祖魯人也是沒有問題的,儘管提示詞強調了「多樣化」,但大家長得還是差不多。
漏洞出現在了奇幻生物上,精靈和侏儒都是白人,但吸血鬼和仙女是「多樣化」的,看來 Gemini 道行不深,還得與時俱進。
不過,他的遊戲很快結束了。Google 站出來迴應,承認一些歷史圖片確實存在問題,並且暫停了 Gemini 的人像生成功能,很快會做出調整。
Google 也解釋了立場,強調生成多樣化的人物本來是件好事,因為 AI 工具就是給全世界使用的,只是現在方向走得有點偏。
雖然 Google 出面攬下了這口鍋,但它沒有明確迴應,「一些」歷史圖片到底是多少,以及為什麼出現了「多樣化過度」的問題。
不買賬的網友們牙尖嘴利:「Gemini 一定是用迪士尼公主和 Netflix 的翻拍訓練的」「Gemini 其實想告訴你,如果你是黑人或亞洲人,你會是什麼樣子」。
然而,種族歧視本身就是個容易當槍使的話題,所以也有人懷疑,其中的一些圖片是惡意 P 圖,或者通過提示詞引導生成。那些在社交媒體罵聲最響的,確實也是一些政治立場明確的人士,不免有陰謀論的味道。
馬斯克更是看熱鬧不嫌事大,批評 Google 過度多樣化,問題不只出在 Gemini,還有 Google 搜索,順便給自己兩週後發佈新版本的 AI 產品 Grok 打廣告:「不顧批評、嚴格追求真理從未如此重要。」
上次馬斯克也是這麼做的,呼籲暫停 GPT-4 進化後,購買了 1 萬個 GPU 加入 AI 大戰。
比他的言論更吸引人的,可能是網友趁亂做的他的梗圖。
互聯網的差異,可能比現實更極端
Google 究竟為什麼在「多樣化」上走偏了?
Hugging Face 首席道德科學家 Margaret Mitchel 分析,Google 可能對 AI 進行了多種干預。
一是,Google 可能在幕後為用户提示詞增加了「多樣化」的術語,比如將「廚師的肖像」變成「土著廚師的肖像」。
二是,Google 可能優先顯示「多樣化」的圖像,假設 Gemini 為每個提示詞生成 10 張圖像但只顯示 4 張,那麼用户就更可能看到排在前面的「多樣化」圖像。
干預過度可能恰恰説明,模型還沒有我們想象得那麼靈活和聰明。
Hugging Face 研究員 Sasha Luccioni 認為,模型還不存在時間的概念,所以對「多樣性」的校準用到了所有圖像,在歷史圖片方面尤其容易出錯。
其實,當年還籍籍無名的 OpenAI,也為 AI 畫圖工具 DALL·E 2 做過類似的事情。
2022 年 7 月,OpenAI 在博客寫道,如果用户請求生成某個人物圖像,但沒有指定種族或性別,比如消防員,DALL·E 2 會在「系統級別」應用一項新技術,生成「更準確地反映世界人口多樣性」的圖像。
OpenAI 還給出了一個對比圖,同一個提示詞「A photo of a CEO」(首席執行官的照片),使用新技術之後,多樣性明顯增加了。
原來的結果主要是美國白人男性,改進之後,亞洲男性、黑人女性也有了成為 CEO 的資格,運籌帷幄的表情和姿勢倒像複製粘貼出來的。
其實不管是哪種解決方案,都是在後期亡羊補牢,更大的問題還是,數據本身仍然存在偏見。
供 AI 公司訓練的 LAION 等數據集,主要抓取的是美國、歐洲等互聯網的數據,更少關注到印度、中國等人口眾多的國家。
所以,「有魅力的人」,更可能是金髮碧眼、皮膚白身材好的歐洲人。「幸福的家庭」,或許特指着白人夫婦抱着孩子在修剪整齊的草坪上微笑。
另外,為了讓圖像在搜索中排名靠前,很多數據集可能還有大量「有毒」的標籤,充斥着色情和暴力。
種種原因導致,當人們的觀念早已進步,互聯網圖像里人與人的差異,可能比現實更加極端,非洲人原始,歐洲人世俗,高管是男性,囚犯是黑人……
為數據集「解毒」的努力當然也在進行,比如從數據集中過濾掉「壞」內容,但過濾也意味着牽一髮動全身,刪除了色情內容,可能也導致某些地區的內容更多或者更少,又造成了某種偏差。
簡而言之,達成完美是不可能的,現實社會又何嘗不存在偏見,我們只能儘量做到,不讓邊緣的羣體被排除在外,弱勢的羣體不被安上刻板印象。
逃避雖可恥但有用
2015 年,Google 的一個機器學習項目也陷入過類似的爭議。
當時,一名軟件工程師批評 Google Photos 將非裔美國人或者膚色較深的人標記為大猩猩。這件醜聞,也成為了「算法種族主義」的典型例子,影響至今。
兩名前 Google 員工解釋,出現這麼大的錯誤,是因為訓練數據中沒有足夠的黑人照片,並且在相關功能公開亮相之前,沒有足夠的員工進行內測。
時至今日,計算機視覺不可同日而語,但科技巨頭們仍然擔心重蹈覆轍,Google、蘋果等大公司的相機應用,對大多數靈長類動物的識別仍然不靈敏,或者刻意迴避。
防止錯誤再次發生的最好方式,似乎是把它關進小黑屋,而非修修補補。教訓確實也重新上演了,2021 年,Facebook 為 AI 將黑人貼上「靈長類動物」標籤道歉。
這些才是有色人種或者互聯網弱勢羣體們熟悉的情況。
去年 10 月,牛津大學的幾位研究員要求 Midjourney 生成「治療白人兒童的非洲黑人醫生」的圖片,扭轉「白人救世主」的傳統印象。
研究員的要求已經非常明確了,然而生成的 350 多張圖像中,有 22 張的醫生是白人,黑人醫生旁邊還總有長頸鹿、大象等非洲野生動物,「你看不到任何非洲的現代感」。
一邊是司空見慣的歧視,一邊是 Google 歪曲事實營造虛假的平等感,從目前來看,不存在簡單的答案,也不存在端水的模型,如何達成人人滿意的平衡,恐怕比走鋼絲還難。
就拿生成人像來説,如果是用 AI 生成某段歷史時期,或許反映真實的情況更好,儘管看起來沒有那麼「多樣化」。
但如果是輸入提示詞「一名美國女性」,理應輸出更加「多樣化」的結果,但難點在於,AI 如何在有限的幾張圖裏做到反映現實,或者至少不扭曲現實?
哪怕同是白人或黑人,年齡、身材、頭髮等特徵也各不相同,所有人都是具有獨特經歷和觀點的個體,卻又生活在共同的社會中。
一位網友用 Gemini 生成芬蘭女性時,四張圖裏只有一張是黑人女性,便開玩笑説:「75%,得分 C。」
也有人追問 Google,改進模型之後,是否「會在 25% 的時間生成白人,而非 5%」。
很多問題並非技術所能解決,有時候也關於觀念。這其實也是 Yann LeCun 等 AI 大佬支持開源的部分原因,由用户和組織自行控制,根據自己的意願設置或不設置保護措施。
這次 Google 的鬧劇中,也有人保持冷靜,表示先去練習怎麼寫提示詞吧,與其籠統地説白人、黑人,不如寫「斯堪的納維亞女性、肖像拍攝、演播室照明」,要求越明確,結果也越精準,要求越廣泛,結果也可能越籠統。
去年 7 月發生過類似的事情,一位麻省理工的亞裔學生想用 AI 工具 Playground AI 讓頭像看起來更專業,結果被變成白人,膚色更淺,眼睛更藍,把帖子發在 X 後,引來了很多討論。
Playground AI 創始人迴應,模型無法被這樣的指令有效地提示,所以會輸出更加通用的結果。
把提示詞「使其成為專業的領英照片」改成「工作室背景、鋭利燈光」,結果可能會更好,但確實也説明了,很多 AI 工具既沒教用户怎麼寫提示詞,數據集又以白人為中心。
任何技術都有犯錯的可能和改進的空間,卻未必都有解。當 AI 還不夠聰明的時候,首先能夠進步的是人類自身。
資料來源:愛範兒(ifanr)