有了這項新技術,要讓新垣結衣跟你表白比修圖更簡單
自從 DeepFake 技術被用在小電影後,這種 AI 換臉術一次次成為輿論焦點,從之前的「朱茵變楊冪」,到最近 Facebook CEO Mark Zuckerberg被惡搞,這種技術一直在不斷進化。
最近倫敦帝國理工學院和英國三星人工智能研究中心展示了一項的新技術,只需要一張照片和音頻文件,就能生成一個人唱歌和説話的視頻。
研究人員將愛因斯坦的照片,和一段不屬於他的音頻結合,很快愛因斯坦的一段全新演講就完成了,從視頻中可以看到愛因斯坦的嘴型會隨着錄音內容而變化。
或者讓帝俄時代尼古拉二世時的神祕主義者拉斯普京,唱起碧昂絲的 Halo,毫無違和感。
除了讓嘴型對上,這項技術還能讓能根據音頻的語氣音調,來調整人物的表情,高興、憤怒、憂傷……這讓合成的視頻更加逼真。
也就是説,只要一張照片和音頻,你就能讓新垣結衣喊出你的名字,含情脈脈地跟你表白。
但比起過去看到的很多換臉視頻,這些合成視頻的逼真度還是稍遜一籌。但要考慮到只需要一張照片和錄音就能合成,已經很不錯了,這也再度降低了這種合成視頻的製作門檻。
這可以説是之前三星另一項技術的升級版,三星不久前成功地開發出了一個「人像照變動態表情包」的 AI 系統,只需要一張肖像照片或畫像就能能合成動圖,比如讓蒙娜麗莎做出不同的表情。
據研究人員介紹,AI 在經過大量人物照片和視頻的訓練後,能高效地找到與系統學習的臉部相對應的部分,針對照片人臉中眼睛、鼻子和嘴巴等關鍵部位進行調整,讓照片動起來。
如果説上述這些 DeepFake 技術還是有不少破綻,那麼最近斯坦福等幾所高校發佈的一項新研究就已經能夠以假亂真了。
只要輸入任意文本,就能讓視頻中的演講者説出對應的話,還能修改原視頻的語句,比如將電視台主持人報道的「蘋果股價收盤於 191.45 美元」的數字改為「182.25 美元」。
儘管這兩個詞的發音和口型完全不同,但幾乎看不出修改痕跡。研究者經過調查發現,59.6% 的受試者認為被修改過的視頻是真的,這項技術成功騙過了大部分人的眼睛。
當然,相比起之前三星的兩項技術,這種視頻的製作流程也要複雜得多,涉及到視頻和文本要對齊、3D 人臉追蹤和重構、脣形搜索等多個技術,一段 1 小時的視頻需要 42 小時合成。
2017 年多名好萊塢女星的臉被換到成人網站的小電影上,DeepFake 技術從此「一戰成名」,也打開了潘多拉魔盒,現在 DeepFake 技術開始引發新的爭議。
▲ 蓋爾·加朵的臉「移植」到一位色情電影演員身上
最近美國眾議院議長南希·佩洛西、Facebook CEO Mark Zuckerberg相繼成為了 DeepFake 技術的受害者,「Mark Zuckerberg」在 Instagram 控訴自家公司,南希·佩洛西在演講中語無倫次,讓更多人開始擔心這種虛假視頻對社交平台的影響。
當合成這種視頻像修圖一樣簡單時,是否會在社交網絡乃至更多互聯網空間上引發混亂?
在針對這種新技術的法律法規還沒完善之前,或許需要更強大的技術來鑑別這種視頻。可據 DeepTrace 平台統計,2018 年,全球涉及 GAN 生成圖像和視頻的論文多達 902 篇,而研究如何識別合成圖像和視頻的論文只有 25 篇。
看起來,沒什麼能阻擋 DeepFake 技術的發展了。本來就是真假難辨的網絡世界,正在變得越來越不可信。
題圖來自:《逃避可恥但有用》
資料來源:愛範兒(ifanr)