影史最出名的反派之一,未來都「不説人話」

李安的動作科幻電影《雙子殺手》裏,政府特工亨利正準備退休,卻發現被一個比自己年輕 23 歲的克隆體追殺。

為了達到這個效果,李安用動作捕捉特效精緻還原人臉,讓威爾·史密斯「返老還童」。某位擁有「完美的 23 歲皮膚」的年輕男子,也為克隆體貢獻了自己的數據。

沒有人永遠年輕,永遠有人正年輕。

但「數字替身」完全可以更貪心,除了有不老的皮囊,還可以有不老的聲音。

召喚時光機

《星球大戰》的達斯·維德(Darth Vader),因身心俱毀而墮入原力的黑暗面,在正傳三部曲裏為頭號反派,也是星球大戰系列中最具矛盾與悲劇色彩的人物。

2003 年,美國電影學會將達斯·維德列為百年來第三偉大的電影反派,僅次於《沉默的羔羊》的漢尼拔和《驚魂記》的諾曼·貝茨。

從 1977 年盧卡斯出品第一部《星球大戰》以來,詹姆斯·厄爾·瓊斯一直為達斯·維德配音,算到如今差不多貫穿了一個人的半生,他的聲音也就成了角色的聲音。

▲ 圖片來自:screenrant

達斯·維德有力卻略為低沉的嗓音,配上深重的呼吸聲,令人脊背發涼。

但人類終將老去,瓊斯今年已經 91 歲,該考慮結束配音生涯了,他決定將聲音授權給烏克蘭初創公司 Respeecher。

通過從前的錄音和專有的 AI 算法,Respeecher 可以用舊的聲音創建新的台詞。

▲ Respeecher. 圖片來自:inverse

最新的成果,便是今年 6 月完結的星球大戰衍生劇《歐比旺·克諾比》

劇中,Respeecher 重現了瓊斯幾十年前的音色,而不是他在 2019 年《星球大戰:天行者崛起》中因歲月而蒼老的真實聲線。

和 Respeecher 合作的盧卡斯影業聲音監督編輯 Matthew Wood 表示,像達斯·維德這樣的角色,50 條台詞可能需要近 1 萬多個文件來回切換,大部分工作都耗在對話的變化和微調上。

一個有趣的細節是,在達斯·維德出場的《歐比旺·克諾比》第 3 集,Respeecher 也被列入了演職員表

▲ 圖片來自:Lucasfilm

這並不是 Respeecher 第一次和盧卡斯影業合作,它還為星球大戰衍生劇《曼達洛人》和《波巴·費特之書》中年輕版的盧克·天行者「配音」。

星球大戰三部曲在 1977 年至 1983 年上映,當時飾演盧克·天行者的馬克·哈米爾,今年也已經 70 歲了。

《曼達洛人》第二季最後一集,不到 20 歲的盧克·天行者出場,形象是視覺效果公司 Lola VFX 用 Deepfake 和替身製作的,聲音則由 Respeecher 負責「克隆」。

▲《波巴·費特之書》盧克·天行者 CGI.

▲ 1983《星球大戰 VI》盧克·天行者.

Respeecher 所做的是,輸入數小時的高質量錄音,用 AI 語音合成軟件和音頻超分辨率算法分析語音,直到系統具備「克隆」能力。

就像克隆羊需要 DNA,克隆聲音也是有輸入才有輸出,錄音的説話風格、起伏跌宕等細節都非常重要。

所以,這項工作仍然與人高度相關。「技術還不會創造表演」,沒有過往的真人表演,那麼 Respeecher 就束手無策。

從這個角度看,Respeecher 的 AI 如同搭乘時光機的發聲裝置——它重現了某人過去的某個特定時刻

▲《曼達洛人》盧克·天行者.

為了讓年輕的天行者重現,Respeecher 收集了馬克·哈米爾 1983 年前後的配音、採訪、對白補錄、無線電廣播等資源。

這裏還有一處難點:讓近 40 年曆史的數據聽起來像是昨天剛錄製好的。

最終,盧克·天行者只在兩部衍生劇説了幾行話。不過,無需以數量論短長,確保合成語音無法與原始語音區分,觀眾完全意識不到真實與否,才是 Respeecher 想要的結果。

這家成立於 2018 年的初創公司目標很簡單:克隆不讓人起疑的人類語音。

跨越病痛和生死

人類生來受限,逃不過老病死,但技術可以擴充肉身的邊界。

克隆名人聲音,並不是第一次,也不會是最後一次。

2022 年上映的《壯志凌雲:獨行俠》是 1986 年《壯志凌雲》的續集,片中「冰人」卡贊斯基再次被 62 歲的瓦爾·基爾默(Val Kilmer)搬上銀幕。

但迴歸沒有那麼容易,從 2014 年接受喉癌治療開始,基爾默永遠失去了他的聲音。

所以,《壯志凌雲:獨行俠》的劇本從基爾默的現實生活取材,「冰人」也患有癌症並通過打字交流,在片中只説了一句簡短的台詞。

▲ 圖片來自:pagesix

而在現實生活中,基爾默的聲音已經通過 AI「恢復」。2020 年,基爾默開始與 AI 語音公司 Sonantic 合作

收到數小時的舊錄像後,Sonantic 首先在不破壞語音內容的前提下去除背景噪音,再從音頻中生成腳本,並將音頻和文本一塊塊地配對,然後語音引擎用這些數據訓練語音模型。

難點在於,基爾默提供的數據比他們以往的項目少了大約 10 倍。為此,Sonantic 研究了新的算法,最終生成了 40 多種不同的語音模型,把其中最好的一個交給基爾默。

▲ 圖片來自:vanityfair

有了自定義語音模型,基爾默和他的團隊輸入文本,選擇合適的模式,調整音調、節奏等參數,就能實現逼真的交流。

這不僅僅是一項技術成果,還關乎人與人的溝通和聯繫。基爾默本人在一份聲明中提到:

引用作為人類,溝通能力是我們生存的核心,喉癌的影響讓其他人很難理解我。有機會以一種真實而熟悉的聲音講述我的故事,這是一份非常特別的禮物。

國內也有這樣的例子。2021 年,喜馬拉雅以語音合成技術讓已故大師單田芳「再説」評書;2018 年,《創新中國》紀錄片用 AI 復原配音大師李易的聲音。


所以當你曾經在世界留下過痕跡,就無法輕易「事了拂衣去、深藏功與名」。

對於仍要謀生的名人,克隆語音倒可能是條「通天大道」。如果説 AI 換臉模型 Deepfake 讓明星「出租」臉就可能賺得盆滿缽滿,語音模型也不相上下。

為基爾默「恢復」聲音的 Sonantic 還有一項業務:為嗓子正常的演員創建聲音模型。
▲ 圖片來自:the verge

平台先提供設置腳本,演員錄製好這些腳本的表演,然後再將錄製的音頻輸入語音引擎,用引擎訓練 AI 模型。最終,當合成聲音被商用,演員們躺着就能獲得利潤分成,無需親力親為,也不必擔心分身乏術。

2021 年 5 月,美國 AI 技術公司 Veritone 也推出了類似的平台 Marvel.AI。這家公司認為,「對於運動員、演員和 KOL,聲音是他們個人品牌的巨大資產」。

▲ 圖片來自:Veritone

但這不免有偷懶之嫌,如果明星都不願自己代言,消費者又憑什麼為他們買單?Veritone 建議創建行業標準,比如提前告知聽眾是合成語音,那就是「一個願打一個願挨」了。

有技術和平台,名人克隆和出租聲音完全可以是產業鏈,這也是技術跨越肉體與時空限制的一種體現。

人人擁有「語音替身」的未來還遠嗎

誠然,語音克隆不是新鮮事,但它仍然需要一個越來越真實、簡易的過程,遠遠沒有抵達終點。

在我們看得到或看不到的角落,語音克隆的普及度越來越高,不只是名人、明星等少數人的遊戲。

2017 年,加拿大 AI 初創公司 Lyrebird 開發了一種語音合成技術,聲稱他們的算法能用 1 分鐘的樣本音頻克隆任何人的聲音。

▲ Lyrebird.

1 分鐘是個了不起的數字。當年 Adobe 的 Project VoCo,至少需要 20 分鐘的樣本音頻。

在 Lyrebird 給出的例子裏,希拉里、克林頓、特朗普言笑晏晏,共同祝福 Lyrebird 有美好未來。他們的聲音、語調還是和真人有些區別,機械感略重,但足夠讓人眼前一亮了。

Lyrebird 表示,生成聲紋需要相當多的計算能力,但一旦完成這一步,製作語音很容易,創建一千個句子不到半秒。

這像是一則預言:越過真實和機械的門檻,之後便一馬平川。

除了所需的樣本音頻更少,語音克隆也已經被內置在隨手可及的創作工具中。

▲ Descript.

美國音視頻編輯公司 Descript 開發了播客編輯功能「Overdu」,它可以克隆創作者的聲音,創作者輸入需要的單詞,就能用原有聲音生成新的音頻,方便快速修改播客。

但它也遠非完美。The Verge 記者體驗後發現,一方面,為了訓練 AI,需要預先錄製很多音頻;另一方面,生成的音頻缺乏情感和抑揚頓挫,偏偏聽起來確實是自己,令人心生怪異又莫名熟悉。

當初創公司遍地開花,大型科技公司厚積薄發。

今年 6 月的 Amazon re:MARS 大會上,亞馬遜首席科學家 Rohit Prasad 表示,亞馬遜正在開發一種技術,允許智能助手 Alexa 通過不到 1 分鐘的音頻模仿任何人的聲音

▲ 圖片來自:techcrunch

任何人當然也包括已故親人。亞馬遜還做了一次相關演示:一個孩子對 Alexa 説要聽睡前故事《綠野仙蹤》,揚聲器傳出的聲音不是常見的機械音,而是已故祖母的聲音。

亞馬遜沒有透露 Alexa 新功能的更多細節,但底層技術已經存在了好幾年。

可以預見,雖然語音克隆還無法真正代替人聲,但運用將相當廣泛,比如有聲讀物、語音助手、視頻遊戲等。


Sonantic 曾説:「CGI(計算機生成圖像)為視覺所做的,就是 Sonantic 為音頻所做的。」人人擁有自己的「語音替身」,或許已經近在眼前。

而翻到硬幣的另一面,我們對「語音替身」態度謹慎。

▲ 圖片來自:Face2Face

畢竟,Deepfake 的政治謊言、色情內容造成了不少負面影響,也就不難想象,語音模型會被用來做些什麼。如果不加防範,我們將有一個照片可以偽造、錄音也並不可靠的未來。

幾個月前,微軟發佈了新的 AI 道德規則,將嚴格限制誰可以創建合成聲音,如何使用合成聲音,併為人造聲音覆蓋防止濫用的「水印」。

為《星球大戰》兢兢業業的 Respeecher,曾發佈過一部「1969 年」的短片,片中總統宣佈月球上發生大規模災難,聽起來十分「真實」,但一切都是假的。

短片在最後提醒道:「這個項目使用了一系列的技術,包括視頻對話替換、語音轉換系統以及更傳統的視頻編輯,展示了錯誤信息可能的樣子。請核實你的信源。」


所以,Respeecher 並不是想證明新聞和歷史都能被操縱。

恰恰相反,他們希望讓人們意識到技術的存在和用處,以及技術的侷限和惡意。既然車輪已經滾滾向前,被更多地看見,才能被更好地規範和使用。


資料來源:愛範兒(ifanr)

如果喜歡我們的文章,請即分享到︰