用嘴做視頻真來了！Meta 這個新應用太逆天了

今年，是 AI 在圖像視頻製作領域進步很大的一年。

有人拿着 AI 生成的圖像拿走了數字藝術大獎，戰勝了一眾人類藝術家；有 Tiktok 這樣的應用通過文字輸入生成圖片，變為短視頻的綠幕背景；還有新的產品可以做到文字直接生成視頻，直接實現「用嘴做視頻」的效果。

這次的產品來自深耕人工智能多年，前段時間才因為元宇宙被瘋狂嘲諷的 Meta。

https://s3.ifanr.com/wp-content/uploads/2022/10/zuckerberg-metaverse.jpg!720

圖片來源：s3.ifanr.com

▲ Meta 元宇宙曾被瘋狂嘲諷

只是這次，你不能嘲諷它了，因為它真的有了小突破。

文字轉視頻，能做成什麼樣

現在，你可以動嘴做視頻了。

這話雖然有點誇張，但 Meta 這次推出的 Make-A-Video 恐怕真是朝着這個目標前進的。

https://s3.ifanr.com/wp-content/uploads/2022/10/bf7f-6bf65157785ce61fbdbfcffb3f2fafea.gif

圖片來源：s3.ifanr.com

目前 Make-A-Video 可以做到的是：

文字直接生成視頻——將你的想象力變成真實的、獨一無二的視頻
圖片直接轉為視頻——讓單一圖片或兩張圖片自然地動起來
視頻生成延伸視頻——輸入一個視頻創建視頻變體

單説文字直接生成視頻這個方面，Make-A-Video 就戰勝了不少專業的動畫設計專業的學生。至少它什麼風格都能做，而且製作成本非常低。

雖然官網還不能讓你直接生成視頻體驗，但你可以先提交個人資料，之後 Make-A-Video 有任何動向都會先和你分享。

https://s3.ifanr.com/wp-content/uploads/2022/10/Meta-Mark-Zuckerberg-Leadership-facebook.jpg!720

圖片來源：s3.ifanr.com

目前可以看到的案例不多，官網展示的案例在細節上還有一些怪異的地方。但不管怎麼説，文字可以直接變視頻，本身就是一個進步了。

一隻泰迪熊在畫自畫像，你可以看到小熊的手在紙面陰影部分的投影不太自然。

https://s3.ifanr.com/wp-content/uploads/2022/10/achxp-e7pmj.gif

圖片來源：s3.ifanr.com

機器人在時代廣場跳舞。

https://s3.ifanr.com/wp-content/uploads/2022/10/ezgif-2-3cd8535b46.gif

圖片來源：s3.ifanr.com

貓拿着電視遙控器換台，貓咪手部爪子和人手極為相似，某些時候看還覺得有點驚悚。

https://s3.ifanr.com/wp-content/uploads/2022/10/a7g30-ly24v.gif

圖片來源：s3.ifanr.com

還有戴着橙色針織帽的毛茸茸樹懶在擺弄一台筆記本電腦，電腦屏幕的光映在它的眼睛裏。

https://s3.ifanr.com/wp-content/uploads/2022/10/aigtd-j6aan.gif

圖片來源：s3.ifanr.com

上面這些屬於超現實風格，和現實更相似的案例則更容易穿幫。

Make-A-Video 展示的案例如果只是專注局部表現都不錯，例如藝術家在畫布上畫畫的特寫，馬喝水，在珊瑚礁游泳的小魚。

https://s3.ifanr.com/wp-content/uploads/2022/10/ezgif-2-c581d5dfa9.gif

圖片來源：s3.ifanr.com

https://s3.ifanr.com/wp-content/uploads/2022/10/ezgif-2-5d1a005fd4.gif

圖片來源：s3.ifanr.com

https://s3.ifanr.com/wp-content/uploads/2022/10/ezgif-2-8067fd0db7.gif

圖片來源：s3.ifanr.com

但是稍微寫實一點的年輕夫婦在大雨中行走就很怪異，上半身還好，下半身的腳忽隱忽現，有時還會被拉長，如同鬼片。

https://s3.ifanr.com/wp-content/uploads/2022/10/ezgif-2-c5660d38ad.gif

圖片來源：s3.ifanr.com

還有一些繪畫風格的視頻，宇宙飛船登陸火星，穿着晚禮服的夫婦被困在傾盆大雨中，陽光灑在桌上，會動的熊貓玩偶。從細節上看，這些視頻都不夠完美，但僅僅從 AI 文字轉視頻的創新效果來看，還是讓人驚歎的。

https://s3.ifanr.com/wp-content/uploads/2022/10/aoqa9-3iwou.gif

圖片來源：s3.ifanr.com

https://s3.ifanr.com/wp-content/uploads/2022/10/a7j30-vpbr7.gif

圖片來源：s3.ifanr.com

https://s3.ifanr.com/wp-content/uploads/2022/10/ezgif-3-fabc596743.gif

圖片來源：s3.ifanr.com

https://s3.ifanr.com/wp-content/uploads/2022/10/au61z-df753.gif

圖片來源：s3.ifanr.com

靜態的油畫也可以在 Make-A-Video 幫助下動起來——船在大浪中前進。

https://s3.ifanr.com/wp-content/uploads/2022/10/ezgif-2-50e09ef12d.gif

圖片來源：s3.ifanr.com

海龜在海中游動，最初的畫面非常自然，後面變得更像綠幕摳圖，不自然。

https://s3.ifanr.com/wp-content/uploads/2022/10/2022-10-04-03-26-18.2022-10-04-03_26_38.gif

圖片來源：s3.ifanr.com

瑜伽訓練者在朝陽中舒展身體，瑜伽墊也會隨着視頻的變化一起變化——這個 AI 就戰勝不了學習影視製作的學生了，控制變量沒做好。

https://s3.ifanr.com/wp-content/uploads/2022/10/2022-10-04-03-22-29.2022-10-04-03_23_58.gif

圖片來源：s3.ifanr.com

最後輸入一個視頻模仿其風格創造視頻變體也有 3 種案例。
其中一個變化相對來説沒那麼精緻。宇航員在太空中飄舞的視頻變為了美感稍弱版本的 4 個粗放版視頻。

https://s3.ifanr.com/wp-content/uploads/2022/10/ezgif-2-3bc3f71908.gif

圖片來源：s3.ifanr.com

小熊跳舞的視頻倒是有不少令人驚喜的變化，至少舞姿有變化了。

https://s3.ifanr.com/wp-content/uploads/2022/10/make-a-video-header.gif

圖片來源：s3.ifanr.com

至於最後兔子吃草的視頻就是最「安能辨我是雌雄」的類型了，5 個視頻最後很難認出誰是初始視頻，看着都蠻和諧。

https://s3.ifanr.com/wp-content/uploads/2022/10/ezgif-2-6a7102850b.gif

圖片來源：s3.ifanr.com

文字轉圖片剛有進展，視頻就來了

在《阿法狗之後，它再次徹底顛覆人類認知》中，我們曾經介紹過圖像生成應用 DALL·E。曾有人用它製作出的圖像去和人類藝術家 PK 並最終取勝。

現在我們看到的 Make-A-Video 可以説是一個視頻版本的 DALL·E（初級版）——它就像 18 個月前的 DALL·E，有巨大突破，但現在的效果不一定能讓人滿意。

https://s3.ifanr.com/wp-content/uploads/2022/09/girl-with-a-pearl-earring.jpeg!720

圖片來源：s3.ifanr.com

▲ DALL·E 創作的延伸畫作

甚至可以説，它就是站在巨人 DALL·E 肩膀上做出成就的產品。相較於文字生成圖片，Make-A-Video 並沒有在後端進行太多全新變革。

研究人員在論文中也表示：「我們看到描述文本生成圖片的模型在生成短視頻方面也驚人地有效。」

https://s3.ifanr.com/wp-content/uploads/2022/09/WechatIMG5275.jpg!720

圖片來源：s3.ifanr.com

▲描述文本生成圖片的獲獎作品

目前 Make-A-Video 製作的視頻有 3 個優點：

加速了 T2V 模型（文字轉視頻）的訓練
不需要成對的文本轉視頻數據
轉化的視頻繼承了原有圖像/視頻的風格

這些圖像當然有缺點，前面提到的不自然都是真實存在的。而且它們不像這個年代誕生的視頻，畫質模糊，動作僵硬，不支持聲音匹配，一段視頻長度不超過 5 秒，解析度 64 x 64px 都是硬傷，它們的清晰度遠遠不夠。

https://s3.ifanr.com/wp-content/uploads/2022/10/image-metas-make-a-video-ai-achieves-a-new-nightmarish-state-of-the-art-166448049439608.gif

圖片來源：s3.ifanr.com

▲ 這個視頻狗狗舌頭和手有幾幀非常怪異

幾個月前清華大學和智源研究院（BAAI）研究團隊發佈的第一個能根據文本直接合成視頻的 CogVideo 模型也有這樣的問題。它基於大規模預訓練的 Transformer 架構，提出了一種多幀率分層訓練策略，可以高效的對齊文本和視頻片段，只是也經不起細看。
但誰能説 18 個月後，Make-A-Video 和 CogVideo 製作的視頻不會比大部分人更好呢？

https://s3.ifanr.com/wp-content/uploads/2022/10/6295da5bec0a1.gif

圖片來源：s3.ifanr.com

▲ CogVideo 生成的視頻——這個目前僅支持中文生成

目前已經發布的文字轉視頻工具雖然不多，但在路上的卻有不少。在 Make-A-Video 發佈後，初創企業 StabilityAI 的開發者就公開表示：「我們的（文字轉視頻應用）會更快更好，適用於更多人。」

有競爭才會更好，越來越逼真的文字轉圖像功能就是最好的證明。

資料來源：愛範兒（ifanr）

標籤: Meta