全方位超越 Sora,Meta 最新的 AI 視頻模型到底強在哪裏?

這兩天,視頻生成模型領域因為 Meta Movie Gen 的發佈,又炸開了鍋。

行業內外感嘆最多的地方,無外乎兩點,一是生成效果自然逼真,還能同步生成與畫面匹配的聲音,很像當時 Sora 發佈後引起的討論和轟動;二是 Meta AI 的新模型自定義性很強,無論是視頻畫面比例,還是視頻元素與細節,都能根據用户的需求進行調整。

document.createElement('video');

https://s3.ifanr.com/wp-content/uploads/2024/10/AQP1vMJJ3LCIfFzI3RV-_eHkSkSEVWdq6fuX90b37Gg2JWzlrsz0PmjT8HeeKUIgX8CtBz10MEaoREtg0i2WVzga.mp4

所以,可能會引領視頻生成新變革的 Meta Movie Gen 到底有哪些細節?這些在官網和演示視頻裏的驚豔效果是怎麼煉成的?Meta AI 的視頻模型負責人 Andrew Brown 專門為 Meta Movie Gen 的理論技術做了解讀:

  • Movie Gen 在整體質量和一致性方面顯著優於 Sora。真實性和美觀性考驗照片寫實性,Movie Gen 全面獲勝。
  • Meta Movie Gen 是一組可以進行文本到視頻生成、文本到圖像生成、個性化、編輯和視頻到音頻生成的模型。
  • 擴展數據、計算和模型參數非常重要,將其與流匹配相結合,並轉向簡單的常用 LLM 架構 (Llama),從而實現了 SOTA 視頻生成質量。
  • 我們(Meta AI)是第一個使用 Llama arch 進行媒體生成的人。
  • Movie Gen 是一個 30B 參數轉換器,可生成不同寬高比和同步音頻的 1080p 視頻,最大持續時間為 16 秒(16fps)。
  • 我們(Meta)為 T2V 模型提供了多階段訓練方案。T2I + T2V 聯合訓練,導致收斂速度慢得多且質量更差。
  • 文本到視頻的評估很困難。自動化指標非常差,並且與人類評估沒有很好的相關性。

視頻生成的「超級個體」

Meta Movie Gen 首發當天,APPSO 在第一時間報道解讀了這個最新的視頻生成模型,總體來説,Movie Gen 具有四種功能:視頻生成、個性化視頻生成、精準編輯和音頻生成。

先看最基礎的視頻生成 Movie Gen Video,多模態的能力使得新模型可以勝任多種不同的輸入方式,用户不僅可以通過簡單的文本、少許提示詞生成相應的視頻,還能直接把需要處理的圖片放到模型裏,根據文字要求,讓靜態的圖片變成動態的視頻。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQOGoRNNttaiv6GurKZSTJInN2JKv-I_KDeLmKlP0ezuMNoFSnPj2w_UKfMrU7TJ6OuhC5bYmfjbOwcXXRMldykb.mp4

▲ 提示文本:一個女孩正在海灘上奔跑,手裏拿着一隻風箏;她穿着牛仔短褲和一件黃色 T 恤;陽光照耀着她。
你甚至還能讓 Movie Gen 幫忙重新生成或者優化一段視頻。不管選擇哪種輸入方式,Movie Gen 目前在官網的演示視頻,效果都非常好,人物表情自然,畫面細節到位,也能比較準確地按照提示詞或文本的要求來生成相應結果。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQPoimKxH0OjSM2nrwEMvGZ4p1MPTVxM86qgLLo3WWrQcs_3k7q2AFxNgDU7wQR9AiODYnzhAvNv66EYk5CL-JjC.mp4

Andrew Brown 介紹到,在視頻生成的過程中,擴展數據、計算和模型參數非常重要,將其與流匹配相結合,並轉向簡單的常用 LLM 架構 (Llama),從而實現了 SOTA 視頻生成質量。

而且,新模型中的 T2V、個性化和編輯模型都來自相同的培訓方案。在預訓練期間,Meta 首先訓練 T2I,然後訓練 T2V。使用該模型作為初始化,然後進行 T2V 後期訓練,並訓練個性化 T2V 和 V2V 編輯的能力。


另外,模型的訓練也按照分辨率的高低進行,先是低分辨率(256px)訓練,然後是高分辨率訓練(768px)。Meta AI 嘗試聯合訓練 T2I + T2V,但這導致收斂速度慢得多且質量比之前的還要差勁。


Movie Gen Video 之所以能夠做到逼真的生成結果,本質上還是因為高達 30B 參數轉換器模型的卓越能力,這個模型能夠以每秒 16 幀的速度生成長達 16 秒的視頻,而且最長能夠生成 45 秒的高質量和高保真音頻。

Meta 官方還在論文中透露:

引用這些模型可以推理物體運動、主體與物體之間的相互作用和相機運動,並且可以學習各種概念的合理運動。

這句話一共有三層意思,首先是模型本身可以幾乎還原出現實世界的物理運動,以及各種「合乎常理」的物理規律,而對於用户而言,看上去「自然且逼真」就是模型技術最成功的地方。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQODlBNBPphoHO0OxyhgRUjxX2_ypK3-g7d8uLcSSfQKz-BWwxaw6O3ru8Hj8P4hsQvePxUXjMkQP1s6LZS0dP-B.mp4

Movie Gen Video 能夠準確理解物理世界的運動規律,Meta AI 是下了大功夫的。該團隊在數億個視頻和數十億張圖像上,對全新的模型進行了大量的預訓練。通過不停的重複、學習、總結、推理和運用,Movie Gen Video 才有了在官網裏的優異表現。

接着,模型還能主動模仿學習專業電影的運鏡、畫面、蒙太奇等。也就是説,通過 Movie Gen Video 生成的視頻,還有了類似電影拍攝的專業性和藝術性。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQNJgXGFWj-R5P_psMtiR6l5TLrDr8g45ckHVx0tERIlod4irfm29mLts61SShKHI7Gfnry7P6aWDk0FB8R9xZ3B.mp4

不過 Andrew Brown 提到,文本到視頻的評估很困難。因為自動化指標非常差,並且與人類評估沒有很好的相關性。也就是説,在視頻生成模型研製的早期,生成結果和人們印象中和觀察中的真實物理世界差別太大,最後 Meta 還是決定這種真實性的判斷,完全依賴人類的評估。

引用我們花費了大量精力將視頻評估分解為多個正交質量和對齊軸。

結果 Movie Gen 在和 1000 個提示評估集上的模型進行比較時,在質量和一致性方面獲勝或全面處於同等水平。


最後,模型能在此基礎上,推理和創作出接下來的內容,它就像一個專業的導演,指揮着畫面裏的一舉一動;也像一個經驗豐富的擬聲師,根據視頻內容或者文本提示,實時生成和畫面一一對應的配樂。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQM2lzIy5kQwBQ7F0FEBzOwq2YGB-hFKnmoz5SZmOmGhZCMKRc1sqsG0tK7EOVl8133rQjPhHxfRlp_WFBurPqR4.mp4

▲ 煙花爆炸瞬間的音效

同步生成音頻的能力,依靠得是 Movie Gen Audio。這是一個 13B 參數轉換器模型,可以接受視頻輸入以及可選的文本提示,以實現可控性生成與視頻同步的高保真音頻。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQOqaT9K5XXcswrfjz54HfHzFkGfKM815Wkif-RD-wo9OUIzwCUDqt7zVOWR9pgOCohjBFxpKaMIZd7uZDS3t6Al.mp4

和 Movie Gen Video 一樣, Movie Gen Audio 也進行了「海量」練習,Meta AI 將數百萬個小時的音頻參考投餵到模型的訓練裏。經過大量的對比總結,目前模型已經掌握了聲音和畫面之間的對應關係,甚至還能瞭解不同的 bgm 會帶給觀眾哪些不同的感受。

因此在遇到有關情緒和環境的提示詞時,Movie Gen Audio 總能找到和畫面完美契合的音樂。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQNH70f1iPeyIzxUYOBL3qIYNRE-HKJl1P2VXipWwPwO-NkFeTPsBB5dyJCeezKQbqm8ANlae1-riMBHhS77F90Q.mp4

同時,它可以生成環境聲音、樂器背景音樂和擬音聲音,在音頻質量、視頻到音頻對齊和文本到音頻對齊方面提供最先進的結果。

引用這使它們成為同類中最先進的模型。

雖然我們不敢就此和官方一樣,下一個如此自信的定論,但無論是從官方的視頻長度、畫面質量,還是背景音樂的貼合程度,Movie Gen Video 相較於以往的視頻生成模型,有了非常明顯的進步。

而且,和先前的偶像實力派 Sora 相比,Movie Gen 在整體質量和一致性方面都有着比較明顯的領先,Andrew Brown 毫不掩飾地説到在這場與 Sora 的比賽中:

引用Movie Gen 全面獲勝。

視頻編輯的「全能專家」

在 Movie Gen Video 和 Movie Gen Audio 的協同配合下面,Meta AI 全新的視頻生成模型有了全新的能力,不過上述的進步還只是技術基礎,同時具備音視頻生成能力後,Meta 還繼續擴展了全新模型的適用範圍,使它能夠支持個性化視頻的生成。

個性化顧名思義,就是結合用户需求,根據要求生成指定的視頻內容。

雖説先前的視頻模型也能做到個性化生成結果,但這個結果總是不盡人意,要麼是不能更改細節,只能重新來過,要麼是在連續更改細節時,畫面裏的其他元素無法保持一致性,總是會因為新視頻的生成而多少受到點影響。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQN93-PQzwvk9hXxtg_CXRKF0iuS3vDfYDAd6o7L2PLo9s46t2mt3PfVgBJfLqyzKvmH3_avUhVuR5vlaFA3KEiY.mp4

Movie Gen Video 在官網的演示中,很好地展現了他們在這方面的優勢。新模型不僅可以按照提示詞/參考圖像的要求,生成個性化的視頻,還能在該視頻的基礎上,繼續優化調整細節,並且保證其他的生成內容不受干擾,也就是「精細化修改」。

與需要專業技能或缺乏精確度的生成工具的傳統工具不同,Movie Gen 保留了原始內容,僅針對相關像素。

引用在創建保留人類身份和動作的個性化視頻方面,我們的模型取得了最先進的成果。

這項功能,對於很多自媒體工作室,或有視頻編輯需求的人,非常有用,它可以對更改對象進行全局修改,或者細節修改。大到根據文本重新生成整個畫面,小到只改變人物的髮色、眼鏡的樣式等。比如可以通過模型來消除背景當中的無關雜物。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQOlcQl6jghERiA76vaIS8d0NbfUpcoRGuHFWNH6-eyueaTqKtLemFcJEZhv90zsF4xwtPoRtIyN_tKlsKHGG4Jx.mp4

或者給原視頻換上新的背景,不管是樣式還是顏色,都能隨時改變,而且還可以把白天秒變成黑夜。

另外 Movie Gen Video 還能針對很多細節做出細微的調整,在保證視頻構圖、畫整體不變的同時,改變人物的衣服顏色、眼鏡佩戴樣式,主體穿着和寵物毛色等。

比如去除視頻裏的無關雜物、更換畫面背景樣式,增加視頻細節,改變主體衣着顏色等方面,都是他的強項。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQOgCjxW2-d5hyadozHguLaOWtBEbQbaGhvUFwsC94LlfL0kSDCRsE75H5mCtOBUJXON-J91a8-HeGuqKK9e6RC7.mp4

不過這還只是一種暢想,因為 Movie Gen Video 目前只支持 1080P、16 秒、每秒 16 幀的高清長視頻,或者最長 45 秒的高質量和高保真音頻。這樣的畫面分辨率以及視頻長度,對於一個有創作需求的個體或公司來説,好像都不太夠用。

但這種技術的突破,使得 AI 擁有了對視頻文件無級調節的編輯能力,個性化定製、精準調節,加上 Movie Gen Audio 打開了視頻配音的大門,Movie Gen Video 雖然要等到明年才會和公眾正式見面,但以目前官方的演示結果來看,它真有可能為視頻、影視和 AI 行業注入新的動力,甚至帶來一場新的變革。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQNqaqS1K8y127TjMDSqVQFKxytdhtS2LIigdvwG1m1B7PSQ9MVJzbHUsmJ2r6NlDo5676AovslXGGRsFDAJof5C.mp4

包括 Movie Gen Video 在內的最新、最前沿的工具,正在試圖打破這種 AI 在視頻生成領域的刻板印象,雖然目前以他們的能力,這一天的到來還有很久。

對於視頻生成模型來説,一開始很難直接影響,甚至觸及到普通人的日常生活,直到有了某部由 AI 創作的電影,可能才會在新鮮感上,引起大眾的注意。當下用 AI 做出的電影、番劇、動漫,多少都有些畫面不真實、動作很違和的缺點。

https://s3.ifanr.com/wp-content/uploads/2024/10/AQOuOxod5gTk4x2RfQBdpu5EARkJdH_eqk-WC6V_5YLxIiD0Q8-9XD3dOjwIDskByjO4lIRgylv_LwkPkEb1vgX2.mp4

Meta AI 也在官網表示,隨着模型技術的改善與發展,他們將會與電影製作人和創作者密切合作,整合他們的反饋。當下,無論是 Runway、Sora,還是最新的 Meta AI,都在飛速發展,起碼和一年前的生成效果比較起來,可以看到肉眼可見的進步。

AI 技術對人們生活的影響,不一定會在第一時間顯現出來,當大家還都在探討 AI「有什麼用」的時候,那它對於大多數人的最大意義,就是多了一個好用的工具、一個好玩兒的玩具:

引用無論一個人是希望在好萊塢大展身手的電影製作人,還是喜歡為觀眾製作視頻的創作者,我們都相信每個人都應該有機會使用有助於提高創造力的工具。


資料來源:愛範兒(ifanr)

如果喜歡我們的文章,請即分享到︰

標籤: Sora  Meta AI