揭秘最強視頻生成模型 Sora，OpenAI 是怎麼實現 1 分鐘一鏡到底的？

今天凌晨，OpenAI 從「彈藥庫」裏掏出了 AI 視頻生成工具 Sora，瞬間佔據了各大新聞頭條。

就連一向和 OpenAI 不對付的馬斯克也甘心承認 Sora 的強大，並藉此盛讚「在未來的幾年裏，人類藉助 AI 的力量，將創造出卓越的作品。」

Sora 的強大之處在於能夠根據文本描述，生成長達 60 秒連貫流暢的的視頻，其中包含細膩複雜的場景、生動的角色表情以及複雜的鏡頭運動。

對比其他只能生成短至個位數秒長度的視頻，Sora 的一分鐘時長無疑起到了掀桌的效果。
更為重要的是，無論是在視頻的真實性、長度、穩定性、一致性、分辨率還是對文本的理解方面，Sora 均展現出了目前最佳的水平。讓我們先來欣賞一下官方發佈的演示視頻片段。

引用Prompt: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.

在這段視頻中，無人機視角下的一對情侶穿梭於繁華的城市街道，美麗的櫻花花瓣伴隨着雪花在空中翩翩起舞。

當其他工具還在努力保持單鏡頭穩定時，Sora 已經絲滑實現多鏡頭的無縫切換，且鏡頭切換的連貫性和對象的一致性效果都遙遙領先，真降維打擊。👇

https://s3.ifanr.com/wp-content/uploads/2024/02/12-2.gif

圖片來源：s3.ifanr.com

▲源自 @gabor

在過去，要拍攝這樣一段視頻可能需要耗費大量時間和精力進行劇本創作、分鏡頭設計等一系列繁瑣的工作。而現在，僅需一段簡單的文本描述，Sora 就能徹底生成這樣的大場面，相關從業者或許已經開始瑟瑟發抖了。

網友 @debarghya_das 用 OpenAI Sora 剪輯、David Attenborough 在 Eleven Labs 上的聲音以及 iMovie 上 Youtube 上的一些自然音樂樣本，在 15 分鐘內製作了這個 20 多秒的預告片。

https://s3.ifanr.com/wp-content/uploads/2024/02/15-1.gif

圖片來源：s3.ifanr.com

Sora 是怎麼實現強大效果的？

OpenAI 也發佈了一份關於 Sora 詳細的技術報告，介紹了其背後的技術原理和應用。

那麼，Sora 是如何實現這一突破的呢？受到 LLM 成功實踐經驗的啓發，OpenAI 引入了視覺塊嵌入代碼（patches)，這是一種高度可擴展且有效的視覺數據表現形式，能夠極大地提升生成模型處理多樣化視頻和圖像數據的能力。

https://s3.ifanr.com/wp-content/uploads/2024/02/2-2.png!720

圖片來源：s3.ifanr.com

在高維度空間中，OpenAI 首先將視頻數據壓縮至一個低維潛在空間，然後再將其分解為時空嵌入，從而將視頻轉化為一系列編碼塊。

接下來，OpenAI 訓練了一個專門用於降低視覺數據維度的網絡。該網絡以原始視頻作為輸入，輸出的潛在表示在時間和空間上都經過了壓縮。Sora 正是在這個壓縮後的潛在空間中進行訓練，並在該空間內生成視頻。
此外，OpenAI 還訓練了一個解碼器模型，能夠將這些潛在表徵還原為像素級的視頻圖像。

通過對壓縮後的視頻輸入進行處理，研究人員能夠提取出一系列的時空 patchs，這些 patchs 在模型中扮演着類似於 Transformer Tokens 的角色。

採用基於 patchs 的表現形式，Sora 能夠適應不同分辨率、持續時間及寬高比的視頻和圖像，在生成新視頻內容時，可以通過將這些隨機初始化的 patchs 按照需要的大小排列成網格，來控制最終視頻的大小和形式。

https://s3.ifanr.com/wp-content/uploads/2024/02/3.png!720

圖片來源：s3.ifanr.com

儘管上述原理聽起來頗為複雜，但實際上 OpenAI 所用到的這項新技術——視覺塊嵌入代碼（簡稱視覺塊）——就好比是將一堆雜亂無章的積木整理好放入一個小盒子中。如此一來，即便面對眾多積木，只要找到了這個小盒子就能輕鬆找到所需積木。
由於視頻數據被轉化為了一個個小方塊的形式，當 OpenAI 向 Sora 提供一個新的視頻任務時，他們首先會從該視頻中提取出一些包含時間和空間信息的小方塊。隨後將這些小方塊交給 Sora 讓其根據這些信息生成新的視頻。

這樣就可以像拼拼圖一樣，把視頻重新組合起來。這樣做的好處是，計算機可以更快地學習和處理各種不同類型的圖片和視頻。

隨着 Sora 的訓練越來越深入，OpenAI 的研究人員還發現隨着訓練計算量的增加，樣本質量得到了顯著提高。OpenAI 發現直接在數據的原始尺寸上進行訓練具有諸多優勢：

Sora 訓練時沒有對素材進行裁切，使得 Sora 能夠直接按照不同設備的原生寬高比創建內容。
在視頻的原生寬高比上進行訓練，能夠顯著提升視頻的構圖與佈局質量。

https://s3.ifanr.com/wp-content/uploads/2024/02/4-6.jpg!720

圖片來源：s3.ifanr.com

此外，Sora 還具有以下特性：

訓練文本到視頻生成系統需要大量帶有文字標題的視頻。OpenAI 將在 DALL·E 3 中引入的重新標註技術應用到視頻上。

類似於 DALL·E 3，OpenAI 利用 GPT 將用户的簡短提示轉換成更長的詳細説明，然後發送給視頻模型，從而使得 Sora 能夠生成高質量的視頻。

除了可以從文字轉化而來，Sora 還能接受圖片或已有視頻的輸入。這項功能讓 Sora 能夠完成各種圖片和視頻編輯任務，比如製作無縫循環視頻、給靜態圖片添加動畫效果、延長視頻的播放時間等。

形成「SORA」字樣的逼真雲朵圖像。

https://s3.ifanr.com/wp-content/uploads/2024/02/6-2.png!720

圖片來源：s3.ifanr.com

https://s3.ifanr.com/wp-content/uploads/2024/02/642-1.gif

圖片來源：s3.ifanr.com

在一個裝飾華麗的歷史大廳裏，一道巨大的海浪正準備衝擊而來。兩位衝浪者抓住機會，巧妙地駕馭着海浪。

https://s3.ifanr.com/wp-content/uploads/2024/02/7-1.png!720

圖片來源：s3.ifanr.com

https://s3.ifanr.com/wp-content/uploads/2024/02/11-1.gif

圖片來源：s3.ifanr.com

無需任何預先示例，Sora 就能改變視頻中的風格和環境。甚至兩個風格迥異的視頻也能平滑連接起來。

https://s3.ifanr.com/wp-content/uploads/2024/02/9-3.jpg!720

圖片來源：s3.ifanr.com

Sora 還能文生圖，研究團隊通過在一個時間範圍僅為一幀的空間網格里排列高斯噪聲塊來創造出各種尺寸的圖像，最大分辨率達到了 2048×2048。

https://s3.ifanr.com/wp-content/uploads/2024/02/10-1.png!720

圖片來源：s3.ifanr.com

實在的 OpenAI 也坦率地承認了 Sora 當前存在的侷限問題，比如它無法模擬複雜場景的物理效應，以及理解某些特定因果關係。舉例來説，它無法精確模擬像玻璃破碎這樣的基本物理互動。

https://s3.ifanr.com/wp-content/uploads/2024/02/10-1.gif

圖片來源：s3.ifanr.com

▲ 相反方向的跑步

不過 OpenAI 堅信，Sora 目前的能力表明，持續擴展視頻模型是朝着開發能夠模擬物理和數字世界及其內部的物體、動物和人類的有能力的模擬器的一條充滿希望的途徑。

世界模型，AI 的下一個方向？

OpenAI 發現，在大規模訓練下，Sora 展示出了一系列引人注目的湧現能力，能夠在一定程度上模擬真實世界中的人、動物和環境。
這些能力並非基於對三維空間或物體的特定預設，而是由大規模數據驅動產生的。

三維空間的連貫性

Sora 能生成帶有動態視角變化的視頻。當攝像機位置和角度變動時，視頻中的人物和場景元素能夠在三維空間連貫移動。
遠距離連續性與物體持久性

即使人物、動物或物體被遮擋或移出畫面，Sora 也能保持長時間視頻的連續性。同樣，它能在同一視頻樣本中多次展示同一角色，並確保外觀一致。
數字世界的模擬

Sora 還能模擬數字化過程，如視頻遊戲，只需提及「Minecraft」等字樣，就能激發其相關能力。

OpenAI 將 Sora 視為「能夠理解和模擬現實世界的模型的基礎」，相信其能力「將是實現 AGI 的重要里程碑」。

對於 Sora 的到來，英偉達高級科學家 Jim Fan 表示：

引用如果你認為 OpenAI 的 Sora 就像 DALL·E 那樣，是一個用於創意實驗的工具，那你可能需要重新考慮了。

Sora 實際上是一款基於數據的物理模擬引擎，它能夠模擬出真實或虛構的世界。這款模擬器通過去噪和梯度計算，學會了複雜的圖像渲染、「直觀」的物理行為、長遠規劃能力以及語義層面的理解。

而這種模型能力的基礎正是世界通用模型，這是一種人工智能系統，它的目標是建立一個可以更新狀態的神經網絡模塊，用以記憶和建模環境。

這種模型能夠根據當前的觀測（如圖像、狀態等）和即將採取的動作，預測下一個可能的觀測。它通過學習世界的規律和常識，模擬環境中可能的未來事件。

https://s3.ifanr.com/wp-content/uploads/2024/02/13-2.png!720

圖片來源：s3.ifanr.com

實際上，世界模型並不是什麼新鮮的概念，早在去年 12 月，AI 視頻生成的領頭羊 Runway 就官宣下場打造通用世界模型，目的是創建一種與現有的 LLM 不同，並且能夠更真實模擬現實世界的人工智能系統。
具體來説，世界模型的核心思想是通過記憶歷史經驗來學習世界的運作方式，進而預測未來可能發生的事件。例如，從一段物體下落的錄像中，模型可以根據當前的畫面預測下一幀的畫面，從而學習到物體運動的物理規律。

圖靈獎得主 Yann LeCun 也曾提出過類似的概念，並批評了基於概率生成自迴歸的大模型，如 GPT，認為這類模型無法破解幻覺難題。LeCun 和他的團隊甚至預言，GPT 這類模型在未來五年內可能會被淘汰。

世界模型可以被看作是人工智能領域中，試圖創建更接近人類智能水平 AI 的一個研究方向。通過模擬和學習真實世界的環境和事件，世界模型有潛力推動 AI 向更高層次的模擬和預測能力發展。

2 月份的時候，知名風險投資公司 a16z 的合夥人 Justine Moore 深入分析了 AI 視頻生成領域的現狀。在生成式 AI 逐漸步入大眾視野的兩年間，AI 視頻生成領域迎來了百花齊放，百家爭鳴的繁榮景象。

https://s3.ifanr.com/wp-content/uploads/2024/02/14-2.png!720

圖片來源：s3.ifanr.com

隨着 OpenAI Sora 的加入，AI 視頻生成領域將掀起滔天巨浪，現有的主流平台如 Runway、Pika 和 Stable Video Diffusion 等都可能會受到波及。

同時，獨立創作者的遊戲規則將會徹底改變，任何人只要有創意和想法，就可以使用 Sora 來生成自己的視頻內容。創作門檻的降低，也意味着獨立創作者將會迎來黃金時代。

正如《三體》中所説，「主不在乎」，無論目前的競爭態勢如何，AI 視頻生成領域都可能會被新的技術和創新所顛覆。而 Sora 的入局僅僅只是個開始，遠不是終點。

資料來源：愛範兒（ifanr）

標籤: Sora OpenAI

揭秘最強視頻生成模型 Sora，OpenAI 是怎麼實現 1 分鐘一鏡到底的？

如果喜歡我們的文章，請即分享到︰