不止步於「顯卡一哥」,NVIDIA 發佈 Perfusion「文生圖」模型學習新技術

NVIDIA 顯卡賣多了,差點讓人忽略其本身也是生成式 AI 巨頭。

近日,NVIDIA 最新發表的論文披露了一種名為 Perfusion 的「文生圖」模型的個性化學習技術。

官網顯示,Perfusion 技術是由 NVIDIA 和以色列的特拉維夫大學合作研發的。Perfusion 技術可以幫助自由創造生成更加個性化的物體,實現更生動的結果,具有更好的提示匹配性,並且不易受原始圖像背景特徵的影響。

NVIDIA 圖形研究副總裁 Aaron Lefohn 曾經將 Perfusion 技術描述為「高度緊湊的技術…… 允許用户將多個個性化元素(例如特定的泰迪熊和茶壺)組合到人工智能生成的單一視覺效果。」

在這當中,NVIDIA 用到了一種名為「密鑰鎖定」的新穎機制。


通俗一點的解釋就是,它將圖像生成模型內的注意力機制分成兩部分 : 位置部分和內容部分。位置部分決定畫什麼物體,內容部分決定物體的外觀樣式。

「密鑰機制」固定住位置部分,不讓物體隨意變化,比如特定泰迪熊的位置與所有修改後的泰迪熊一致。同時,內容部分允許物體的外觀自由變化,比如給泰迪熊憑空換一套裝扮。

此外,Perfusion 技術在文生圖的過程中,可以選擇控制物體的變化程度,可以更像原物也可以更符合用户的描述語。歷史記錄生成的幾個物體還可以組合放在同一張圖像裏。


得益於「密鑰鎖定」機制的先進性,官方宣稱由 Perfusion 技術生成的圖片質量與 Stability Diffusion v1.5 版本不分伯仲。

不過 Perfusion 技術更加個性化,具備快速學習處理新概念的能力,而無需重新訓練整個模型,這是 Stability Diffusion 所不具備的。

此外,Perfusion 技術的控制能力更強,可以方便在視覺質量和語義控制之間取得平衡,還可以組合多個新概念(比如讓模型同時生成特定泰迪熊和特定茶壺)。

總的來説,Perfusion 技術主要就是在個性化學習和控制方面做了創新,使文生圖的系統生成更容易自定義。


可能很多人不知道的是,低調的 NVIDIA 其實在生成式 AI 領域頗有建樹,在圖像超分辨、深度估計等多個生成任務上都有着開創性的貢獻。

今年 5 月份的時候,NVIDIA 創始人黃仁勳曾大膽預測:「計算機行業正在同時經歷兩個轉型——加速計算和生成式人工智能。」其補充道:「隨着公司競相將生成式 AI 應用到每一個產品、服務和業務流程中,價值一萬億美元的數字中心基礎設施將被升級到加速計算。」

生成式 AI 訓練大規模神經網絡,需要高度複雜的計算能力。GPU 通用性較強,更適合大規模並行計算,且設計及製造工藝較為成熟,這恰恰正是 NVIDIA 掌握 AI 大模型「命門」的舒適圈。

從市場佔有率上看,NVIDIA 佔據了 GPU 市場 84% 的市場份額。市場調查機構 TrendForce 集邦諮詢公佈的數據顯示,如果以 NVIDIA A100 顯卡的處理能力計算,運行 ChatGPT 將需要用到 30000 塊 NVIDIA GPU,這意味 NVIDIA 將可以賺取超過 3 億美元。

但得天獨厚的 NVIDIA 並不僅僅滿足於「淘金賣水人」,而是將自身資源的「天賦異稟」在生成模型技術發展領域釋放得淋漓盡致。


2018 年,NVIDIA 研究人員就率先提出了生成式對抗網絡 StyleGAN,這是第一個可以高質量生成人臉圖像的 GAN 模型,時隔一年後,NVIDIA 正式發佈第一個從語義佈局就可以直接生成逼真圖像的模型。
類似的「第一」還有很多,現如今,Perfusion 技術便是 NVIDIA 最新發布的生成式 AI 的成果之一。

發佈 Perfusion 技術,一方面可以繼續展示 NVIDIA 在生成式 AI 領域的技術能力,充分建立 NVIDIA 在生成式 AI 領域的領導力和影響力,另一方面也可以迴應業界和學術界的熱點需求,進而在未來集成到 NVIDIA 的產品和服務中。

值得注意的是,目前 NVIDIA 只在官網發表了相關論文,具體的代碼演示將很快推出,屆時用户文生圖的功能需求也會有更加多元化的選擇。


資料來源:愛範兒(ifanr)

如果喜歡我們的文章,請即分享到︰

標籤: NVIDIA  Perfusion