從今往後,每個人的手機裏都有一個「梵高」


製作一集像這樣的動畫,你覺得需要多久?
在傳統動漫行業裏,動畫製作往往是費時最多的一個環節,動畫師們要根據分鏡腳本和美術設計,製作各個鏡頭的動畫效果。

從設計角色到描繪場景,再製成動畫,一個製作團隊往往要花上幾個月甚至一年的時間。

但在最近,這條行業定律正在被 AI 工具重新改寫。


你現在看到的這部動畫短片包含了 120 個視覺效果鏡頭,總時長為 7 分鐘,而其製作團隊 Corridor 在動畫製作上只花了幾個小時。

效率的秘密就藏在他們用的工具—— Stable Diffusion 之中。

創造力被再一次釋放

眾所周知,動畫裏的每一個運動鏡頭都是由畫師們逐幀畫出的連續運動圖畫拼湊而成,每集動畫的背後幾乎都是由成千上萬張畫稿堆積而成。


用人手逐幀繪製動畫對 Corridor 來説幾乎是不可能完成的任務,於是他們想到了另一種制畫思路:攝像機拍攝畫面本質上也是一幀幀的照片,如果將其逐幀轉化為動畫風格再拼接在一起,不就是動畫了嗎?

要批量地把照片轉化成動漫圖畫,Corridor 首先想到的是目前最為流行的 AI 繪圖工具:Stable Diffusion。


與 Dall-E 2、Midjourney 等 AI 繪圖工具相比,Stable Diffusion 的一大優勢在於它是開源項目,用户可以在本地配製出最合適的數據庫,讓 AI 定向學習畫畫風格,然後就能批量生出該風格的圖片。

根據提前構想的設定,Corridor 讓 Stable Diffusion 學習了大量《吸血鬼日記》的圖片,以及兩位主演的各個角度照片,使得讓轉化出來的動畫圖片儘可能準確,並且風格趨於統一。


待 Stable Diffusion 將整段影片轉化成動畫風格後,剔除掉一些不穩定的畫面,再加上消除閃爍處理,最後用虛擬相機拍攝的背景替換上綠幕,原本需要十幾個畫師畫幾個星期的動畫就製作完成。

看到這,你是不是也想發揮一下想象力,自己動手拍攝一條動畫短片、或者把自己 P 成各種幻想英雄的模樣?

雖然 Stable Diffusion 有着高可控性等優點,但要想駕馭它,首先你需要在服務器端或本地端一個強大的計算環境供它運行。

換句話説,如果你空有想象力,而沒有強大的自然語言學習和處理能力,以及 AI 算力作為支持,照樣不能用 Stable Diffusion 創作。

那麼,有沒有一種方式,能讓普通人也能輕鬆自己畫出一個獨一無二的頭像呢?

還真有,而且只要「有手機就行」。


在 MWC 大會上,高通首次演示了在 Android 手機上本地運行的 Stable Diffusion,還展示了多張在手機端側生成的 AI 圖片,效果看起來還挺不錯,且整個過程只需要不到 15 秒。

Stable Diffusion 的參數超過 10 億,普通的電腦跑起來都很吃力,高通是怎麼把如此龐大的模型「塞」進手機裏,並讓它在手機的 SoC 上也能順利運行呢?

為了「把大象放進冰箱」,高通的工程師首先對大象進行優化。


在這裏,首先要提一下第二代驍龍 8 移動平台在 AI 方面的一項重大提升,自然語言處理(NLP)。
自然語言處理是 AI 應用的全新領域之一,為了儘可能快速地理解和分解人類語言,高通顯著提升了 Hexagon 處理器並增加硬件加速,能夠更加快速高效地運行 Transformer 網絡,並通過微切片推理降低功耗,使第二代驍龍 8 在自然語言處理用例上顯示出獨特的優勢。

為了能夠讓 Stable Diffusion 實現在終端側運行,高通工程師們選擇從 Hugging Face 的 FP32 1-5 版本開源模型入手,使用高通 AI 模型增效工具包(AIMET)對其進行訓練後量化,在不犧牲模型精度的情況下,把原本的 FP32 模型壓縮為計算效率更高的 INT8 格式。

通過高通所推出的統一 AI 軟件解決方案高通 AI 軟件棧,高通能夠在不損失模型精度的情況下量化精簡 AI 模型,大幅提高 AI 推理性能,還能降低功耗,使大型 AI 模型能夠更加適應手機等終端側低功耗計算環境,讓 AI 模型的終端側擴展變得更加簡單。


通過軟件和硬件全棧優化,Stable Diffusion 最終得以在集成了 Hexagon 處理器的第二代驍龍 8 移動平台上運行,在 15 秒內執行 20 步推理,生成一張 512×512 像素的圖像,這樣的速度已經足以和雲端計算的時延相媲美。

也就是説,雲端大型生成式 AI 模型已經邁出了終端側應用擴展的第一步。

雖然你還不能像 Corridor 那樣用 Stable Diffusion 拍大片,但是用它來給自己畫頭像、拍虛擬寫真已經綽綽有餘。無論你想要莫奈、梵高還是鳥山明畫風的自畫像,直接在手機上輸入指令,就能一鍵生成獨一無二的 AI 作品。

未來,或許還將有數百億參數規模的 AI 模型能夠得以在終端側運行,你手機上的 AI 助手智能水平將會有質的飛躍。生成式 AI 模型終端側部署所帶來的可能性超乎想象。

水到渠成的技術爆發

提起 AI 計算,很多人第一時間想到的可能是大型雲端服務器,AI 似乎離我們的生活很遠。

但實際上,你每一次解鎖手機、喚醒語音助手、甚至隨手按下快門,都是一次與 AI 計算的親密接觸。

由於在包括手機在內的終端側進行 AI 處理在可靠性、延時、隱私等方面有着諸多優勢,越來越多的 AI 雲端大模型開始轉向終端側上運行。


如今,AI 計算已經伴隨終端部署滲透進了我們生活的方方面面,在智能手機、平板電腦、XR 眼鏡甚至汽車等終端產品上你都能輕易地找到 AI 的身影。這是高通一直在打造的智能網聯邊緣願景,為此高通已經默默努力了十餘年。

將 AI 從雲帶到終端,可以一次性解決用户兩個痛點需求:一方面,終端處理的數據可以保留在終端設備上,用户個人數據隱私得到妥善保護。另一方面,終端設備可以及時進行計算處理,為用户提供低延時、可靠的處理結果。

高通此次在 Android 手機上率先部署 Stable Diffusion,不僅給用户提供了隨時隨地進行 AI 創作的可能性,也讓未來的圖像編輯充滿了想象力。

Stable Diffusion 模型編碼了大量語言和視覺知識,通過對模型進行調整,可以為圖像編輯、圖像修復、風格轉換和超分辨率等方面帶來切實的影響。

試想一下,未來你可以脱離互聯網拍攝出迪斯尼風格、日漫風格的照片或影片,並且一切的圖像計算都僅在手機中進行,既有趣好玩又能守護隱私安全。


而在高通的技術規劃裏,這還只是一個開始。
此前,高通發佈了一個名為「高通 AI 軟件棧」的解決方案,簡單來説就是隻需要開發一次模型,就能在所有不同的終端上進行擴展。

高通在 Stable Diffusion 上取得的研究突破和技術優化未來都會融入到高通 AI 軟件棧中,以後只需要在此基礎上對它進行擴展,就能打造出適合 XR 眼鏡、汽車等平台的不同模型,這也被高通稱之為「統一的技術路線圖」。

通過這樣的產品開發路線,高通可以把智能手機終端上領先的自然語言處理、面部識別等 AI 技術集成到 XR 眼鏡、PC、物聯網、汽車等產品之中,最終為用户創造新的智能體驗。

如此高靈活性、高效率的開發模式與高通 AI 引擎密不可分。


高通 AI 引擎包含圖形處理單元、CPU、以及最為關鍵的 Hexagon 處理器。

其中 Hexagon 處理器由標量、向量和張量處理器組成,三個加速器使用統一的共享內存,高通將張量加速器的計算性能提升了一倍,同時共享內存的容量也提升了一倍,使得新一代高通 AI 引擎相比前代在能效比上提升了 70%。

高通 AI 引擎可以靈活地進行硬件拓展,在移動平台上通常會配置一個 Hexagon 處理器使用;在面向汽車、雲和邊緣計算平台時,則可以使用多個 Hexagon 處理器實例來提高算力。

結合領先對手的架構優勢和算力表現,高通可以説用高通 AI 引擎構成了打通智能手機、物聯網、XR 眼鏡、汽車等業務的核心。

根據高通的設想,AI 計算接下來會繼續朝着完全的分佈式的方向繼續發展,即 AI 推理會從雲端大量轉移到終端側。

例如手機會學習用户的口音,提高語音的準確率;汽車會學習不同的路況,提高對障礙的識別率等,這些都是 AI 在終端普及的應用案例。


去年 12 月,高通攜手新晉奧斯卡影后楊紫瓊描繪了這樣一副萬物智能互聯的未來景象:

在高通 AI 引擎的驅動下,智能手機正在變得更聰明。它掌握了專業影像技巧,讓你隨手就能拍出 8K 電影級大場面;它還擁有了自然語言處理能力,能像助手一樣,主動為你提供實時翻譯等定製化服務。


高通 AI 引擎將使汽車進化成可靠的司機。在未來,汽車能感知你的到來,按你的習慣做出自適應調整;強大的算力帶來了駕駛輔助、情境安全感知和流媒體娛樂等豐富功能,還可以預見前方路況,改善駕駛體驗,讓你既舒適又安全的抵達目的地。

而 XR 等可穿戴設備,將為你帶來更具沉浸感的體驗和更直觀的交互,讓你盡情遊走在虛擬與現實世界。

總得來説,當下的我們身處於萬千可能之中,圍繞在我們身邊的 AI 創新正在重塑世界,悄然改變着我們的工作、生活和溝通方式。

目前,智能手機是 AI 技術最佳應用平台,但 AI 技術在智能手機上的普及只是第一步,未來 AI 技術會變得無處不在,人們的生產力、創作力也將得到更進一步的釋放,而高通早已為此做好了準備。


資料來源:愛範兒(ifanr)

如果喜歡我們的文章,請即分享到︰