解密:智能美粧和動效自拍背後的技術

雷鋒網按:本文來自騰訊優圖,雷鋒網已獲授權。主要介紹了人臉識別系統的三大組成部分,並對手機相機能自動美顏的原因進行了深度剖析。

這是一個“看臉”的時代,一談人臉技術,大家最為熟知就是人臉識別。該技術在金融、社保、教育、安防等領域表現活躍,成為AI技術領域的明星。優圖微信公眾號之前也重點介紹過優圖人臉識別,本文主要介紹一些背後默默支持人臉識別的技術。欲了解優圖人臉識別技術可參見《深度學習在人臉識別中的應用 ——優圖祖母模型的“進化”》
一般而言,一個完整的人臉識別系統包含三大主要組成部分,即人臉檢測、人臉配准以及人臉識別。三者流水線操作:人臉檢測在圖像中找到人臉的位置,接着人臉配準在人臉上找到眼睛、鼻子、嘴巴等面部器官的位置,最後人臉識別抽取特徵與既有人臉比對計算相似度,確認人臉對應的身份。


圖1 人臉識別流程

1. 人臉配準簡介

人臉配準(Face Alignment)又稱人臉特徵點檢測與定位。人臉特徵點不同於角點或SIFT特徵點等通常意義上的圖像特徵點,人臉特徵點通常是一組由人工事先定義的點(見圖2)。根據不同應用場景,特徵點有不同的數目,例如5點,68點,82點等。


圖2 人臉特徵點檢測與定位中常用的目標檢測點

除了在人臉識別系統中起關鍵作用之外,人臉配準技術也在3D人臉建模,人臉動畫,人臉表情分析,人臉美化與虛擬化粧,人臉自拍動效等領域得到了廣泛的應用。打個小廣告,優圖人臉配準跟蹤技術性能卓越,主流手機單幀處理速度可達到3ms以內,已經在“天天p圖-動效自拍”、“手機QQ-短視頻”、“手機QQ-視頻聊天”“手機Qzone-動效相機”等應用場景落地。


圖3 人臉美化與虛擬化粧

2.人臉配準研究現狀

傳統人臉配準研究

和其他人臉技術類似,光照、頭部姿態、表情等的變化,以及遮擋都會很大程度影響人臉配準的精度。但是人臉配準也具有自身特點,首先特徵點描述了人臉的結構(輪廓和五官),人臉結構是完整穩定的,五官相對位置固定;其次,頭部姿態、表情等變化造成的特徵點位置變化明顯。傳統人臉配準研究需要一直嘗試尋找更加精準的特徵描述來表達這種既確定又變化的點的組合,再根據描述符選擇適當的優化求解方法,從而定位人臉特徵點。

最直接被採用的特徵描述符是顏色、灰度,利用膚色的不同對人臉各部分進行檢測定位。 稍複雜些可選擇各種紋理特徵描述,如基於類Haar紋理特徵和Adaboost訓練級聯分類器的人臉配準。以上特徵描述都沒有考慮特徵點之間的位置關係,因此不具備維持合理的人臉結構。主動形狀模型(Active Shape Models, ASM)和主動外觀模型(Active Appearance Model, AAM)可以同時表達紋理和形狀(shape)兩種特徵。

二者的形狀特徵都由點分佈模型(Point Distribution Model, PDM)來表達。圖4為600張人臉圖像中人臉特徵點的統計分佈圖,紅點表示各特徵點的均值。ASM的每個特徵點的紋理特徵是分別表示的,通過計算特徵點周圍鄰域紋理信息生成每個特徵點對應的響應圖(Response Map)。圖5中藍色圈定區域用於計算響應圖,紅點指示實際人臉特徵點位置。AAM使用整體人臉來描述紋理特徵,通過將人臉特徵點位置變換到標準形狀上,得到與形狀無關的人臉紋理,並基於主元分析方法對形狀無關的人臉紋理進行建模。


深度人臉配準研究

從2006年開始,深度神經網絡已經逐步在計算機視覺、語音識別和自然語言處理等多個領域取得了前所未有的成功,同樣也給人臉配準研究帶來了習習春風。學者們無需再挖空心思構建各種繁瑣複雜的人臉描述符了。目前學術界工業界比較認可的深度人臉配準方法有兩類:級聯卷積網絡人臉配準(Cascade CNN) 和多任務深度人臉配準。

如圖6所示,Cascade CNN包含三級,每級包含多個卷積網絡。第一級給出一個初始點位置估計,在此基礎上後兩級精細調整特徵點位置。多任務配准將配準與其他相關人臉屬性的訓練同時進行。與臉部特徵點相關的屬性包含頭部姿態,表情等,比如笑臉的嘴部很可能是張開的,正面臉特徵點則對稱分佈。多任務有助於提升特徵點檢測定位精度。然而不同的任務會有不同的收斂速度和難度,訓練難度加大。目前學界提供了兩種解決方案調整不同的任務的訓練進程:任務提早終止準則(task-wise early stopping criterion)和參數動態控制機制。


圖6 Cascade CNN 網絡模型

3.優圖人臉配準

不同應用場景的人臉配準

學術界人臉配準的研究日新月異,工業界產品應用對技術的要求也越來越高,且不同應用場景對人臉配準提出了不同的要求。

人臉識別業務的核心問題是人臉圖像像素之間高層語義的對齊,即人臉關鍵特徵點的定位。錯誤的特徵定位會導致提取的人臉描述特徵嚴重變形,進而導致識別性能下降。為了更好地支持人臉識別,我們加大了人臉框的變化的範圍,以減少對人臉檢測框大小的依賴。人臉特徵點我們選擇五點,既保證一定的人臉結構描述能力,又減小了配準誤差對人臉識別的影響。


圖7 人臉識別

美粧需要人臉特徵點達到超高精度定位,例如眼粧中的眼線睫毛,只有定位夠精準,才能達到自然貼合的美粧效果。為了提供精度,我們採用了級聯模型,先粗略定位人臉面部特徵,再對五官進行精細化定位。


圖8 智能美粧

人臉自拍動效應用處理移動端視頻,對配準的處理速度要求嚴格。傳統人臉配準技術不具備判定跟蹤是否成功的能力,為避免跟蹤過程中出現跟丟的現象(跟蹤到非人臉區域),必須依賴耗時較長的人臉檢測,我們的人臉配準增加了人臉判定功能,減少對人臉檢測的依賴。另外我們採用了瘦長型深度神經網絡,並應用SVD分解進行模型壓縮和算法加速,算法模型大小控制在1M,主流手機上的處理時間僅需3ms。模型大小和計算速度均為業界最高水準。


視頻1 人臉自拍特效

優圖人臉配準的更新換代

優圖實驗室不斷跟進技術發展趨勢,更新版本。優圖人臉配準技術從傳統方法遷移到深度學習方法,從最新學術研究成果到最佳工程取捨,我們經過多輪的迭代更新,做了大量的創新和嘗試。於2013年4月發佈了人臉配準1.0版本,粗略定位人臉五官,4個月後精準定位的2.0版本也成功發佈,並應用在趣味類產品中。之後的版本3.0精度大幅提高,同時在美粧產品中落地。4.0版本開始應用深度學習方法,精度得到了進一步提高,平均精度超過了人工水平。今年5月我們發佈的最新版本5.0採用深度多任務學習方法,在速度和深度網絡模型大小都得到了大幅優化,主流手機幀率超過200,模型1M,並自帶人臉判定功能。簡介中提到的人臉自拍動效應用就得到了此版本的支持。

4. 後續的研發計劃

未來我們一方面着力提升已落地應用的用户體驗,另一方面也積極探索新的應用場景。目前自拍視頻的人臉配準跟蹤效果仍存在不足。要解決此問題,提升用户體驗依賴於進一步研究如何提升人臉配準的穩定性和精準度。除本文已提到的應用以外,優圖人臉配準技術還可以應用於智能門禁系統、互聯網金融核身、直播行業等眾多領域。在新的應用領域,研究人臉配準技術如何滿足新需求是我們必將面對的另一課題。

雷鋒網注:本文由雷鋒網(搜索“雷鋒網”公眾號關注)發佈,如需轉載請聯繫原作者,並標明出處和作者,不得刪減內容。


資料來源:雷鋒網
作者/編輯:粉紅熊熊

如果喜歡我們的文章,請即分享到︰