如何建造一個虛擬帝國?感官世界與人機交互需完美配合

雷鋒網(搜索“雷鋒網”公眾號關注)按:本文來自公號“董老師在矽谷”,作者Steve Gu,杜克大學計算機博士,之前在蘋果擔任算法工程師,Google X擔任技術主管和未來技術評估,發表專利包括iPhone的指紋識別以及在下一代蘋果產品以及Google Glass的人機交互方式,目前從事AI相關領域創業。



前言

什麼是真實?在電影黑客帝國中,電腦接管了人類的視覺、聽覺、嗅覺、觸覺等訊號,讓人們從出生開始就生活在虛擬世界中卻渾然不知。這雖然是科幻片,但令人浮想聯翩。

2014年,Facebook 20億美金收購了Oculus Rift。同年Google I/O,Google發佈了Cardboard,一款利用廉價紙板和手機屏幕就可以實現虛擬現實的DIY設備。2015年初,Microsoft公開了一款介於虛擬與增強現實之間的頭戴設備HoloLens,現場演示十分驚豔。此外各大公司與遊戲廠商都紛紛在虛擬現實(Virtual Reality,簡稱VR)領域佈局,眾多初創公司也在摩拳擦掌,頓時,VR成為炙手可熱的話題。雖然黑客帝國中描述的故事不太可能在現實發生,但VR以及VR所帶來的全新體驗已然走進了尋常百姓家,為人津津樂道。

VR最偉大的地方在於其構造簡單,成本低廉,幾乎每個人都可以自己動手製作。比如Google發佈的Cardboard,利用手機屏幕作為顯示器,利用普通紙板作為機身,利用透鏡聚焦圖像,利用一個小磁鐵作為控制開關,利用手機上的傳感器(比如陀螺儀,加速度計)作為頭部控制,利用手機上的APP來顯示不同的內容和場景製作。整套成本不超過1美元!


(圖1)人眼的Field of View (FoV, 視場)通常可以達到180度。而普通相機的視角最多隻能到達150度。寬闊的視場更能讓人具有身臨其境的代入感。圖中所示水平視場約135度,垂直視場約60度。

然而,逼真的VR效果仍然亟待很多最新科技來幫助實現。懷着好奇心,我們來探討VR背後的黑科技。接下來主要從感官世界(視覺,聽覺,嗅覺,觸覺),以及人機交互的角度討論如何建造黑客帝國,實現身臨其境的體驗。同時分析黑科技背後的產業趨勢和機遇。



感官世界

目前大部分的VR設備主要側重在重構視覺與聽覺,然而這僅僅是虛擬現實技術中的冰山一角。想象你住在北京的衚衕裏,卻可以戴着VR頭盔遊覽意大利佛羅倫薩街角的一家水果店。你看到水果店周圍的古樸建築,水果店主人向顧客微笑,並不寬闊的街道上車水馬龍人來人往,街旁小販快樂的叫賣聲傳進你的耳朵,這時你嗅到了新鮮水果的清香,於是你伸出手,竟可以觸摸到水果,感覺這般真實。不僅如此,圖象,聲音,氣味,紋理的感覺,都隨着你的移動而變化,彷彿親臨佛羅倫薩。

最近看到一些嘗試模擬多種感官的VR設備。除基本的視聽功能以外,這些設備可以傳氣味、風、熱、水霧以及震動。此類設備的用户體驗在目前仍然有待提高,技術上並不完善。然而在學術界,相關的研究已經持續了好幾十年。下面我們來細數VR背後的黑科技。


(圖2)通過分屏顯示左右眼不同內容獲得圖像的縱深感。系統參數包括視場大小,屏幕分辨率,透鏡焦距,雙眼間距,眼睛到透鏡距離等。一般來説,視場越寬,視覺代入感越強。但是過寬的視場會造成圖像扭曲以及像素被放大。所以需要綜合考慮系統設計。

視覺

一般認為人的大腦三分之二都用於視覺相關的處理,那麼VR首先要解決的就是如何逼真地呈現圖景來欺騙大腦。目前的主要的解決方案是通過融合左眼和右眼的圖像來獲得場景的縱深感。其原理主要是通過將三維場景分別投影到人的左、右兩眼,形成一定的視差,再通過人的大腦自動還原場景的三維信息。這裏涉及幾個主要參數:Field of View (視場)決定了一次能呈現多少場景,又分為垂直視場和水平視場。通常水平視場越寬越好(比如接近180度),垂直視場在90度左右。

屏幕分辨率則決定了細節的逼真度。所謂視網膜屏幕,就是説屏幕像素相對於觀看距離來説是如此之高,以至於人的肉眼無法分辨曲線是連續的還是像素化的。高像素對於逼真的VR體驗至關重要。值得注意的是,視場和屏幕分辨率通常成反比關係。寬視場可以通過透鏡的設計來實現。然而過寬的視場會導致場景的邊緣扭曲,同時像素被放大。設計上通常要平衡這兩點。延遲則決定了系統響應速度。一般來説24幀每秒的幀速要求系統延遲小於50毫秒,甚至更多。

另外還有一些物理參數比如雙眼間距,透鏡的焦距,眼睛到透鏡的距離等,需要綜合考慮。對於虛擬場景的重現,主要是通過計算機圖形學對合成物體作逼真的渲染,然後分別投影到頭盔佩戴者的左右眼來實現。而對於真實場景的重現來説,側重於如何採集現場畫面,並且完整地記錄下場景的幾何信息。這個可以通過體感相機(比如Microsoft Kinect)或者相機陣列進行。比如説Google今年推出的Jump就採用了16台GoPro來製作虛擬場景。

聽覺

聲音配合畫面才能淋漓盡致地展現現場效果。最簡單的方法就是直接從手機播放聲音。

然而一般的聲音錄製方法並不能還原完整的環境三維信息。而三維聲音,也稱為虛擬聲(virtual acoustics)、雙耳音頻(binaural audio),則利用間隔一個頭部寬度的兩個麥克風同時錄製現場聲音。該方法可以完整地保存聲音源到雙耳的信號幅度以及相位的差別(如圖3所示),讓聽眾彷彿置身現場一般。筆者曾試用過這套系統,音質極佳,令人震撼。


(圖3)利用間隔一個頭部距離的一對麥克風可以忠實地記錄從聲音源到雙耳的傳遞過程

頗有意思的是,麥克風的外圍竟有人耳的造型以及由類似皮膚的材料構成,這樣可以最大限度地保存外部聲音導入人耳的整個過程。更有甚者(如圖4所示),有人構建了三維聲音陣列,可以將360度全景聲音全部錄入,然後通過頭部的轉動選擇性地播放出來。

虛擬聲的最佳應用是專門為某個佩戴者量身定製聲音,這樣可以最大限度地高保真地還原音樂的現場感受。對於一般使用者來説,因為個體的差異(比如頭部寬度,耳朵形狀等),虛擬聲的實際效果略有不同,難以達到最佳播放狀態。需要根據特定場景通過電腦合成聲音。理論上,如果洞悉了三維場景以及材料性質,計算機就可以模擬各類事件發生的聲音並將它合成在頭盔或VR盒子裏播放。聲音合成的過程中基於物體間的距離,頭部的朝向等來模擬真實環境播放出的聲音。


(圖4)左圖為3Dio公司的三維音頻輸入設備 右圖進一步將8台麥克風做成360度陣列用以VR展示

嗅覺

如何讓VR盒子帶來“暗香浮動月黃昏”的感受?嗅覺雖然並不是VR必須的輸入信號,但能夠極大程度豐富VR的體驗。將嗅覺嵌入到影片裏的嘗試可以追溯到半個多世紀前(比如Smell-o-Vision)。而通過電子調控方式實現氣味合成也已經有好幾十年曆史,比較著名的比如iSmell公司。

簡單的思路是這樣子的:合成氣味的方式通常是由一堆塞滿了香料的小盒子組成,也被稱作氣味工廠。每一個小盒子可以單獨地被電阻絲加熱並散發出對應的氣味。同時加熱多個小盒子就可以將不同的氣味混在一起(如圖5)。

氣味合成這項技術距離實際應用還有一段距離,主要難點在於如何精確地採集、分析、以及合成環境中的任意氣味。簡單的實現,比如釋放焰火、花香、雨露等一些基本環境味道,早已經應用在5D、7D電影中。而複雜的合成,比如巴黎某商店特有的氣味,目前還難以做到。

其中,還牽涉到需要經常更換氣味盒子的問題,日常使用並不方便。筆者介紹嗅覺在VR中的實踐只為拋磚引玉。或許在不久的未來會有更加實用地調配和模擬氣味的方法可供頭戴設備使用。


(圖5)將氣味香料放在不同的小盒子裏通過單獨加熱來釋放和混合

觸覺

觸覺(haptics)可以將虛擬的對象實物化,不僅看得見,還能“摸得着”。如何模擬不同物體的觸感是一個非常熱門的研究課題。各種模擬觸感的方法也層出不窮。

最簡單的觸感可以通過不同頻率的器件震動來實現,條件是設備與皮膚相接觸,通過縱向和橫向的特定頻率與持續的振動來模擬各種材料以及特殊條件之下的觸感。比如説,手機振動就是一種基本的觸感激發方式。再比如最新款的蘋果筆記本配備有震盪反饋的觸控板,可以根據手指壓力的大小自動調整電流來控制振盪頻率以及幅度。更為複雜地,可以根據屏幕顯示的內容實時地調整震盪波形來實現不同材質觸感的反饋。類似的原理也可以在VR中實現,比如將觸感裝置嵌入到遊戲手柄內。這樣就可以根據畫面以及手勢動作來模擬各類物體不同的觸摸感覺。

除了手柄以外,甚至可以隔空體驗觸感。比如UltraHaptics,通過聚焦超聲波到人的皮膚來實現“隔空打耳光”的功能。其原理是通過超聲波相位整列聚焦聲音到空間中的某一個點形成振動,示意圖見圖6左。再比如迪士尼的Aireal,可以通過精確地壓縮和釋放空氣產生空氣漩渦(vortex ring)來“打擊”到皮膚表面。雖然實現隔空振動的原理不同,兩者都使用了體感相機來捕捉手的位置並作定點的“打擊”。


(圖6)左:Ultrahaptics,通過相位陣列聚焦超聲波到空間任意點產生振動,並可以調整頻率和節奏產生不同的觸感。右:迪士尼的Aireal項目,通過遠距離發送空氣漩渦波撞擊皮膚產生各種觸感。兩個項目都使用了體感相機(Kinect)來識別定位手的位置。前者通過相位調控電子地調整波束方向,後者通過馬達機械調整空氣漩渦的發送朝向。

最新研究中,日本科學家提出了利用激光鐳射來觸發空氣中定點的等離子體,既可以用來作全息顯示,又可以通過激光鐳射的激發產生觸感。


(圖7)在SIGGRAPH 2015的展示中,一組日本科學家演示瞭如何利用激光鐳射在空氣中激發等離子體來作全息顯示以及產生觸感。



人機交互

聊完豐富多彩的感官世界,我們來看看VR中的控制部分。一般的VR頭盔擁有豐富的傳感器比如前置相機、陀螺儀、加速度計、感光器、近距探測器。也可以添加諸如心率監控、眼球跟蹤等傳感裝置。傳感器的這類應用賦予了VR設備許多新穎的功能以及交互體驗。

頭部控制

最常用的莫過於頭部控制,主要利用陀螺儀來檢測頭部的二維旋轉角度,並對屏幕的顯示內容作相應調整。絕大部分的VR盒子都能實現這個基本功能。

手勢控制

手勢控制可以大大增強互動性與娛樂性,對於遊戲玩家尤其重要。手勢控制主要分成兩類:第一類是通過穿戴類似wii控制器的手套或手柄來實現手勢的識別;第二類則直接利用頭盔上的外置相機通過計算機視覺的方法來識別和跟蹤手勢。

對於後者,往往需要類似Kinect這樣的深度相機才能準確地識別手勢。LeapMotions,SoftKinetics等公司在VR手勢控制上已經有不少成熟的demo。一般來説,使用深度相機可以比較準確地定位手的具體位置,穩定性較好。

眼球控制

想象三維場景隨着你的眼睛轉動而改變。比如Kickstarter上的FOVE嘗試的正是使用眼球跟蹤技術來實現VR遊戲的交互。眼球跟蹤技術在VR盒子或者頭盔上並不難實現,一般需要在盒子或者頭盔內部裝載一到兩個朝向眼睛的紅外相機即可。除了基本的眼球追蹤之外,還可以識別特定的眨眼動作用來控制屏幕等。 除了遊戲控制之外,眼球跟蹤還有很多其他應用。比如可以模仿人眼的生物學特性,僅僅將圖像聚焦放在眼球關注的地方,而將圖像其餘部分動態模糊掉,讓三維影像顯示變得更加真實,同時有效地聚焦圖像,還能省電 (見圖8)。


(圖8)從左到右:頭部控制、手勢識別和控制和眼球跟蹤。它們各自作為VR的輸入方式,方便交互。

心率控制

玩得就是心跳!心跳可以反映人的當前狀態,比如興奮、恐懼、放鬆、壓力。檢測VR使用者當前的生理狀態可以動態地調整影像內容以及音效來實現一些超現實效果。比如説,當心跳較快即人處於興奮狀態時,可以動態地調高圖像播放速率來匹配人目前的運動節奏,讓運動來得更猛烈一些。也可以利用負反饋的調整讓人迅速平靜下來,幫助更好的休息或者冥想。

實現心率監測有多種方式,比如Apple Watch使用的是紅綠兩種光譜的近距探測器來監測心跳速率。心率監測器可以結合手柄置於手腕之內,或者置於頭盔之中。通常的問題是該心率探測器不能有效地和皮膚緊密貼着,因而一些運動帶來的微微移動會帶來讀數的不準。心率控制在VR目前的應用中並不多見,任然屬於比較新穎的項目。

意念控制

筆者寫這個話題是有所猶豫的,因為意念控制技術目前仍然非常原始,一般只是利用電極讀取頭部血流變化,通過機器學習的手段來匹配特定的讀數特徵變化。在此不詳述。



小結

“你選擇紅色藥丸還是藍色藥丸?”,影片黑客帝國拋出了這樣一個令人深思的問題。筆者相信,VR技術可以幫助人們更好地體驗真實的世界。技術上而言,從感官到人機交互仍然充滿很多想象空間與實際問題,亟待人們創新地去解決。相信隨着VR技術的深入發展和普及,人們的生活體驗會變得更加豐富多彩,從此不必再受時空拘束。


資料來源:雷鋒網
作者/編輯:董飛

如果喜歡我們的文章,請即分享到︰