虛擬現實的技術瓶頸
引用編者按:本文轉載自《科技導報》2016年第 15 期。原文作者曹煊,是中國科學院自動化研究所博士研究生,美國南加州大學 ICT 實驗室 Visiting RA,研究方向為裸眼三維顯示、光場的採集和顯示、計算攝像、虛擬現實、增強現實。原標題為《虛擬現實的技術瓶頸》,轉載時已獲得作者授權。
在技術變革和資本力量的雙重推動下,虛擬現實(Virtual Reality)技術在近幾年發展迅速,初步達到了可商業化的程度。虛擬現實和 3D 電影院都是通過雙目視差實現三維成像,但虛擬現實提供了 3D 電影院所不具備的移動視差並提供了強烈的沉浸感。
現階段虛擬現實技術仍面臨着一系列技術難題,其中眩暈和人眼疲勞尤其明顯,是虛擬現實的技術瓶頸。本文從介紹三維視覺感知開始,分析了虛擬現實造成眩暈和人眼疲勞的根本原因。同時給出了解決這一技術瓶頸的答案——動態光場,並從光場採集和顯示兩方面分析了多種光場技術的優缺點。
本文最後列舉了增強現實(Augmented Reality)技術的三種實現形式,並從人與人交互和通信的角度對比了虛擬現實與增強現實在未來的發展趨勢。
1、虛擬現實一直存在
近幾年,虛擬現實(Virtual Reality,VR)技術發展迅猛,商業化、市場化和產品化的趨勢日益明顯。然而,早在 50 多年前,科學家們就已經提出了虛擬現實的技術構想。美國計算機圖形學之父 Ivan Sutherland 在 1968 年開發了第一個圖形可視化的 “虛擬現實” 設備,但在當時還不叫 “虛擬現實”,而是被稱為“頭戴顯示” 或“頭盔顯示”(Head-Mounted Display,HMD)。就技術層面而言,現階段的虛擬現實眼鏡或者虛擬現實頭盔仍可劃分為 HMD 的範疇。
2013 年穀歌眼鏡(Google Glass)面市,“虛擬現實” 這個術語開始進入公眾視野。但當時的Google眼鏡沒有雙目立體視覺,所以稱為 Google Glass 而不是 Google Glasses。儘管Google眼鏡的整體顯示效果低於同一時期的手機和電腦,但其新穎的成像方式引起了人們的極大關注。這背後揭示了人們對於已經沿用了二十多年的傳統平面顯示方式的審美疲勞和對新穎顯示方式的強烈期待。
總體來説,現階段虛擬現實有三大顯著特點(簡稱為 3I):
- 沉浸感(Immersion)
- 交互性(Interaction)
- 構想性(Imagination)
視覺是人類最敏感,捕獲信息量最大的 “傳感器”。VR 眼鏡隔絕了人眼接收外部視覺信息的通道,取而代之的是虛擬的視覺內容。當人眼受到來自 VR 眼鏡的視覺刺激時,大腦會自動 “繪製” 出虛擬的環境,從而使人沉浸在了一個全新的環境中。
相比於傳統的顯示方式,交互性並不是 VR 所特有的。電視可以藉助遙控器交互,電腦可以藉助鼠標鍵盤來輸入。目前虛擬現實還沒有統一的輸入設備,交互方式可以根據虛擬場景來設置,更具靈活性和多樣性。例如在士兵培訓中,VR 交互方式可以是一把槍;在模擬外科手術中,交互方式可以是手術刀。
人們藉助 VR 可以以第一人稱視角去探索未知的環境,包括一些人類難以到達的環境,例如深海、外太空;甚至包括一些人類無法到達的或抽象的環境,例如細胞、黑洞、一個數學模型。VR 技術給了我們一個可以去徜徉在任何環境中的機會。在這樣一個從未到達的環境中,人類的視野和想象力得到了極大的延展。
既然虛擬現實早就存在,但為什麼直到現在才爆發呢?一方面是因為虛擬現實作為一種全新的顯示方式,正好滿足了人們對於信息可視化變革的期待。另一方面也是因為技術變革和資本力量的共同驅動。
2、VR 背後的支撐
在此之前,大規模普及虛擬現實還只是一個美麗的夢,因為受到計算性能、工業集成化、可視化技術發展的限制。而近 10 年來,相關的技術得到了迅猛的發展,為 VR 的商業化和產品化奠定了技術基礎。除此之外,有一股不可忽視的力量在推動 VR 加速發展,那就是大資本。
(1)VR 背後的技術變革
顯示技術的發展可以劃分為 4 個階段:平面 2D> 曲面 2.5D> 頭戴顯示 3D> 裸眼全息。
人類生存的世界是三維的,但自從相機和顯示器誕生以來,一直以二維平面的方式來記錄和顯示這個三維世界,這是一種降維後的表現方式。從早期的陰極射線管顯示器(CRT)到輕薄的液晶顯示器(LCD),從黑白顯示到彩色顯示,每一次技術變革都沒有突破顯示維度的限制。全世界的科學家們都在努力嘗試打破這一困境,試圖還原一個真實的 3D 世界。
在虛擬現實技術出現在公眾視野之前,有另外兩種突破二維顯示的技術出現在了消費市場,包括曲面 2.5D 顯示和裸眼 3D 顯示,但這兩種技術都未能獲得消費者的 “芳心”。
- 曲面 2.5D 顯示技術並沒有帶來信息可視化在維度上的突破,人們並不能從該顯示器中感知到第三維度的信息(視覺深度感)。
- 裸眼 3D 顯示技術為觀看者帶來了視覺深度感,但目前的裸眼 3D 顯示技術還存在很多的技術難點有待突破,包括分辨率損失嚴重、觀看視角狹窄、相鄰視點跳躍等。在可預見的未來,裸眼 3D 技術還無法達到令消費者滿意的效果。
因此,上述兩種超二維顯示技術都未能調和技術可行性和市場期待之間的矛盾。在這樣的局面下,虛擬現實應運而生,它是技術可行性和市場期待的折中產物。
(2)VR 背後的資本力量
除了相關技術的變革和發展,資本力量的推動也是 VR 蓬勃發展的另一重要因素。如果説 2013 年穀歌眼鏡的推出是行業大鱷窺視頭戴顯示巨大寶藏的一隅,那麼 2014 年 Facebook 斥資 20 億美金收購 Oculus 就是巨大資本撬開虛擬現實潘多拉魔盒的開始(注:Oculus 是一家專注於虛擬現實技術的公司)。
隨着資本的進入,更多的科研力量、工程技術以及 3D 內容開發都紛紛進入了該領域。2016 年被稱為虛擬現實元年,HTC、Facebook、Sony 等國際巨頭,以及國內的部分虛擬現實公司都將自己的 VR 產品正式推向了市場。在這樣的國際格局下,國內的部分資金也開始瘋狂投向虛擬現實領域。
3、為什麼能感知到三維
我們生活的世界是一個四維空間,包括水平維度、垂直維度、縱深維度和時間維度。例如在圖書館尋找一本書需要知道書籍處於第幾排、第幾列的書架,以及處於書架的第幾層。並且還需要知道這本書是否已經借出,什麼時候會出現在該書架。
通過視覺觀察物理世界時具有即時性,一般假設光線從環境中發出到人眼接收的時間為零,因此不用考慮時間維度,用前三個維度來描述所觀察的世界。例如伸手拿杯子時,視覺系統會幫助我們判斷杯子處於手的左邊還是右邊,上邊還是下邊,前面還是後面。
在一個平面上可以很容易地感知到水平維度和垂直維度,但如何感知到第三維度——視覺深度呢?
眾所周知,雙目視差是提供視覺深度的重要途徑,但視覺深度不僅僅由雙目差來體現,單眼也能感知到深度。深度信息(depth cues)有很多種 [1],主要包括以下信息。
1)雙目視差(binocular parallax),也稱為左右視差或雙目匯聚。所觀察的物體越近,視差越大(圖 1),雙眼匯聚角度越大(圖 2);所觀察的物體越遠,視差越小,雙眼匯聚角度越小。必須依靠雙目協同工作才能感知到雙目視差。
(圖 1 雙目視差)
(圖 2 雙目匯聚)
2)移動視差(motion parallax),當觀察視點改變後,遠近不同的物體在人眼中產生的位移會不同,如圖 3 所示。經過相同的視點改變,遠處的物體在人眼中產生的位移更小,近處的物體在人眼中產生的位移更大。雙目和單目都可以感知到移動視差。
(圖 3 移動視差)
3)聚焦模糊(focus-blur),人眼的工作原理可以簡化為一個照相機。當改變相機鏡頭的焦距時,相機可以聚焦在遠近不同的平面上,從而使聚焦平面上的物體清晰成像,非聚焦平面的物體成像模糊。人眼的睫狀肌就扮演着 “相機鏡頭” 的角色。
如圖 4 所示,當睫狀肌緊繃時,人眼聚焦在近處平面;當睫狀肌舒張時,人眼聚焦在遠處平面。根據睫狀肌的屈張程度,視覺系統可以判斷出物體的相對遠近。單目即可明顯感知到聚焦模糊。
(圖 4 聚焦模糊)
除了上述 3 種主要的深度信息,大腦會根據一些視覺經驗來判斷物體遠近,例如遮擋關係、近大遠小關係;同時也會根據一些先驗知識作為輔助判斷,例如看到一個杯子,先驗知識會告訴大腦杯子不會太遠;若看到一座高山,先驗知識會告訴大腦高山在很遠的地方。
4、VR 的基本原理
虛擬現實的三維成像原理並不複雜,其基本原理和 3D 電影院一致,如圖 5 所示,都是給左右眼分別呈現不同的圖像,從而產生雙目視差。當大腦在合成左右眼的圖像時,會根據視差大小判斷出物體的遠近 [1]。
虛擬現實眼鏡不僅提供了雙目視差,還提供了 3D 電影院所不具備的移動視差信息。當坐在 3D 電影院的第一排最左邊和最右邊的位置時,所看到的 3D 內容是一樣的。但正確的 3D 成像方式應該是:坐在最左排的觀看者看見物體的左側面,坐在最右排的觀看者看見物體的右側面。例如觀看桌面上的茶杯時,左右移動頭部會看見茶杯的不同側面。
如圖 6 所示,虛擬現實眼鏡同時提供了雙目視差和移動視差,不僅左右眼圖像不同,而且當旋轉或平移頭部時看見的 3D 內容也不同。
(圖 5 3D 電影院成像原理)
圖 6 虛擬現實頭戴顯示設備 Oculus Rift(圖片來源於 Oculus 官方網站)
當前 VR 產品形態主要分為 3 種:基於手機的 VR、VR 一體機、基於 PC 機的 VR,主要特點如表 1 所示。由於技術和成本的限制,當前的 VR 產品都在價格、性能、舒適度三者之間平衡,上述 3 種形態的 VR 產品只是在不同的方面有所側重。
目前消費市場中尚未出現低價格、高性能的輕薄 VR 眼鏡。同時從表 1 中也可以看出,從低廉的到昂貴的 VR 產品都會引起眩暈和人眼疲勞。高性能的 VR 產品在眩暈的耐受時間上稍微有所延長,但仍然無法達到像智能手機一樣長時間使用。
虛擬現實根據使用場景大致可以分為座椅式、站立式,場地式。
顧名思義,座椅式 VR 限制用户位在座椅上,只能檢測到視點的姿態旋轉變換(Pitch,Yaw,Roll),而忽略視點平移變化。如圖 7 所示,Pitch 圍繞 x 軸旋轉,也叫做俯仰角,Yaw 是圍繞 y 軸旋轉,也叫偏航角,Roll 是圍繞 z 軸旋轉,也叫翻滾角。
而站立式 VR 和場地式 VR 都能同時檢測到視點的姿態旋轉變化和平移變化。
站立式 VR 允許用户在獨立的房間內(一般為 10 mx10 m 以內)自由走動,活動範圍較狹窄,不適用於模擬大範圍的場景。場地式 VR 理論上允許用户可以在無限範圍內自由走動,是真正意義上的虛擬世界。但鑑於場地有限,傳感器的工作範圍有限。實際(運用)中場地式 VR 需要萬向跑步機的支撐,將跑步機履帶的平移數據轉化為人體的移動數據。
表 2 中所列舉的交互方式是對應場景下的主要交互方式而非唯一交互方式。
目前虛擬現實還沒有標準的輸入設備。在傳統手柄的基礎上,出現了一些新穎的 VR 輸入方式。頭控是指通過頭部的運動改變指針位置,通過懸停表示確認。線控是指通過現有的連接線(例如耳機線)來實現簡單的按鍵操作。觸摸板一般位於 VR 頭盔的側面,與筆記本電腦的觸摸板實現相同的功能。根據 VR 場景,交互方式也可以是彷手型手柄,例如槍械、手術刀等。
圖 7 頭部姿態變化的三個自由度(圖片來源:Oculus Rift SDK 文檔插圖)
5、VR 的技術瓶頸
虛擬現實技術經過近幾年的快速發展,各方面性能逐步完善,但仍然面臨着一些關鍵技術有待改進和突破。主要可以概括為下列 3 個方面。
1)大範圍多目標精確實時定位。目前在已經面向市場的 VR 產品中,當屬 HTC Vive Pre 的定位精度最高,時延最低。HTC Vive Pre 的定位主要依靠 Light House 來完成。Light House 包括紅外發射裝置和紅外接收裝置。紅外發射裝置沿着水平和垂直兩個方向高速掃描特定空間,在頭盔和手柄上均布有不少於 3 個紅外接收器,且頭盔(手柄)上所有的紅外接收器之間的相對位置保持不變。當紅外激光掃過頭盔或手柄上的紅外接收器時,接收器會立即響應。根據多個紅外接收器之間的響應時間差,不僅可以計算出頭盔(手柄)的空間位置信息還能得出姿態角度信息。
目前 HTC Vive Pre 只能工作於一個獨立的空曠房間中。障礙物會阻擋紅外光的傳播。而大範圍、複雜場景中的定位技術仍需突破。多目標定位對於多人同時參與的應用場景至關重要。當前的虛擬現實系統主要為個人提供沉浸式體驗,例如單個士兵作戰訓練。當多個士兵同時參與時,彼此希望看見隊友,從而到達一種更真實的羣體作戰訓練,這不僅需要對多個目標進行定位,還需要實現多個目標的數據共享。
2)感知的延伸。視覺是人體最重要、最複雜、信息量最大的傳感器。人類大部分行為的執行都需要依賴視覺,例如日常的避障、捉取、識圖等。但視覺並不是人類的唯一的感知通道。虛擬現實所創造的模擬環境不應僅僅侷限於視覺刺激,還應包括其他的感知,例如觸覺、嗅覺等。
3)減輕眩暈和人眼疲勞。目前所有在售的 VR 產品都存在導致佩戴者眩暈和人眼疲勞的問題。其耐受時間與 VR 畫面內容有關,且因人而異,一般耐受時間為 5~20 min;對於畫面過度平緩的 VR 內容,部分人羣可以耐受數小時。
上述的技術瓶頸中,大範圍多目標精確實時定位已經取得了一定的突破,在成本允許的情況下,通過大面積的部署傳感器是可以解決這一問題的。感知的延伸還存在較大的技術難度,尤其是觸覺;但當前的 VR 應用對感知的延伸並沒有迫切的需求。相比之下,眩暈和人眼疲勞卻是一個到目前為止還沒有解決但又迫切需要解決的問題,是現階段虛擬現實的技術禁地。
為什麼會眩暈?
如第 4 節所述,虛擬現實比 3D 電影提供了更豐富的三維感知信息,更逼近於人眼觀看三維物理世界的方式。但為什麼 VR 眼鏡在佩戴一段時間後會導致眩暈和人眼疲勞呢?其原因是多樣的,主要包括如下三方面。
- 1)身已動而畫面未動。如果無法獲取 VR 眼鏡的姿態和平移信息,則無法感知到移動視差。身體移動後,觀看視點的位置和觀看角度也隨之改變,但人眼看見的 3D 畫面並沒有相應的改變。這會導致大腦在處理視覺信息和肢體運動信息時產生衝突,從而在一定程度上導致眩暈不適。
- 2)畫面已動而身未動。目前虛擬現實的應用還侷限在一個非常有限的物理空間內。當畫面快速變化時,我們身體的運動也應該與之匹配,但受到運動範圍的限制,身體並沒有產生對應幅度的運動,從而在大腦中產生了肢體運動信息和視覺信息的衝突。例如,通過虛擬現實體驗過山車時,觀看視點和角度在快速地變化,但身體卻保持不變。當 VR 畫面變化(過度)越快時,大腦產生的衝突越明顯。
上述兩種眩暈都是由視覺信息與肢體運動信息之間的衝突造成的,統稱為暈動症。產生暈動症的技術原因是多方面的。
(1)空間位置定位和姿態角度定位的精度和速度。
慣性測量裝置(inertial measurement unit,IMU)是一種微機電(MEMS)模塊,也是當前 VR 眼鏡測量角度姿態的主要技術手段。但 IMU 只能測量姿態角度,不能測量空間位移。多個 IMU 組合可以實現空間位移測量,但積累誤差大且難以消除,暫不適用於 VR 眼鏡。
另一種定位技術是基於傳統攝像頭的 SLAM(simultaneous localization and mapping)算法 [2],可以同時實現空間位置定位和姿態角度定位且適用於複雜場景,但目前 SLAM 算法在精度、速度和穩定性上都有待提高。基於雙目相機或深度相機的 SLAM 是一個有價值的潛在研究方向。
目前最實用的定位技術是 HTC Vive Pre 中應用的紅外激光定位技術,硬件成本低且同時具備高精度低時延的空間位置定位和姿態角度定位,但其應用侷限於小範圍的空曠場景中。
(2)顯示器件的刷新頻率。
目前頭戴顯示(HMD)的像源主要包括微投影儀和顯示屏兩種。其中微投影儀主要應用在增強現實(AR,Argumented Reality)中,例如 Google Glass,Hololens,Meta,Lumus,Magic Leap 等。虛擬現實主要採用小尺寸顯示屏(6 寸以下)作為像源,其中顯示屏又分為液晶顯示屏(LCD,Liquid Crystal Display)和有機自發光顯示屏(OLED,organic light-emitting diode)。
目前 LCD 和 OLED 屏幕的刷新率普遍能達到 60 Hz 以上,部分型號甚至能達到 90 Hz 以上。OLED 採用自發光成像,因此餘暉比 LCD 更小,上一幀圖像的殘影更小。
(3)圖像渲染時延。
虛擬現實所創建的模擬環境是經計算機圖形圖像學渲染生成得到。渲染的速度直接由計算機性能決定,尤其依賴於計算機中的顯卡(graphic processing unit,GPU)性能。目前高性能的 GPU 渲染一個複雜場景已能達到全高清(Full HD)90fps 以上。
VR 眼鏡的圖像刷新速度取決於上述 3 個技術指標的最低值。也即,上述 3 個環節中,任何 1 個環節速度慢都會導致圖像刷新率降低,從而出現暈動症。在前幾年,VR 設備廠商將 VR 眼鏡的眩暈歸因於 “圖像刷新太慢”。但目前最新的 VR 眼鏡在空間位置定位和姿態角度定位的速度、顯示器件的刷新頻率,圖像渲染速率 3 個指標均能達到 90 Hz,遠高於人眼時間暫留的刷新閾值(24 Hz)。
為什麼還是會眩暈呢?有人懷疑是活動範圍有限導致身體移動的幅度與畫面變化幅度不一致。萬向跑步機無限延伸了活動範圍,但眩暈的問題依然存在。由此可見,上述兩個方面是造成了眩暈的表象原因,並不是根本原因。
- 3)聚焦與視差衝突。對照第 3 節中提到的 3 種主要深度信息,當前的頭戴顯示設備只提供了前兩種,也即 “雙目視差” 和“移動視差”,而沒有提供 “聚焦模糊”。聚焦丟失(聚焦錯亂)是產生眩暈的“罪魁禍首”。
“聚焦模糊” 真的就這麼重要嗎?眾所周知,雙眼能感知物體遠近,但其實單眼也可以。當伸出手指,只用一隻眼注視手指時,前方的景物模糊了;而當注視前方景物時,手指變的模糊,這是由眼睛的睫狀肌屈張調節來實現的。眼鏡聚焦在近處時,睫狀肌收縮,近處的物體清晰而遠處的場景模糊;眼鏡聚焦在遠處時,睫狀肌舒張,遠處的場景清晰而近處的物體模糊。通過睫狀肌的屈張程度能粗略感知到物體的遠近,因此單眼也能感知到立體三維信息。
如圖 8 所示,現階段的虛擬現實頭顯設備只提供單一景深的圖片,且圖片的景深固定。這導致人眼始終聚焦在固定距離的平面上。當通過 “聚焦模糊” 感知到的深度信息與通過 “雙目視差” 感知到的深度信息不一致時,就會在大腦中產生嚴重的衝突,稱為“聚焦與視差衝突”(accommodation-convergence conflict,ACC)[3~6]。而且當大腦檢測到 ACC 時,會強迫睫狀肌調節到新的屈張水平使之與雙目視差所提供的深度信息相匹配。當睫狀肌被強迫調節後,因為聚焦錯亂,圖像會變的模糊;此時大腦會重新命令睫狀肌調節到之前的屈張水平。如此周而復始,大腦就 “燒” 了。
圖 8 現階段的虛擬現實頭顯設備只提供單一景深畫面(圖片來源:Yule)
回到之前 3D 電影眩暈的問題,當觀看者坐在第一排中間位置時,雙眼到大熒幕距離為 10 m 且保持不變。當 3D 內容為遠處的高山時,雙目視差較小,會引導人眼注視於前方几百米處。而人眼接收的光線都來自 10 m 處的大熒幕,左眼和右眼會自主地聚焦在 10 m 處的平面上以便能清晰地看見圖像。此時雙目的匯聚和睫狀肌的屈張水平不一致,從而導致了人眼不適。同理,當 3D 內容為眼前 1 m 處的一條蛇時,人眼仍然聚焦在 10 m 處的平面,從而產生類似的聚焦與視差衝突。
聚焦與視差之間的衝突比視覺信息與肢體運動信息之間的衝突更嚴重。舉個例子,反恐精英(Counter-Strike,CS)是一款風靡世界的射擊類遊戲,玩家以第一人稱視點在虛擬環境中奔跑,跳躍和射擊。當畫面變化時,玩家仍然靜坐在電腦前,並沒有實際的跑動和跳躍。此時玩家並沒有產生眩暈的感覺,甚至能長時間沉浸其中。
其原因在於玩家經過一段時間的訓練以後,在大腦中建立了肢體運動與鼠標鍵盤操作之間的映射關係,比如前後左右跑動與鍵盤 W、S、A、D 按鍵對應,跳躍與空格按鍵對應。因此,通過運動關係的映射,視覺信息與肢體運動信息之間的衝突(暈動症)得以大大減輕,但睫狀肌的屈張是一種自發行為。睫狀肌會自主地屈張到正確的水平,以保證人眼聚焦在所關注物體的表面。並且人眼總是趨向於得到最清晰的視覺成像,這也會促使睫狀肌處於與之匹配的屈張水平。因此強迫睫狀肌處於非正確的屈張水平或被錯誤地引導到不匹配的屈張水平都會導致上述的衝突,從而導致眩暈和人眼疲勞。
通過訓練來建立類似於 “反恐精英” 中的大腦映射是無法解決此類衝突的,只能通過頭戴顯示設備產生不同深度的圖片去引導人眼自然地聚焦在遠近不同的平面上才能從根本上解決這一衝突,從而解決眩暈和人眼疲勞。
VR 眼鏡的嚴重眩暈問題引發了對另一個問題的思考,為什麼 3D 電影在數小時後才出現眩暈或人眼疲勞,而 VR 眼鏡的耐受時間一般只有 5~20 min?
- 一方面是因為 3D 電影已經普及多年,能適應 3D 電影的人羣已經變得更加適應,不能適應 3D 電影的人羣已經不再去 3D 電影院,所以造成所有人都能耐受 3D 電影數小時的假象。
- 另一方面,3D 電影是第三人稱視角觀看,而虛擬現實使觀看者處於第一人稱視角,暈動症更加明顯。
- 再一方面,3D 電影的熒幕距離人眼較遠(一般十米到幾十米不等),雖然聚焦錯亂的問題依然存在,但睫狀肌始終處於較舒張的狀態。而 VR 眼鏡的屏幕經準直透鏡放大以後,一般等效在較近處(一般 2~5 m),睫狀肌始終保持緊繃的狀態,人眼更易疲勞。
上述 3 個原因導致了虛擬現實的耐受時間相比於 3D 電影縮短了很多。
眩暈是目前虛擬現實最大的技術瓶頸,大大限制了虛擬現實產業的長足發展,並且會對人眼造成傷害。在 VR 眼鏡佩戴的全過程中都會強迫人眼處於錯誤的聚焦平面,睫狀肌得不到連續自然的舒張和收縮。
長此以往,睫狀肌彈性下降,失去了自主調節的能力,從而導致近視。尤其對於 12 歲以下兒童,人眼器官正處於生長髮育階段,VR 眼鏡會大大增加患近視的可能性。即使是成人,長期佩戴也會導致視力下降。因此虛擬現實應用於幼教領域需嚴格控制佩戴時間。幼兒應儘可能減少甚至不佩戴 VR 眼鏡,直到突破這一技術瓶頸。
光場顯示技術
在討論如何解決虛擬現實的眩暈問題之前,先思考人眼是如何觀看三維物理世界的?
環境表面的每一個點都會在半球範圍內發出光線(自發光或反射光)。空間中的點可以通過三維座標 (x,y,z) 來唯一表示;每個點在半球範圍內發出的光線通過水平夾角ф和垂直夾角φ來描述;光線的顏色通過波長λ表示(光線還包括亮度信息,這裏用λ統一表示);環境光線隨着時間是變化的,不同時刻 t 下的光線也不一樣。因此,環境光線可以通過 7 個維度的變量來描述 [7],稱為全光函數 P=(x,y,z,ф,φ,λ,t)。假設環境光線在一定時間內穩定不變,則每條光線的波長可以用 5D 函數表示為λ=F(x,y,z,ф,φ)。
(圖 9 全光函數模型)
如果顯示器能產生上述 5D 函數中所有的光線,則觀看者通過該顯示器能在視覺上感知到與真實世界中一樣的三維環境。但遺憾的是,目前全世界都沒有這樣的顯示器。當前的電視、電腦、手機等平面顯示屏只實現了上述 5D 函數中的 2 個維度,也即λ=F(x,y)。
近幾年出現的曲面顯示屏增加了維度 Z 上的像素點,但在維度 Z 上並不完備。因此,曲面顯示屏不是 3D 顯示器,只能算作 2.5D 顯示器。科學家們曾嘗試了多種方法從傳統的 2 個維度顯示提升到更高維度顯示,但目前仍停留在實驗室階段,尚無可商業化的產品。例如:
- 1)體三維顯示 [8](Volumetric3D Display)在空間中不同位置發出光線,實現了 F(x,y,z)3 個維度的顯示,但依賴於機械運動,且無法呈現正確的遮擋關係;
- 2)基於微透鏡陣列的集成成像 [9](Integral Imaging)需要將一層特殊的光學膜貼在平面顯示屏上,實現了 F(x,y,ф,φ)4 個維度的顯示,但圖像分辨率大大降低,且在 (ф,φ) 維度上採樣率越高,圖像的分辨率損失越嚴重;
- 3)投影儀陣列 [10](Projector Array)從不同的方向發出不同的光線,實現了 F(x,y,ф,φ)4 個維度的顯示且分辨率不損失,但硬件成本高昂且體積大。
如果能將傳統的 2D 平面顯示提升到 5D 顯示,人眼將不借助任何頭戴設備而獲得類似全息顯示的效果。但根據顯示領域目前的技術發展,在未來較長一段時間內難以實現輕便低廉的 5D 全光顯示器。
如圖 10 所示,上述的 5D 全光函數是從 “環境表面發出了什麼光線?” 這一角度來建立數學模型。但從另一個角度來建模將會簡化問題——“觀看環境時,人眼接收了什麼光線?”。如果頭戴顯示器能重現出人眼應該接收的全部光線,人眼將從頭戴顯示器中看到真實的三維場景。
(圖 10 環境表面發出的光線和人眼接收到的光線)
5D 全光函數描述了環境表面發出的所有光線,但並不是所有的光線都進入了人眼,只有部分光線最終被人眼接收。因此進入人眼的光線是 5D 全光函數的一個子集。且隨着人眼位置和注視方向的不同,人眼接收到不同子集的光線。
將人眼的瞳孔分為 Nx×Ny 個子區,用(x,y)表示橫向第 x 個,縱向第 y 個瞳孔子區,圖 11 中左圖展示了一個 4�4 瞳孔分區的視覺成像模型。
如果瞳孔的分區 Nx=1,Ny=1;也即整個瞳孔作為一個區,這與傳統的小孔成像模型是等效的。每個子區都會接收到很多從不同角度入射的光線,入射角度用 (α,β) 表示。因此,進入人眼的光線可以通過一個 4D 函數來描述,可以稱之為全視函數λ=F(x,y,α,β)。光線進入人眼的位置 (x,y) 和進入的角度 (α,β) 共同決定了光線會落在視網膜上的什麼位置。如果不考慮與眼睛注視方向垂直的光線,5D 全光函數可以降維到 4D 光線集合,一般用兩個平面 (u,v) 和 (s,t) 來表示,稱為 “光場”[11]。
本文中採用一個平面 (x,y) 和一對角度 (α,β) 表示人眼接收光線的集合,是一種更適合於頭戴顯示的光場定義。
頭戴顯示設備如何投射出 4D 光場呢?假設光線在傳播過程中被看作一條射線,且沿着射線的方向上亮度和顏色不改變。例如圖 11 左圖中藍點發出的第二條光線(藍色粗線)與其射線方向上投影儀發出的光線是等效的,這樣的假設對於日常環境中的光線傳播完全合理。
基於上述合理假設,採用投影儀陣列可以模擬重現出 4D 光場,如圖 11 中右圖所示。當投影儀足夠多、足夠密集時,就可以在一定視野範圍內無限逼近地投射出人眼應該接收到的全部光線。但投影儀體積較大,無法密集排列,且硬件成本高。值得一提的是,美國 Magic Leap 公司在 2015 年展示了一種基於光纖微型投影儀陣列的動態光場成像技術,大大減小了投影儀陣列的體積,提高了投影儀排列密度,但硬件成本仍然高昂。
(圖 11 全視函數模型)
投影陣列通過增加顯示器件來提高成像維度,這是一種最直接的將傳統 2D 顯示提升到 4D 光場顯示的方法。但是通過不斷增加硬件設備來增加像源的自由度並不是一種高效的解決方案。首先硬件成本會急劇增加,例如實現圖 11 右圖中 4�4 投影陣列的光場,需要 16 倍的硬件成本;且數據的存儲和傳輸也會增加到 16 倍。
光場顯示為什麼能解決頭戴顯示的眩暈問題呢?
如上所述,光場顯示提供了真實環境中發出的並由人眼接收的全部光線。人眼在觀看真實環境時不眩暈,那麼通過光場頭顯設備也就不會眩暈。如圖 4 中,遠近不同的點進入人眼的角度不同,這在 4D 光場λ=F(x,y,α,β) 中通過角度參數 (α,β) 來體現。因此,通過光場顯示,人眼能自然的聚焦在遠近不同的發光點上。從而睫狀肌的屈張水平始終與雙目視差保持一致,避免在大腦中產生 ACC 衝突。
如圖 12 所示,當同時呈現遠近不同的圖像層時,人眼能夠自主地選擇聚焦平面。真實環境中,圖像層數達到無窮多層,由近及遠連續分佈。這意味着需要無窮多台投影儀才能重現連續分佈的圖像層,這顯然是不切實際的。因此,在實際的光場顯示中採用離散的圖像層去近似逼近連續的圖像層。當圖像層數達到 8 層及以上時,人眼就能獲得近似的聚焦感知。當然,圖像層數越多,聚焦越連續,視覺效果越自然,眩暈改善越顯著。當前所有在售的頭戴顯示設備都只提供了 1 層圖像,還遠遠不能達到近似連續聚焦的成像效果。
(圖 12 支持多層聚焦成像的光場顯示)
除了投影陣列,還有多種技術可以實現光場顯示。例如,時分複用的投影技術採用一台高速投影儀從空間中不同位置投射圖像,通過複用一台高速投影儀去 “頂替” 投影儀陣列 [12]。但目前實現微型化的高精度機械控制比較困難,因此該技術不適用於頭戴顯示。
斷層成像 [13,14] 技術實現了數字化的空間光調製,只需要 2~3 倍的硬件成本就能實現 5�5 的光場成像,但計算量大、算法複雜度高,當前的個人計算機還無法實現在線高分辨的光場計算。該技術適用於離線應用(如光場電影)或者可在雲端計算完成的應用(如光場虛擬現實直播)。
綜上所述,光場是最接近人眼觀看自然環境的成像方式,彌補了當前頭戴顯示都不具備的 “聚焦模糊”,將人眼睫狀肌從固定的屈張水平中解放出來,消除了眩暈,減輕了人眼疲勞。實現光場成像已有多種技術手段,但都有各自的缺陷。受成本、計算量、設備體積的限制,當前的光場成像技術還只能在部分行業應用。
目前在售的 VR 眼鏡普遍都比較厚重,輕薄化是虛擬現實設備未來的必然趨勢。可以通過優化光學設計,減小透鏡的焦距來縮短光程,從而減小 VR 眼鏡的厚度,但短焦距的透鏡會帶來色差和畸變等其他光學問題,且透鏡重量會隨着焦距的縮短而增加。
光場成像不僅解決了眩暈問題,還能使頭顯設備變得更輕更薄。基於上述光線在射線傳播方向上具有不變性的假設,投影陣列可以移動到更靠近眼睛的位置,在不改變透鏡焦距的前提下可以縮短光程,只需要根據投影陣列與透鏡的相對位置對光線進行反向追跡渲染即可獲得等效的光場成像。
最近出現了一些基於眼球追蹤的光場顯示技術,其根據人眼的注視方向,選擇性的模糊掉人眼並不關注的像素塊,從而造成一種人眼可以主動選擇聚焦的假象。這一類技術可以歸為偽光場成像。究其本質,偽光場成像技術仍然只提供了λ=F(x,y) 兩個維度上的光線。換言之,偽光場成像技術只提供了 1 層圖像,人眼仍然無法主動選擇性聚焦,眩暈的問題依然沒有得到解決。
計算攝像
光場成像技術顯示了 4 個維度的光線,但如何採集 4D 光線呢?在計算機中可以對三維模型直接渲染得到 4D 光場,但是如何拍攝真實場景中的 4D 光場呢?
可以明確的是,傳統的攝像技術是無法採集 4D 光場的。攝像技術最早可以追溯到小孔成像,現今使用的相機仍然沿用着小孔成像模型。如圖 12 中所示,光場成像技術在不同深度上呈現多幅圖片。而傳統的相機只在一個聚焦平面上採集圖像。傳統相機拍攝的平面 2D 圖片只是 4D 光場的一個子集。因此大量的光線信息在拍攝過程中丟失了。要顯示光場,首先要解決如何採集光場的問題,否則 “巧婦難為無米之炊”。
光場採集依賴於一門稱為計算攝像(computational photography)的學科。最早的計算攝像是基於大量的相機從不同的角度分別拍攝來採集光場,也稱之為相機陣列 [15,16]。當然也可以採用單個相機移動拍攝,但只能採集靜態場景的光場。相機陣列是早期形態的光場相機,佔地面積大,操作複雜,成本昂貴。
目前市面上已經出現了消費級的光場相機(如 Lytro [17])可以在單次拍攝中採集光場。Lytro 光場相機採用微透鏡陣列(microlens array)採集不同角度入射的光線。相比於相機陣列,Lytro 光場相機體積大大減小,硬件成本降低,但分辨率也大大降低。
基於上述兩種光場相機的優缺點,科學家們提出了一種基於壓縮感知的光場相機 [18,19]。該光場相機通過 “學習” 已採集的光場,訓練得到光場字典。利用訓練得到的光場字典去恢復出待採集的光場。基於壓縮感知的光場相機同時具有小體積和分辨率不損失的優點,但需要改造相機(在 CCD 表面插入一塊編碼過濾片),且其算法複雜度高、運算量大,目前還難以推向消費市場。
6、VR 與 AR/MR
虛擬現實提供了強烈的沉浸感。佩戴者藉助 VR 頭顯 “穿越” 到了一個完全由虛擬元素構成的世界中,但同時也把佩戴者與現實世界隔離開。
在 Virtual Reality 的基礎上,Augmented Reality(AR)應運而生。按照實現的技術方式,AR 分為三類,包括 Video-based AR,Optical-based AR 和 Projection-based AR。這三類 AR 都能實現真實場景和虛擬信息同時被人眼看見的視覺效果,但技術手段不同。
圖 13 基於 Video-based AR 的手錶試戴(圖片來源於 Cyingcg )
Video-based AR 是對圖片(或圖片序列構成的視頻)進行處理,在圖片中添加虛擬信息,以幫助觀看者進行分析和獲得更多的信息。如圖 13 所示,在手腕上添加不同款式的虛擬手錶來幫助消費者挑選合適的手錶。再如時下熱門的 Faceu 手機 app,能在手機拍攝的圖中添加諸如兔耳朵等可愛的虛擬元素。Video-based AR 不需要佩戴特殊的眼鏡,與觀看傳統平面圖片方式一致,且允許非實時離線完成。
Optical-based AR 通過類似半透半反的介質使人眼同時接收來自真實場景和像源的光線,從而使得人眼同時看見真實場景和虛擬信息。Optical-based AR 給人一種虛擬物體彷彿就位於真實場景中的視覺體驗,但真實的場景中並不存在所看見的虛擬物體。且只有佩戴特殊頭顯設備(如 Hololens,Meta)的人才能看見虛擬物體,沒有佩戴頭顯設備的人不能看見虛擬物體。
如圖 14 所示,火箭模型並非真正存在於桌面上,且未帶頭顯設備的人不能看見火箭。Optical-based AR 相比於 Video-based AR 技術難度更大,需要三維環境感知。且從環境感知到增強顯示都需要實時完成。
在虛擬現實行業出現了一個 “新” 的概念——MR(Mixed Reality),但這其實就是上述的 Optical-based AR。圖 15 是本文作者在實驗室通過 MR 眼鏡拍攝的照片,通過 MR 眼鏡能同時看見真實的場景和虛擬的汽車。
圖 14 Optical-based AR 概念圖(圖片來源於微軟 Hololens 宣傳視頻)
圖 15 混合虛擬現實—懸浮的小車(戴上眼鏡後觀看效果)
Projection-based AR 將虛擬信息直接投影到真實場景中物體的表面或等效的光路上。相比於 Optical-based AR,Projection-based AR 不需要佩戴頭顯設備卻能獲得與之類似的增強現實效果,且允許多人在一定角度範圍內同時觀看。
如圖 16 所示,是本人拍攝的基於投影增強現實的車載導航儀。路基線、車速、天氣、來電等信息被投影在司機觀看路面的等效光路上,司機不需要佩戴頭顯設備即可看見上述輔助信息。
圖 16 基於 Projection-based AR 的車載導航(不佩戴眼鏡觀看效果)
虛擬現實帶來了強烈的沉浸感但也隔斷了人與人之間的聯繫。雖然人與人可以在虛擬世界中產生交互,但其交互手段有限,且交互的真實性和自然性都大打折扣。縱觀歷史上任何技術得以大面積普及的關鍵都在於密切的聯繫(Dense Communication)。
從早期的互聯網到智能手機以及當前的移動互聯網,得以迅猛發展都離不開大量人羣之間的通信。如果失去了人與人之間的通信也就失去成為大平台的基礎。虛擬現實的隔斷性註定了 VR 不會成為下一個智能手機。而 MR 彌補了 VR 的這一重大缺陷,能同時具備視覺信息增強和人人通信這兩大特點。MR 比 VR 有更高的機率成為智能手機在未來的新形態。
參考文獻(References)
- [1] Geng J.Three-dimensional display technologies[J]. Advances in Optics and Photonics, 2013,5(4): 456-535.
- [2] DavisonA J, Reid I D, Molton N D, et al. MonoSLAM: Real-Time Single Camera SLAM[J].IEEE Transactions on Pattern Analysis & Machine Intelligence, 2007, 29(6): 1052-1067.
- [3]MackenzieK J, Watt S J. Eliminating accommodation-convergence conflicts in stereoscopicdisplays: Can multiple-focal-plane displays elicit continuous and consistentvergence and accommodation responses?[J]. Proceedings of SPIE, TheInternational Society for Optical Engineering, 2010, 7524:752417-752417-10.
- [4] VienneC, Sorin L, Blondé L, et al. Effect of the accommodation-vergence conflict onvergence eye movements[J]. Vision Research, 2014, 100: 124-133.
- [5] HoffmanD M, Banks M S. Disparity scaling in the presence of accommodation-vergenceconflict[J]. Journal of Vision, 2010, 7(9): 824.
- [6] TakakiY. Generation of natural three-dimensional image by directional display:Solving accommodation-vergence conflict[J]. Ieice Technical Report ElectronicInformation Displays, 2006, 106: 21-26.
- [7] Gershun A. The light field[J]. MathematicalPhysics, 1939,18: 51-151.
- [8] Geng J.Volumetric 3D display for radiation therapy planning[J]. Journal of DisplayTechnology, 2009, 4(4): 437-450.
- [9] VanBerkel C. Image Preparation for 3D-LCD[C]//StereoscopicDisplays and Virtual Reality Systems VI, 1999: 10.1117/12.349368.
- [10] ZhangZ X, Geng Z, Zhang M, et al. An interactive multiview 3D display system, Proc.SPIE 8618, 86180P (2013).
- [11] M.Levoy and P. Hanrahan, Light field rendering[C]. Proceedings of ACM SIGGRAPH, 1996.
- [12]Jones A, McDowall I, Yamada H, et al. Rendering for an interactive 360 lightfield display[C]//ACM SIGGRAPH 2007. New York: ACM, 2007.
- [13] Cao X, Geng Z, Zhang M, et al. Load-balancing multi-LCD lightfield display[C]. Proceedings of SPIE, The International Society for OpticalEngineering, March 17, 2015.
- [14] Cao X, Geng Z, Li T, et al. Accelerating decomposition oflight field video for compressive multi-layer display[J]. Optics Express, 2015,23(26): 34007-34022.
- [15] Bennett Wilburn, Neel Joshi,Vaibhav Vaish, Marc Levoy, and Mark Horowitz. High-speed videography using adense camera array[C]// Proceeding CVPR’04 Proceedings of the 2004 IEEEComputer Society Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE ComputerSociety, 2004.
- [16] Wilburn B, Joshi N, Vaish V, et al.High performance imaging using large camera arrays[J]. ACMTransactionson Graphics,2005, 24(3): 765-776.
- [17] RenNg, Levoy M, Bredif M, et al. Light field photography with a hand-heldplenoptic camera[R]. StanfordUniversity Computer Science Tech Report CSTR 2005-02, 2005.
- [18] Marwah K, Wetzstein G, Bando Y, etal. Compressive light field photographyusing overcomplete dictionaries and optimized projections[J]. ACMTransactionson Graphics, 2013, 32(4): 46.
- [19] Cao X, Geng Z, Li T. Dictionary-based light field acquisitionusing sparse camera array[J]. Optics Express, 2014, 22(20): 24081-24095.
題圖來源:Yeti
免責聲明:
文章為作者獨立觀點,不代表愛範兒網立場
本文由《科技導報》及其原文作者曹煊授權愛範兒發表,並經愛範兒網編輯。轉載此文須經作者同意,並附上出處(愛範兒)及本文鏈接。
關注微信公眾號愛範兒( ifanr ),與未來同步。投稿,請發送至郵箱 [email protected]
資料來源:愛範兒(ifanr)