技術探索

AR/VR與MR的技術探索

工研院資通所  杜鴻國

在可預見的將來,AR/VR與MR將在各種層面滲入,並幫助我們的生活進而提升生活品質。在可預見的將來,AR/VR與MR將在各種層面滲入,並幫助我們的生活進而提升生活品質。

在過去,AR(擴增實境)和VR(虛擬實境)的技術基礎條件未成熟之前,對多數消費者而言只能停留在科幻的階段;然而,隨著目前的智慧型手機開始支持廉價VR頭戴式裝置,產生了讓消費者去嘗試新鮮的使用者體驗動力。在此同時,醫療產業在這波AR風潮的帶動下,也正改變著產業內的運作模式,可預期AR/VR在未來會成為在其他領域,如教育、物流、e-Health、和製造等當中實踐更多夢想的動力。 不僅如此,由於工業4.0趨勢風起雲湧,未來機器人所具備的人工智慧將會藉由AR/VR,甚至是MR(混合實境)技術在應用面飛快發展,促使機器人所能提供的服務類型急遽擴大,其中最能引起人類關注的服務即是在面對人口快速老化的過程中,如何改善老年人口的生活?尤其是服務品質與消費者能支付的服務代價之間的差異,正朝向擴大的方向發展,因此如何降低AR/VR與MR的發展成本也逐漸引起大家的關注。 由此觀察在不久的未來,終端裝置勢必有一番新革命-輕便短小、具備高智慧能力、與低價的特徵。環視全球科技的發展趨勢正朝向數據巨量化、通訊頻寬增幅擴大、服務延遲縮小、且服務收費大幅萎縮的方向前進,在這幾項趨勢的推波助瀾下,AR/VR與MR又是否能具備前述特徵般革命性的發展呢?於是,除了介紹AR/VR與MR的技術發展之外,本文討論幾項仍需要大幅提升的關鍵技術趨勢,包括傳輸技術的演進、OTT(Over the Top)平台的改變、與影響傳輸技術與OTT平台的霧運算,其實這些技術正蘊含在全球科技的發展趨勢中,將促使AR/VR與MR及早發揮出潛能,進到各應用領域之中,讓我們更加期待人類生活的品質能因此提升。

AR/VR技術的特點

要說明AR/VR技術的特點之前,在此先簡單定義AR/VR/MR三項技術:

  • AR(Augmented Reality,擴增實境),是一種實時計算攝影機影像的位置及角度並加上相應圖像的技術,這種技術的目標是在螢幕上把虛擬世界套在現實世界並進行互動。這種技術大約於1990年被提出。
  • VR(Virtual Reality,虛擬實境),是利用電腦模擬產生一個三維空間的虛擬世界,提供使用者關於視覺等感官的模擬,讓使用者感覺彷彿身歷其境,可以及時、沒有限制地觀察三維空間內的事物。使用者進行位置移動時,電腦可以立即進行複雜的運算,將精確的三維世界影像傳回產生臨場感。該技術整合了電腦圖形、電腦仿真、人工智慧、感應、顯示及網路並列處理等技術的最新發展成果,是一種由電腦技術輔助生成的高技術模擬系統。
  • MR(Mixed Reality,混合實境)指的是結合真實和虛擬世界創造了新的環境和可視化,物理實體和數位化對象共存並能實時相互作用,以用來模擬真實物體。混合了真實環境、增強現實、增強虛擬和虛擬現實技術。

以更精簡的說明,AR就是透過see through裝置(例如AR glasses,手機),將一些數位資訊顯示在這些裝置上,並透過視覺產生數位資訊與實境結合(例如寶可夢遊戲);VR就是透過頭盔完全遮住視野以產生代入沉浸感(immersive),經由全虛擬畫面呈現出完全的虛擬世界(例如HTC vive的VR遊戲);MR則是將虛擬資訊與現實環境的匹配與整合,並經過虛擬資訊與真實環境精準定位後所產生的虛實互動(interactive)與匹配應用(例如Microsoft的HoloLens),其與AR主要差異就是虛實精準定位產生的虛實互動與匹配。

首先就針對AR/VR,介紹其中需進行開發與研究的技術:

AR技術
為了透過see through裝置將數位資訊顯示在這些裝置上,必須完成一些基本技術處理,包括(1)將欲顯示資訊數位化與3D化、(2)後端顯示與3D空間匹配:

(1)將欲顯示資訊數位化與3D化:因顯示於see through裝置上之資訊將會因觀賞者的視角而產生不同畫面呈現,因此這些資訊必須能夠有基本放大縮小旋轉等功能,亦即這些資訊將必須完成數位化、3D化,以建立3D空間資料點,這樣才能在後端顯示時透過3D環境偵測完成擴增實境顯示。目前將資訊或物件數位化、3D化最主要的技術就是3D建模(3D modeling),3D建模已是發展已久的技術,可以透過IR深度攝影(紅外線深度攝影掃瞄)、多鏡頭攝影擷取與2D轉3D化等方式達成。其中IR深度攝影是現在3D printer最常用的技術,特點是精準,但是缺點是無法呈現物件視覺真實感;而多鏡頭攝影擷取特點是可以呈現物件視覺真實感,所以將會是未來AR/VR建模的主力發展技術。

(2)後端顯示與3D空間匹配:AR視覺呈現上主要就是偵測使用者的3D空間位置後,再做出相對應的虛實合一視覺呈現(如圖1所示)。其中最重要的技術就是精準的空間3D定位,透過精準的空間3D定位將已事先完成的AR資訊(文字、圖形)顯示於see through裝置上,並透過視覺疊合效果產生虛實合一的視覺效果。一般空間3D定位可以透過攝影機、IR深度攝影機、GPS、無線定位、LiDar等等設備。但每一種方式都有其優缺點,適應的場域也都不盡相同。因此近年來已開始發展混合式定位技術,例如大範圍採用GPS或Wi-Fi,但限縮到10公尺內時則採用影像3D定位,再小於10公分時則採用IR等技術。透過此混合式3D空間定位技術,將可大為提升其應用範圍與精準度,對於AR顯示應用範圍也將更為寬廣。

圖1 AR顯示與3D空間匹配(圖片來源:DIGITTIMES)圖1 AR顯示與3D空間匹配(圖片來源:DIGITTIMES)

VR技術
一般傳統的VR技術指的是全虛擬環境,從景物、人物、訊息全由電腦圖學產生,因此優點就是可創造無限世界、無限視覺,想看什麼就可製造什麼;但相對的,其缺點就是虛擬,也就是真實感不足,視覺效果只能逼近真實,卻無法取代真實,所以一般用於遊戲居多。而VR360真實視訊受限於運算處理速度而無法有更進一步的發展。但近年因電子硬體技術大幅增進,硬體圖形運算處理能力遠超20年前,因此真實VR360視訊處理已能達到real-time(即時處理)地步,所合出的視訊已能達到8K、360度的成像。2016年世界各大廠(HTC、Google、Facebook)等已開發出各式VR360頭盔,基本上已都可以播放4K 360度視訊。因此在硬體已達基本需求時,接下來所需要的VR360視訊技術開發即可定下一些發展方向,包括(1)內容設計與創造、(2)VR360視訊處理技術、(3)VR360顯示技術:

(1)內容設計與創造:任何的視音訊產品就是兩個,視覺與聽覺。如何設計出富有創造力與實用性的產品,除了相關配套軟體工具,文創的想法也是技術發展的重點。

(2)VR360視訊處理技術:可分為以下三個部分,如圖2所示:

  • 多鏡頭視訊擷取:因VR360視訊所採用微2~N個鏡頭輸入,尤其當N>6以上時影像擷取的視訊raw data將十分龐大~(20 Gbps以上),且存取動作也將變得十分繁複。因此相關存取動作必須設計出一套平行且有效的演算法,並搭配相關硬體設計,方能在有限時間內完成大資料的視訊存取,畢竟硬體有限,需求無限。
  • 多視訊影像串接:傳統多視訊影像串接技術已發展數十年,相關技術發展朝向的是如何將視訊處理得更完美、拼接的更無縫與色彩更平均,因此強調的都是處理演算法的精緻度,不在乎處理時間;但近年因即時視訊的興起,強調即時轉播,因此傳統的研究方向將需要進行調整,除了維持現有VR360視訊串接品質外,在超大解析度(8K以上)視訊下,如何縮短時間與新的平行處理技術開發,將會是未來此項技術的研發重點。
  • 超高解析度視訊壓縮:Oculus創辦人Palmer Luckey認為未來混合實境解析度至少要達到單眼8K才合格;而AMD宣稱至少要達到單眼16K才是未來混合實境最佳視訊呈現。由此可知超大解析度(8K以上)視訊處理會是VR360視訊即將面臨的大問題。目前視訊壓縮主流主要集中在4K解析度,只有少數廠商開始試進行8K視訊處理,16K視訊以上目前尚無任何進展,其中除了目前硬體無法支援外,軟體演算法相關研究也尚未成熟。但隨著VR360視訊演進的需求,超高解析度VR360視訊也將隨著先前視訊HD、Full-HD、4K等歷程般不斷的演進,超高解析度視訊壓縮需求也將在未來幾年中不斷浮現。因此如何設計出多工的壓縮程序(如圖3所示),將會是未來技術開發的出路之一。

圖2 VR360視訊處理模組圖2 VR360視訊處理模組

(3)VR360顯示技術:目前世界各大廠頭盔設計已漸入佳境,基本上都可達4K 60~90fps等規格;而VR最讓人不能接受的就是其暈眩感,究其原因不外乎就是畫面切換延遲所造成。因此未來VR360顯示技術開發將會更著重於畫面更新率與低延遲顯示處理技術開發,以發展出讓使用者觀看更為舒適的顯示器。

圖3 超高解析度(>8K)多工處理示意圖圖3 超高解析度(>8K)多工處理示意圖

MR技術的發展
不管是AR或是VR,我們在此可接著同意這兩項技術很快將會整合成MR。為何會輕易如此認定?主要是因為當VR載具由頭盔顯示進化到glasses顯示時(例如像全包覆式之太陽眼鏡般的裝置),透過鏡片顯示see through開關控制(ON可啟動see through,進行AR顯示;OFF則進行VR immersive顯示),將可使得AR與VR顯示整合為一體,甚至透過鏡頭攝影與虛擬資訊或物件整合,實現虛中有實、實中有虛的顯示效果;因此再搭上虛實互動(interactive)的感測與體感顯示(tactile display)技術,即可進入MR世代。但由上述可知,未來AR/VR技術將只是MR技術的一個環節,而目前除AR與VR技術較為成熟外,虛實互動的感測與體感顯示技術尚未臻成熟,所以可知未來MR技術的發展,將可著重於以下幾項技術,包括(1)高精準肢體辨識技術、(2)低延遲互動處理與傳輸技術、(3)虛擬體感顯示技術:

(1)高精準肢體辨識技術:目前對於肢體辨識技術可分為大範圍手腳辨識與小範圍頭部、手指與眼睛辨識技術。大範圍手腳辨識如Wii、Kinect等已開發的相當完備;所以未來將要著重的將是小範圍頭部、手指與眼睛等辨識技術,如何透過週遭感測器與相關演算法提升辨識精準度,以配合虛擬資訊匹配,將會是此技術著墨之重點。

(2)低延遲互動處理與傳輸技術:因虛實互動所需之即時性,因此可預期所有的訊號處理與傳輸回應,將需要遠低於人體所能感覺的時間,如此才能達到無感延遲之虛實互動,而不會造成人體感覺突兀(sickness)。為了達到低延遲互動處理,目前感測器硬體與感測技術已可達到相當規格,但現行瓶頸出現在網路傳輸,以現行網路規格除了無法達到~1ms外,也無相關低延遲協定,因此下世代2020年的5G網路傳輸與協定,將會是此技術開發的一個突破點。

(3)虛擬體感顯示技術:近年來對於人的五感顯示一直不斷有單位進行開發,視覺與聽覺是最成熟,觸覺次之,而味覺與嗅覺是最挑戰的;對於MR來講,目前較具體的將會是觸覺的開發,讓使用者與虛擬資訊或物件互動時能夠感到相關的觸覺。以目前技術來看,力回饋是較為成熟的,已廣泛用於各式模擬體驗中(試駕應用)。但是對於人體更細微的觸感(例如指頭力回饋),目前仍有技術需進行克服,研發方向將可以朝向觸覺回饋密度顯示(探針式)與微力回饋等方向進行研究。

傳輸技術支援AR/VR的演進

隨著資通訊產業的發展,網路與眾多應用皆已息息相關,而寬頻無線網路技術的發展,更強調了更大傳輸頻寬的使用與更多樣化的應用服務,特別是包括影音串流(Video Streaming)。無線網路影音串流通訊技術服務將語音、資料、影像等多媒體資訊透過寬頻通道來傳輸,須因應多媒體的大量傳輸與服務品質(QoS)的要求,才可以滿足不同應用之消費者的需求。

AR/VR是目前更重要的多媒體創新應用,然而AR/VR壓縮影音串流需求的傳輸率更高達100Mbps,目前還鮮少有使用無線傳輸的例子,仍然以事先下載至本地主機或手機的方式為主。但是,AR/VR傳輸的發展終究得使用無線傳輸技術,而且能應付大量的傳輸,才能夠讓使用者體驗不受線材的拘束。另外,各種公眾場地如演唱會、運動場、展覽館、賣場等也是AR/VR的重要應用情境,於是還會有大量使用者需求相同或相似內容的情況,所以傳輸技術亦有賴於群播(Multicast)與廣播(Broadcast)技術的發展。由於寬頻的WiFi技術已被廣泛實現在多數的終端設備,已有潛力做大資料量的傳輸,甚至可以發展成涵蓋多用戶數。於是傳輸技術支援AR/VR的演進目標,可分為(1)寬頻無線技術、(2)群播與廣播技術:

(1)寬頻無線技術:目前寬頻的WiFi技術之發展近況,主要包括WiFi 802.11ac與WiGig 802.11ad。WiFi 802.11ac採用5GHz做為傳輸訊號的頻段,有效改善多重路徑衰減等問題並提升頻道的使用率,單一空間流802.11ac最高傳輸率可達到約867Mbps。WiGig 802.11ad採用60GHz做為傳輸訊號的頻段,單載波WiGig最高傳輸率可達到4.6Gbps,而多載波WiGig可達到6.76Gbps,由於60GHz電磁波的傳播特性,使得WiGig技術被限制在較短距離的範圍內工作,於是對於AR/VR應用,802.11ac較有可能用於前述的公眾場地,而802.11ad較適合本地的短距離無線連結。

(2)群播與廣播技術:為了提供大量使用者需求相同或相似內容,例如利用群播與廣播技術可以串流演唱會舞台的VR內容到各個座位,甚至世界上不同的地點,這種技術比起單播(Unicast)能節省頻寬的浪費,更能夠滿足前述公眾場地的AR/VR應用。現行WiFi 802.11ac的AP幾乎都已經有支援群播與廣播技術,只要提供內容的節點使用UDP/IP協定便能做群播和廣播的傳輸,然而802.11ac的AP,在進行群播與廣播時,能否維持上述的最高傳輸率;在網路建設中的多個AP,能否以上述的最高傳輸率而不造成互相之間的干擾與壅塞,依然是該技術必須面對的課題。至於WiGig 802.11ad,由於其先天不支援真正的群播與廣播傳輸,適合人數有限之房間的AR/VR應用,而非公眾場地。

在例如演唱會、運動場等大型公眾場地提供AR/VR群播廣播服務,此應用將需要100Mbps的高傳輸率,儘管寬頻WiFi技術的現狀確實能提供高傳輸率,但仍需要解決上述的課題。

OTT平台因應AR/VR的改變

AR/VR與MR的應用擴及各個領域,包括醫療照護、工程、房地產、零售、軍事、教育、電玩遊戲、直播賽事及影視娛樂等,其中與OTT視訊最息息相關的,即是屬於娛樂應用的直播賽事及影視娛樂。這類應用透過VR全景視訊服務可以為使用者帶來身歷其境的全新感官享受,但同時也為OTT視訊服務帶來了很多新的技術挑戰,包括(1) 網路頻寬、(2)編解碼技術、(3)VR內容產製、與(4)使用者界面:

(1)網路頻寬:OTT服務提供的視訊串流,目前以Full HD為主流,其解析度為1920x1080;但VR視訊中,使用者視角只會看到全景視訊中的一部份,若要得到好的觀看品質,就需要傳送更大的解析度,這也表示需要更大的網路頻寬;目前已有許多提供4K VR全景視訊的服務出現,未來為了提供使用者更好的體驗,畫質勢必會不斷提高;如何更有效地擴展頻寬,並利用有限的頻寬提供更好畫質,將是重要的課題。

(2)編解碼技術:如前所述,由於VR全景視訊需要更好的畫質,更大的解析度,對於OTT平台的編解碼技術要求會更高;若要在同樣的Bitrate下得到更好的畫質,需選擇更先進的編碼演算法,如H.265,但這會需要更多的運算資源;另外,更大的解析度也同樣需要運算資源,因此,如何妥善利用及安排OTT平台有限的運算資源,也是需考量的因素。

(3)VR內容產製:眾所周知,自OTT時代開始,內容一直是決定服務勝負的最重要因素;對使用者來說,VR產業是否能被接受及普及,好的VR內容絕對是不可或缺的。VR內容的製作,對於熟悉現有的內容製作流程的廠商來說,是個幾近陌生的領域;目前已有越來越多的360攝影機,可提供使用者方便建立UGC內容,但在專業的PGC裡,如何因應VR全景視訊新的使用者體驗,產製讓使用者驚艷的收視體驗,各廠商也仍在摸索之中。

(4)使用者介面:可在多種不同載具上收看視訊內容,是OTT服務有別於以往傳統收視媒體的一項重要區別。在OTT服務中,使用者可以在傳統電視、電腦、平板、手機及其他各式各樣的終端設備操作及觀看節目。到了VR全景視訊時代,使用者在不停變換自身姿態的同時,終端設備會不斷提供對應於姿態的畫面;目前大部份VR全景視訊的終端設備,皆以頭盔型式呈現;由於使用者在使用服務的時候,是沉浸於虛擬世界,傳統的人機介面勢必做出修改,目前各廠商莫不致力於研究適用於VR的使用者介面,未來也將大幅度影響使用者對於VR服務的接受程度。

除了以上的發展外,其他仍有許多待研究的方向;例如,如何提供低延遲的VR全景視訊服務,如何結合傳送及同步多種不同的感官訊號,及如何透過VR遠端操控等,相信在不久的將來,也會隨著VR應用的發展逐一被克服。

霧運算對傳輸與OTT的影響

目前廣為使用的雲端技術雖然有很多優點,但是存在以下問題:寬頻高傳輸率網路需求、高延遲問題和安全機制的缺乏……等。尤其是AR/VR與MR特別強調高解析度影像傳輸和即時辨識處理,對於網路的頻寬和延遲要求極高,一般而言,AR navigation的影像辨識工作(包含影像傳輸和辨識工作)必須在數百ms(毫秒)內完成,否則無法滿足用戶的服務品質需求。以目前的雲端技術因為仰賴Internet,端點到端點的網路傳輸延遲上一般都大於500ms,幾乎不可能達到目標。所以,與其花大成本改善Internet的品質,也可以將服務和運算拉到Edge端來作,邊緣運算(Edge computing)指的就是資料處理的能力位於網路的邊緣,也就是靠近用戶端的網路,而不是將處理能力放在雲端或集中的資料中心內。 
由ETSI MEC ISG定義的電信等級(Telecomm level)規格之邊緣運算,稱為Mobile Edge Computing(MEC)技術,目前其MEC Server是放在4G/5G基地台連接後置網路的近端,利用服務資料封包攔截的方式將特定服務卸載(offload)到MEC Server中,屬於由電信營運商經營管理的設備與業務;Cisco所提出的霧運算(Fog Computing)為一種資料通訊等級(Datacomm level)的邊緣運算,根據當初他們的產品定位是放在區域網路或網際網路的網路設備內的資料處理功能,一般個人或企業均可以經營管理的霧運算網路設備,主要提供IoE/IoT相關的區域性服務,如AR/VR與MR、私有工廠自動化、私有場域安全監控等應用。這類運算架構具備以下優點,也是其受到重視的關鍵:

  • 因為只需近端網路傳輸,其延遲低於5ms,甚至可以做到ms(微秒)等級的近似real-time傳輸,這對於AR/VR與MR的Interaction、未來機器人的連網等服務非常關鍵。
  • 近端的相關服務具備區域資料庫的特性,如影像辨識、區域廣告和環境感測……等相關資料庫,都是屬於因地制宜的內容。所以資料庫較小,可以縮短查詢與計算的時間。
  • 可以分攤終端裝置的計算需求,一方面可以節省行動裝置耗電,也因此讓終端裝置的CPU規格可以不必太高,降低成本,對於行動物聯網裝置與服務,幫助更大。

根據歐盟的5G研究計畫顯示,未來的雲系統應該是結合傳統的中央雲(Central Cloud)、行動邊緣雲(Mobile Edge Cloud)和霧運算裝置(Fog Computing Device, Fog CD)的階層式雲架構,範圍由大到小,提供不同程度的服務需求。一般而言,目前一般具備延遲容忍的web based服務,因為其內容廣泛,較適合使用目前的雲端技術;而正如前面所說,有低延遲需求的AR/VR與MR服務適合使用行動邊緣雲(MEC)和霧運算裝置。但是,並非所有內容資料庫都能在邊緣雲找到,所以必須採用上述的階層式雲架構,先從中央雲下載內容後緩衝在邊緣雲和霧運算裝置來提供後續即時服務;此種請求緩衝的特性,一直是OTT平台應該要整合或涵蓋的技術,因此如何運用新一代的運算架構,對於重視AR/VR與MR服務的OTT平台非常重要。


本文從技術的角度,討論要發揮AR/VR與MR的潛力所需克服的關鍵技術。AR的主要挑戰在於顯示資訊的數位化與3D化,以及後端顯示與3D空間之匹配;VR的挑戰包括內容設計與創造、VR360視訊處理與顯示技術;而MR主要須克服高精準肢體辨識技術、低延遲互動處理與傳輸技術以及虛擬體感顯示技術。此外,為了滿足AR/VR與MR所需的高頻寬與低延遲需求,採用在終端裝置支援可靠群播與抑制干擾及壅塞的寬頻無線傳輸,搭配改變編解碼技術與使用者界面的OTT平台,並以行動邊緣雲(MEC)和霧運算裝置搭配中央雲的階層式雲架構,徹底改善網路傳輸與OTT平台的即時特性,完整建構出對AR/VR與MR最有利的環境。使得在可預見的將來,AR/VR與MR將從工業、醫療、教育、與娛樂等層面,滲入並幫助我們的生活,不只帶動我們的感官體驗,更能夠提升人類的生活品質。