技術探索

具優先權保證之邊緣雲管理平台

工業技術研究院 資訊與通訊研究所 黃俊傑 李建宏 黃士銘 吳藺剛 賴士翔 吳昌璐

前言

邊緣端的應用服務之運算,由將資料送至雲端的雲管理平台進行處理,轉由邊緣端的雲管理平台進行處理,提升資料運算效能、減少資料交換需求,降低網路頻寬需求及減少端到端運算的延遲時間,提升邊緣端應用情境的滿足感。藉由邊緣雲管理平台提供硬體資源統一控管與調度,並動態依據用戶需求進行動態資源調配,提升硬體運算資源的執行效率,非常適用於特定場域的需求,惟如何同時滿足以較少硬體資源但又可以達到應用服務優先權保證,便是一個挑戰。

本文提出「具優先權保證之邊緣雲管理平台」內涵2項技術,包括:具優先權保證的編排服務技術與可調控的電源管理技術,讓高優先權的工作任務可以在有限的硬體資源的邊緣端環境,仍可優先完成該工作任務,又可達到邊緣雲管理平台節省能耗之目的,故同時滿足低成本、低能耗、與高優先權工作優先被處理的目標,非常適用於中小企業的邊緣端應用需求,例如:工業物聯網、智慧電網與機器人協作系統等應用情境。

精彩內容

 1.邊緣雲管理平台之必要性
 2. 具優先權保證之邊緣雲管理平台之關鍵技術。
 3. 具優先權保證之邊緣雲管理平台效能分析

邊緣雲管理平台之必要性

根據Grand View Research的資料[1],邊緣運算(包括硬體、軟體、服務與邊緣管理平台),在美國市場其複合年均成長率約為32.3%(2023~2030)。邊緣運算可將運算工作置於邊緣裝置內,其優點是與裝置直接結合,完成運算,並輸出結果,但其缺點包括(1)建置成本增加:若每個裝置都提供對應的運算能力,增加整體建置成本;(2)運算資源配置僵化:因為每個裝置具有獨特的運算能力,無法分享給其他種類裝置使用;(3)缺乏彈性:邊緣端場域會有多種應用需求動態改變,單一具有算力的裝置無法適應這種變化需求;(4)軟體更版:裝置端提升具智能的運算能力,並以虛擬化或容器化方式支持該運算服務,故會有軟體更版需求,要對所有裝置進行軟體版本控管、資安管理與升版等事宜會是一件大工程。

相較於採用具智能的邊緣端設備所產生的議題,邊緣雲管理平台可以解決上述問題,以下將就這4個議題做詳細說明。(1)建置成本議題:邊緣雲管理平台為雲原生運算管理平台,例如Kubernetes,藉由管理所有硬體資源並提供動態資源管理能力,以容器方式承載上層應用服務。這些應用服務的能力與該場域內原先每一個具智能的邊緣端設備所執行的結果是一致。因此,當場域達到一定規模時,邊緣雲管理平台的建置成本比該場域內所有具智能的邊緣端設備之建置成本低;(2)運算資源配置僵化議題:相較於具智能的邊緣端設備只能做該設備智能化的工作,邊緣雲管理平台可以運行各式應用服務,當此應用服務不須再持續運行時,可將硬體資源歸還,故可重新配置這些硬體資源給不同的應用服務,解決運算資源配置僵化問題;(3)缺乏彈性議題:由於邊緣雲管理平台的硬體設施可以快速整合各式裝置,以支持各種場域的各種應用情境,故可解決具智能的邊緣端設備缺乏彈性問題;(4)軟體更版議題:邊緣雲管理平台對於具智能的應用服務統一更版與資訊安全的解決方案之部署方案相較於要管理一群具智能的邊緣端設備之更版與對應的資安設定更為容易。因此,上述這些議題可以很容易地透過邊緣雲管理平台獲得舒緩與解決。

邊緣雲管理平台將硬體設備所提供的運算、儲存與網路等資源透過虛擬化與容器化的方式建構出符合或支持應用服務所需的運行環境。此運行環境可以依據應用服務的需求動態調整所有資源結構以支持新的應用服務需求。邊緣運算運用的場域包括:工業應用、能源、民生相關、健康醫療、農業、運輸及零售等,導入最多的技術是用AI提升生產力、協助預測、發展具優化的醫護服務,提升醫療品質、建構智慧農業、運輸與零售等,故Edge AI Cloud就成為邊緣雲管理平台最熱門的架構之一。這種應用框架,更需要邊緣雲管理平台統一資源管理與提供對應的監控、資安等服務,來滿足應用服務動態運算資源的需求。

邊緣端因為場域環境與投入經費的限制,無法像資料中心一樣,提供大量硬體所需的電力系統及投入經費相對少非常多,導致邊緣端的邊緣雲管理平台運算資源不足,無法同時滿足大量的運算需求。故邊緣端如何讓重要且須被立即執行的高優先權工作能立即取得運算資源便是一件很重要的議題。這個議題在台灣更顯得重要。這是因為政府推動企業數位轉型,其中一個項目即是針對企業端所產製的資料,如何用更少硬體資源獲得具智能的加值服務。在邊緣端的場域環境,用戶與平台維運人員針對每個應用服務給予不同的執行順序,故本文所指的高優先權工作是指該應用服務具有較高的優先執行權限,當運算資源不足時,具有高優先權工作的應用服務期待獲得高的優先執行任務的權利,換句話說,當此應用服務透過邊緣雲管理平台請求運算資源時,編排服務接收到此需求,應該盡可能的將運算資源分配給這個高優先權工作的應用服務。本文將介紹「具優先權保證之邊緣雲管理平台」,它提供具智能的編排服務給這些具高優先權工作任務的應用服務,且達到節省能耗之目的,故同時滿足低成本、高安全與高優先權工作優先被處理的目標,非常適用於中小企業的邊緣端應用需求。

具優先權保證之邊緣雲管理平台

「具優先權保證之邊緣雲管理平台」,為國內首套針對邊緣運算環境優化的邊緣雲平台管理系統,它同時提供綠能與智慧化工作排程管理。此平台主要的特色包括:(1)智慧排程,讓資源使用最佳化,提升平台使用率及降低營運成本及(2)深耕綠能與降低耗電,使平台的節能效益可達10%以上。於技術上,具優先權保證之邊緣雲管理平台由2個重要的關鍵服務所組成,(1)具優先權保證的編排服務技術;與(2)可調控的電源管理技術。故本平台提供兼具QoS保證與能耗管理編排服務,讓高優先權應用服務(群組式應用服務)可取得計算資源,且整體資源配置基於能耗管理優化的條件下進行,讓具高優先權的應用服務能立即提供服務。高優先權應用服務指的是在該場域環境,因應某個需求或事件需要,須被即時處理的應用服務,這些應用服務必須取得計算資源,並進行對應的任務執行。

智慧排程編排服務為全域式資源管理機制,提供最佳化的資源配置建議,優化應用服務計算效率;於可調控的電源管理上,藉由管理計算節點上運算工作負載與CPU間配置關係,達到計算節點的平均能耗減少10%以上,下圖1為具優先權保證之邊緣雲管理平台之關鍵技術示意圖。

圖1 具優先權保證之邊緣雲管理平台之關鍵服務

具優先權保證的編排服務技術

於邊緣運算環境,為使具高優先權的應用服務能獲得計算資源,常見的作法是保留部分的運算資源以應付高優先權工作的突發需求,如下圖2虛線部分為保留的運算資源,只有具高優先權的應用服務方能使用。這種方式雖然使得高優先權工作獲得滿足,但整體的資源使用率低,不適用於硬體資源不豐富的邊緣運算環境;另一種作法是將運算資源依據工作排程順序分配給對應的工作負載,此種機制雖然使得運算資源充分被使用,但有可能導致高優先權工作須進入排隊佇列,等待前面的工作排程結束,造成高優先權任務能被立即執行的成功率降低,如下圖3所示,紅色圓點為高優先權任務,由於硬體資源已被占滿,無法取得運算資源。本團隊設計一個兼具運算資源活化,但又可同時滿足高優先權工作能立即取得運算資源的排程機制,讓高優先權工作能在佇列中獲取最高優先權,且能搶占正在執行工作的低優先權應用服務。故本機制使得硬體資源不需保留給高優先權任務,但實際有高優先權任務工作需求時,仍可確保高優先權任務取得足夠的運算資源,並順利完成工作事宜,如下圖4所示。此外,採用具高優先權保證的邊緣雲管理平台,其優點會使得所需硬體資源可以降低,以下圖4為例,只需要2台的硬體資源,仍可支持高優先權工作任務,使其取得足夠的運算資源,減少硬體成本的支出,很適合國內以中小企業為主的應用情境。

圖2 採用運算資源保留機制

圖3 採用運算資源不保留機制

圖4 具高優先權保證邊緣雲管理平台

以「2023 Meet Greater South-亞灣新創大南方」作為應用案例,國產(邊緣)雲端管理平台之展示情境,共有3台計算節點,每台節點有4張GPU資源。假若本邊緣雲管理平台之GPU資源被低延遲應用服務、網頁應用服務及具高優先權之串流分析服務完全使用完畢。此時,有一個具高優先權的應用服務需求產生,在無智慧化工作管理的架構下,若採用圖2方式部署,雖可獲得運算資源,但平常這些運算資源閒置,造成浪費;若採用圖3方式部署,因為全部可用運算資源都被占用,無法取得運算資源;但採用「具優先權保證之邊緣雲管理平台」,因為具有智慧化工作管理機制,提供具優先權保證的編排服務技術,使得重要工作能立即取得運算資源,並執行運算工作,如圖5所示。

圖5 具優先權保證的編排服務技術之展示情境

可調控的電源管理技術

對運算系統進行節能降耗的技術主要有2種:動態電源管理技術(Dynamic Power Management,DPM)與動態電壓頻率調整技術(Dynamic Voltage/Frequency Scaling,DVFS)。其中,DPM動態電源管理技術主要根據伺服器工作量的變化,動態切換工作狀態,以減少能源消耗。若伺服器長時間處於空閒狀態,可將伺服器進行關閉或使其進入睡眠狀態,以節省不必要的能源消耗。至於DVFS動態電壓頻率調整技術,則是支援CPU電壓與運算頻率的動態調整,進而在執行性能以及節能降耗之間,取得一定的平衡。相較於DPM動態電源管理技術,DVFS可在作業系統層面動態調整CPU的執行頻率以及使用電壓,根據伺服器元件的功耗研究,伺服器內部主要以CPU元件之功耗最高,其次為記憶體與其他元件。意即,DVFS可在作業系統中搭配低耗能排程機制一同運行,進而根據工作負載之變化,動態調整CPU頻率,再主動調整伺服器之低功耗電壓,以提高伺服器的能源使用效率。由於DVFS已是目前最廣泛使用的節能技術,因此目前各家CPU晶片皆可支援DVFS動態電壓/頻率調整技術。本團隊研發的可調控電源管理技術,主要依據工作節點上的容器負載量進行CPU資源配置,將使得運行於邊緣雲運算管理平台之上工作負載,獲得恰當CPU資源進行任務的運算,藉此提高CPU的使用效率,達到在不影響工作執行效能的前提下降低能源的消耗。


下圖6為不同電源管理模式的耗電資訊。本實驗環境之相關資訊如下:(1)環境組態:具優先權保證之邊緣雲管理平台之Kubernetes Worker Nodes,共2台,其作業系統為Ubuntu 22.04。其實驗機制是逐步增加Kubernetes Pods數量至48個,每個Pod運行一個容器;(2)CPU Benchmark工具:本次實驗之CPU Benchmark工具為Geekbench [2][3],它是一款跨平台的處理基準測試程序,可以模擬真實使用場景的工作負載能力之評估準則,在Geekbench工具中其量測分數越高,代表CPU工作執行效率越高;(3)實驗設計:本實驗設計共分3種模式,以同樣方式執行容器的全負載測試,(a)ITRI Power Manager Mode,採用本團隊所研發的電源管理模式,在48個容器全負載的運作下,其消耗功率為485W,如下圖6藍色線條所示;(b)Power Saving Mode,將CPU工作頻率設成省電模式,在48個容器全負載的運作下,其消耗功率為390W,如下圖6綠色線條所示;(c)General Power Consumption Mode,採用作業系統既有電源管理模式,在48個容器全負載的運作下,其消耗功率為542W,如下圖6灰色線條所示。


由上述實驗結果發現,Power Saving Mode最省電,其消耗功率為390W,相對於原生模式其省電可達38.97%,且不會隨著Pods數量增加而產生變化;ITRI Power Manager Mode省電次佳,其消耗功率為485W,相對於原生模式其省電可達11.75%;原生模式消耗功率為542W。雖然Power Saving Mode為最省電的模式,但它的工作效率最低。在本次實驗中,在同樣的實驗環境下,透過Geekbench工具量測出來的單一CPU工作效率的分數,ITRI Power Manager Mode與General Power Consumption Mode分數一致,都是846分,但Power Saving Mode的分數為425分;在48個CPUs工作效率的分數,ITRI Power Manager Mode與General Power Consumption Mode分數一致,都是7307分,但Power Saving Mode的分數為4451分。綜整CPU運作效率與伺服器耗電數據而言,ITRI Power Manager Mode在不降低CPU工作效率下,也同時達到省電的目的,其性價比最高。

圖6 不同電源管理模式的耗電資訊

「具優先權保證之邊緣雲管理平台」具有以最少量的伺服器運算資源,支撐多樣性的運算需求,這樣的特色一直是系統整合與運營商追求的目標,因為可以降低營運成本及能耗的需求。因此,假若同一個時間區段內來自不同應用服務所產生的工作量是固定,「具優先權保證之邊緣雲管理平台」將以最少伺服主機資源同時滿足工作需求,也讓高優先權的工作能優先取得運算資源,並於要求時間內完成運算工作。此外,平台亦提供一個監控介面,如圖7所示,它協助維運團隊了解硬體資源被使用狀態,同時用來確認高優先權工作任務確實藉由搶占機制達到優先取得運算資源。

圖7 具優先權保證之邊緣雲管理平台之監控介面

具優先權保證之邊緣雲管理平台之未來布局

「具優先權保證之邊緣雲管理平台」除了持續深耕「具優先權保證的編排服務技術」與「可調控的電源管理技術」外,將透過實際場域進行「具優先權保證之邊緣雲管理平台」部署與維運,收集更多場域實際運作成果,進而研發出更佳的解決方案。未來將提供兼具優先權保證與能耗管理的邊緣運算解決方案給邊緣運算解決方案的系統整合商,並由他們部署至客戶端的作業環境。客戶端可藉由本解決方案獲得(1)硬體資源使用最佳化,提升平台使用率及降低營運成本及(2)平台的節能效益達10%以上。

結論

邊緣運算需求逐年增加,但邊緣運算環境無法像資料中心建置大量運算資源,硬體資源不太豐富,故只執行必要處理的運算工作。在此環境下就有可能造成重要且須被立即執行的應用服務無法被執行,採用「具優先權保證之邊緣雲管理平台」可以用低於75%的硬體資源,並保證高優先權工作一定會被執行,幫助企業降低邊緣運算環境之維運成本。

參考文獻

[1] Edge Computing Market Size, Share & Trends Analysis Report By Component . Available at: https://www.grandviewresearch.com/industry-analysis/edge-computing-market
[2] Dell Inc. PowerEdge R730 . Available at: https://browser.geekbench.com/v6/cpu/3314103
[3] Dell Inc. PowerEdge R730 . Available at: https://browser.geekbench.com/v6/cpu/3314162