智慧工廠作業導引與驗證應用

技術探索

智慧工廠作業導引與驗證應用

2022-06-22

工業技術研究院資訊與通訊研究所姚昌皜、劉柏凱

混合實境技術融合真實世界和虛擬場景，創造嶄新的沉浸式體驗效果。

受到製造業回流、全球經濟成長影響，2021年第四季製造業年增長率25.03％，整體產值達4兆3156億元[1]。其中電腦電子產品及光學製品業因第五代行動通訊（5th generation mobile communication, 5G）、人工智慧物聯網（Artificial Intelligence and Internet of Things, AIoT）與元宇宙（Metaverse）話題影響，伺服器與相關終端產品需求大增，導致製造工廠擴增產線，連帶電腦電子產品及光學製品業年增長率達到13.62％。製造業的產值持續成長，如何使製造業更加智慧化成為重要的課題。

目前國內外針對智慧製造大多專注於自動化生產、生產設備資訊整合與自動光學檢查（Automated optical inspection, AOI）等技術，雖然自動化生產已取代一部分的人工需求，但在製造過程中人工仍占有很高的比例。而自動光學檢查能有效地檢查出因人為因素而有瑕疵的產品，但後續產品重新生產與檢查的人事、物力等成本相當高。

根據內政部統計，2020年起已連續兩年人口負成長[2]，台灣少子女化的問題日趨嚴重，且本國勞工趨向做關鍵性的工作，製造業等勞力密集產業勞動力不足的挑戰也浮上檯面。製造業對於外籍移工需求日益增加，但受疫情影響導致雇主必須遵守外籍移工入境隔離與分流上班等防疫規定，造成外籍移工流動性不佳，無法即時補充或調配人力。

對於製造業而言，產品瑕疵與延遲出貨不但會使公司商譽受損，人為疏失也可能引發工安意外，使公司面臨停工、賠償等法律問題，更有可能使員工受到嚴重、不可逆的傷害或死亡。因此，如何設計一套系統解決員工經短時間教育訓練後便能快速投入工作、作業時導引員工依規範進行特定工序操作、驗證員工是否依照標準作業流程執行等三大問題，以提升人工生產的工藝與品質，進一步降低人為錯誤的發生，減少重新生產與產品損壞造成的成本損失，便成為製造業迫切的需求。

精彩內容

1. 混合實境技術應用於人工組裝製造
2. 人工智慧技術應用於人工組裝製造

混合實境技術應用於人工組裝製造

人類是典型的視覺動物，透過靜態文字、圖片與聲音媒介雖然可以表達所需資訊，然而資訊的傳達效率差，不同員工也會有不同程度的理解，容易發生訊息傳達上的錯誤，以致於員工通常在產線實際操作後，才能有較好的體驗與理解，正因如此，在新手訓練時期，員工往往容易發生不當操作或工安意外等人為錯誤。混合實境（Mixed Reality, MR）技術融合真實世界和虛擬場景，創造嶄新的沉浸式體驗效果，除了可以更直觀地理解工序外，相比於影片的單一視角，MR技術可以透過不同角度觀看場景，更可以直接放大及拆解虛擬物件，避免角度單一的影片或靜態圖片因手部操作、拍攝死角或工件太小等遮蔽問題加大員工學習門檻。

沉浸式教育訓練

目前大部分組裝製造業大多以紙本的作業規範或操作手冊方式學習，少數有教學影片可以觀看，這些手冊和影片都是經由主管或經驗老道的員工修改編撰而成，為了更有效地將經驗傳承下去，建立數位化的標準作業流程資料庫，儲存原始紙本訓練資料裡的文字、圖片與教學影片，以及沉浸式教育訓練需使用的場景與零組件3D模型，使這些經驗資料的應用更加有效率。藉由工研院開發的沉浸式教育訓練子系統，主管透過遠端主機或員工透過頭戴式裝置選擇要訓練的項目，教育訓練子系統就會至標準作業流程資料庫中調用相對應的資料。

初階的訓練可選擇使用全虛擬模擬的方式，將組裝的流程一步一步呈現於虛擬世界中，如果在訓練過程中員工有操作錯誤的地方，虛擬物件不會造成物品損壞，也不會有安全疑慮。訓練過程中，透過頭戴式裝置或放置在旁邊的攝影機全程錄製，員工經由重播可清楚理解操作錯誤的過程與正確操作的方式。在進入正式工作環境前，主管可藉由編排不同腳本情境考核員工對於標準作業流程的熟習程度，甚至於員工考核過程中，主管使用遠端主機控制新的異常事件發生，試驗員工對於突發狀況的應變能力，提升員工在未來實際環境中的反應速度。

虛擬標記導引與回饋

進階的訓練方式可結合實際組裝物件與虛擬標記導引員工熟習操作過程，也可將虛擬標記用於實際產線的生產過程中，避免員工忘記冗長的標準作業流程中所規範的工序，此方法遠比貼在工作檯前的紙本工序更加直覺與清楚。其中，虛擬標記需定位在真實的3D空間中，如圖1所示，為了減少定位的偏移，頭戴式裝置需感知使用者的位置與真實世界的環境，使用者的位置可用掃描包含位置資訊的QR code，或者使用物件辨識技術進行特徵比對完成定位，真實世界的環境則由頭戴式裝置上的兩支光學攝影機或光達攝影機建立同時定位與地圖構建（Simultaneous Localization and Mapping, SLAM）[3]。也就是將真實環境轉化成3D虛擬地圖，頭戴式裝置依物件與使用者的相對位置資訊將虛擬標記定位在3D虛擬地圖上，然後根據使用者的視角渲染在視角內的虛擬標記。另外，頭戴式裝置也可呈現工廠設備提供的統計資訊，主管在巡視工廠時，能全面掌握每個設備及員工的工作狀況。

圖1 虛擬標記導引與輔助說明於頭戴式裝置顯示

多人遠距協同作業

現行企業的研發端和生產端距離都相當遠，當生產端發生需由研發端協助解決的問題時，只能透過視訊通話或是專人親自至現場解決，甚至有些設備機台是由國外進口，當設備損壞無法由國內的工程師解決時，廠商需花費許多金錢與人力委託國外原廠派遣工程師至國內進行協助，所以如何改善多人遠距協同作業也是提升人工作業品質的一環。工研院開發多人遠距協同作業子系統，當生產端發生問題時，操作員配戴頭戴式裝置與遠端的專家協同作業，藉由頭戴式裝置解決以前視訊通話需要手持的問題，讓操作員更有效率地用雙手執行操作，也讓遠距協同作業的過程更加安全。

頭戴式裝置會將操作員的第一視角和現有的虛擬標記傳輸至遠端主機上，遠端專家透過操作遠端主機直接在畫面上新增虛擬標記與標準作業流程，其中虛擬標記可選擇劃記固定樣式或隨意塗寫的形狀。頭戴式裝置於接收遠端主機新增虛擬標記和虛擬物件後，即結合頭戴式裝置的仰俯角等九軸資訊，將遠端主機畫面上點擊的位置映射至虛擬世界的位置，並將虛擬標記定位在虛擬世界中，最後呈現在頭戴式裝置中。目前工研院開發的系統在即時傳輸畫面時的延遲時間平均約400毫秒，透過在真實世界中疊合遠端專家所指示的虛擬標記能有效提升遠距協作的溝通效率，且遠端專家於任何時間地點都可即時提供協助與快速解決問題，進一步降低停工所帶來的損失。

圖2 工研院開發遠距協同作業系統圖

人工智慧技術應用於人工組裝製造

工研院應用人工智慧（artificial intelligence, AI）與電腦視覺技術，驗證員工在組裝過程中是否依造標準作業流程操作，且在人為錯誤發生前，以警示燈、螢幕或聲音等方式即時警示員工，如果單一員工錯誤頻繁發生，訊息將同步發給產線主管，使產線主管透過強化教育訓練或調整工作內容以降低人為錯誤的發生率。組裝製造業的標準作業流程通常包含四種規範：組裝零件樣式、組裝位置、組裝結果與組裝方式。除了組裝方式規範操作員應以何種動作進行組裝，以及執行對應的操作次數避免在組裝過程中發生產品損壞之外，其餘都是規範物件的外觀，所以驗證技術可分成組裝物件正確性驗證與動作正確性驗證。

正確性驗證系統

工研院開發的正確性驗證系統使用架設在產線上的攝影機拍攝員工的操作動作和組裝物件，攝影機的架設會隨著不同的工廠環境、光線、生產設備而調整，有些產線需要架設多支攝影機以拍攝基於不同目的的視訊結果，例如：架設視野較大的攝影機清楚拍攝操作員動作，以及視野較小解析較高的攝影機取得小物件的清晰影像，使系統可順利辨識操作員的動作與較小的螺絲、電容等物件。與攝影機連接的終端擷取到畫面後，便將畫面進行影像壓縮減少單支攝影機的通訊流量，壓縮後的畫面資料透過5G通訊系統回傳至邊緣運算伺服器進行AI運算，計算完的結果經由5G通訊回傳至終端，終端會依據不同工作站點的作業腳本進行正確性判斷，如果系統檢測到錯誤發生，操作員端的警示設備會發出提醒，目前系統約在300毫秒左右即可完成結果判斷。

圖3 正確性驗證系統架構說明

訓練人工智慧模型

在工研院開發的系統中，邊緣運算伺服器負責人工智慧的推論與訓練，並且控管終端對應的工作站點、每個工作站點的作業腳本內容以及人工智慧模型的版本。人工智慧模型與架構分為物件辨識與動作辨識兩種。物件辨識用以識別畫面中關鍵的組裝物件，在訓練物件辨識用的人工智慧模型時，首先會分析與定義標準作業流程裡所需辨識的組裝零件樣式、組裝位置與組裝結果等物件辨識類別，接著在實際場域中藉由架設好的攝影機收集每一種類約2,500～3,500筆的訓練資料，每筆訓練資料以成對的圖像與組裝物件位置描述檔儲存。系統使用YOLO（You Only Look Once）第四版[4]為物件辨識模型架構，當邊緣運算伺服器接收到產線主管的訓練指令後，將取用收集到的訓練資料，訓練出人工智慧模型的網路參數，最後將訓練好的網路參數使用在推論上，目前物件辨識的準確率達到96％。

動作辨識的架構分為骨架辨識與動作分類兩個階段，骨架辨識階段會偵測畫面中的手部關節點，接著連接關節點形成手部骨架，此外，人的姿態同時具有空間及時間特徵[5]，所以於動作分類階段需使用當前與過去一段時間的手部骨架位置資訊進行動作類別分析，目前動作分類需要1秒以內的手部骨架資訊以確保準確性符合場域應用。動作分類階段使用圖卷積神經網路（Graph Convolutional Networks, GCN）[6]分析萃取手部姿態的空間特徵。GCN的核心概念是由卷積神經網路（Convolutional Neural Network, CNN）轉化而來，最大的差異在於GCN是針對離散的圖（Graph）做卷積分析，用來理解圖的空間特性，除了分析空間特徵外，這些手部骨架資訊亦應用長短期記憶（Long Short-Term Memory, LSTM）[7]神經網路架構萃取時間特性，最後分類器接收空間特徵及時間特徵用以分類最後的動作種類。與物件辨識流程相似，需在開始訓練前分析及定義需要辨識的目標動作，然後收集實際產線上不同人操作的動作影片作為訓練資料，每一類動作約收集1,500～2,500筆訓練資料，每筆訓練資料是由影片與對應的動作類別組成，最後由邊緣運算伺服器透過前述的網路架構訓練出人工智慧模型的網路參數，目前動作辨識的推論準確率達到94％。

圖4 人工智慧動作辨識架構圖

結論

工研院製造作業步驟導引與驗證團隊藉由5G通訊的大頻寬與低延遲特性，將大量終端的視訊資料傳輸至邊緣運算伺服器或遠端主機，整合MR與AI技術提供人工組裝製造業「教」、「導」、「驗」三個後勤支援到實際產線的服務需求，降低製造過程中人為錯誤的發生，導致人事與物力成本損失。目前團隊將持續優化AI技術與系統整合，使運算的準確率更高、速度更快，並將骨架辨識的結果回饋至MR的虛擬人物上，使身處異地的人員可共同進行訓練、遠距教學的多人團隊合作更加真實，對於需要協同作業的工作可以完整地模擬呈現。

參考文獻

[1] 邱琮皓. (2022) 2021年Q4製造業產值續創歷年單季新高[online]. Available at:https://www.chinatimes.com/realtimenews/20220218002100-260410?chdtv
[2] 內政部. (2022) 最新統計指標 [online]. Available at:https://www.moi.gov.tw/cp.aspx?n=602
[3] The MathWorks website. (2022) What Is SLAM? [Online]. Available at:https://www.mathworks.com/discovery/slam.html
[4] Alexey Bochkovskiy et al. (2022) The YOLO v4 Github homepage. [Online]. Available at:https://github.com/AlexeyAB/darknet
[5] Sijie Yan, Yuanjun Xiong and Dahua Lin, “Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition, “The Thirty-Second AAAI Conference on Artificial Intelligence (AAAI-18), pp. 7444-7452, Feb. 2018.
[6] Thomas N. Kipf (2016) GRAPH CONVOLUTIONAL NETWORKS. [Online]. Available at:https://tkipf.github.io/graph-convolutional-networks/
[7] S. Hochreiter and J. Schmidhuber, “Long Short-term Memory, “Neural Computation, vol. 9, issue 8, pp.1735-1780, Nov.1997.