技術探索

基於數位雙生的智慧機器人大腦研發

工業技術研究院 資訊與通訊研究所 楊欣曄 蔡東展 陳明彥 郭昱廷 紀佃昀 江家浩 周宏春

結合日益強大的視覺-語言-行動(VLA)模型,機器人對環境的感知與決策能力將持續提升,能處理更複雜的操作任務。

前言

本文基於Real-to-Sim架構,建置一個完整的虛擬廚房數位雙生環境,涵蓋烹飪設備、食材模型與六軸機械手臂等要素。透過模擬過程自動生成大量訓練數據,用以訓練視覺-語言-動作(Vision-Language-Action,VLA)模型。最終,該模型成功部署於實體工業機械手臂,實現自動化煎製鬆餅的任務,展現虛擬訓練與真實操作之間的高擬真轉換能力。

 精彩內容

 1.Real to Sim數位雙生環境搭建:Isaac Sim中的虛擬廚房
 2.機器人大腦訓練資料生成流程
 3.從模擬到實體的部署

Real to Sim數位雙生環境搭建:Isaac Sim中的虛擬廚房

搭建實體廚房場域以供機器人訓練資料收集與任務驗證的成本較高,除了硬體設備建置外,操控機器人於開放場域進行任務動作資料收集耗時且費人力。因此,近年來多以搭建數位雙生環境,並藉助如Nvidia Isaac Sim這類基於物理渲染的先進機器人模擬平台,於虛擬環境中進行機器人模擬[1]。然而,過往利用3D掃描儀或人工手刻3D場景與物件模型太過耗時且成本高,故現行主流以RGB環景影像搭配深度感測資訊,進行場景重建。

因應開放型場域,機器人需感知與偵測環境中物件與其空間資訊,以避免碰撞,使後續移動路徑規劃可正確且有效完成任務。故搭建高擬真之數位雙生環境為首要目標。於機器人模擬與訓練而言,虛擬場景擬真度可分為外觀視覺與幾何擬真兩部分,外觀視覺擬真度高,可確保機器人在感知偵測環境時準確率提高,而幾何擬真度高,可確保機器人在移動及抓取物件時,可正確避障並成功抓取。此外,虛擬場景中物件物理屬性賦予正確,亦可有效幫助機器人於虛擬場景中驗證任務成功率,以降低模擬到真實世界的誤差[2]。

藉由3D Gaussian Splatting(3DGS)進行場景快速重建,並參考物件表面材質與動態影片,進行物理屬性生成,以達成高擬真數位雙生場景搭建。如下圖1所示。

圖1 物件建模示意圖

本研究運用3D Gaussian Splatting(3DGS)技術,搭配Nvidia Isaac Sim快速建置高擬真的虛擬廚房環境。具體作法與技術細節如下:

  1. 場景重建核心技術:採用3DGS進行場景的快速重建,這種方法優於傳統耗時且成本高的3D掃描或人工手動建立3D模型。
  2. 建模流程:影像拍照擷取(Image Capture):可使用本研究自行開發之iOS APP工具進行影像擷取,也可自行直接上傳物件360環繞拍攝的影片。
  3. 3DGS建模:在雲端利用3DGS建模,將影像轉化為點雲形式的3DGS模型。
  4. 模型轉換(Model Conversion):將3DGS模型進一步轉換為網格(Mesh)格式,以模擬如碰撞與接觸等物理反映。
  5. 物理屬性賦予:除了Mesh建模,本技術還參考物件的表面材質與動態影片,進行物理屬性生成。正確的物理屬性賦予,有助於機器人在虛擬場景中驗證任務成功率,進而降低模擬到真實世界的誤差。
  6. 模擬器整合:最終將Mesh模型與處理好的物理屬性導入Nvidia Isaac Sim等基於物理渲染的先進機器人模擬平台中,用於機器人模擬與訓練。

虛擬場景的擬真度分為外觀視覺和幾何擬真兩部分。透過上述流程來確保3D物件與場景的外觀與幾何擬真度。外觀視覺擬真度高可確保機器人感知與偵測環境時的準確率提高。幾何擬真度高則可確保機器人移動和抓取物件時,能正確避障並成功抓取。

機器人大腦訓練資料生成流程

機器人於開放場域任務訓練可分為模仿學習與強化學習兩大類,其中強化學習受限於任務獎勵函數制定,若獎勵函數制定太過困難,會造成任務訓練無法收斂,而獎勵函數制定太多簡單、考慮因素太少,則可能造成訓練後於真實場域驗證時失敗。故而透過大量人為示範資料之模仿學習成為機器人訓練主流,但因一個機器人任務(如:夾取、移動、旋轉……等)需大量示範資料,且涵蓋物件種類愈多愈好,後續機器人泛化性更好,故而收集資料成本過高。因此透過數位雙生生成訓練資料,取代大量人為示範資料,能降低資料生成成本[3][4][5]。

訓練資料生成的研究主要結合物理模擬器Isaac Sim、手臂作業系統ROS2與手臂軌跡生成演算法(如:MoveIt2, CuMotion, RMPFlow)進行,流程如圖2所示。虛擬場景重建完成後,將所需之系統、軟體開啟,在Isaac Sim中將場景與障礙物資訊匯入,透過動作規劃演算法進行軌跡規劃並於虛擬場景中執行,且將執行過程中所需之相機視角畫面錄製與抓取手臂動作相關資訊,包含端點位置、各軸角度、各軸速度等,最終確認本次規劃結果是否成功達成,給予標籤;再重新布局場景後,重複匯入場景與障礙物、執行規劃並錄製、最終判斷任務是否成功。基於上述流程所生成的訓練資料如下圖3所示,分別是手臂執行任務的影像與執行該任務時手臂的參數。

圖2 訓練資料生成流程圖

圖3 訓練資料生成示意圖

本研究的創新點與優勢在於整合了3DGS快速重建技術與物理屬性生成,以高效能、低成本的方式打造機器人訓練所需的高擬真數位雙生環境。

  • 加速場景建置:透過3DGS快速重建場景,顯著降低了傳統3D掃描或人工建模耗時且高成本的門檻。
  • 確保高擬真度:確保虛擬場景的外觀視覺與幾何兩方面的擬真度,進而提高機器人感知偵測的準確率,並確保手臂抓取和避障的正確性。
  • 優化Sim-to-Real的轉移:透過參考材質和動態影片來正確賦予物件物理屬性,有效幫助機器人驗證任務成功率,大幅降低模擬訓練結果與真實世界操作之間的誤差。
  • 數據生成基礎:快速建置的高擬真環境,是後續利用模擬器自動生成大量VLA訓練數據,取代昂貴的人為示範資料的基礎。

VLA模型的訓練與架構

近年來,隨著大型語言模型與基礎模型的迅速發展,在龐大資料的推動下,透過非監督式學習所訓練出的模型已能有效描述資料分布,展現出高度的泛用性。這類模型能夠處理文字、影像等多模態輸入,並生成具備邏輯性的文字或影像,因而廣泛應用於各產業領域,例如工廠內部問答系統、決策輔助代理、以及瑕疵影像生成等。

目前,多家國際科技公司已相繼推出自有的大型語言模型,包括Meta的Llama 4[6]、Google的Gemini[7]、以及OpenAI的GPT-4o[8]。這些模型的更新迭代速度極快,通常每半年至一年便會推出新版本,顯示相關技術正處於高速演進階段。

然而,如何將大型語言模型或基礎模型有效應用於機器人相關場景,目前仍處於百家爭鳴的階段。雖然國際間已有多家公司(如Figure AI[9]、Boston Dynamics[10]、Tesla[11]、Agility Robotics[12]、以及宇樹科技[13])推出人形機器人本體,但目前多數產品仍缺乏支撐自主行為決策的能力,其智慧化程度仍有待進一步突破。

為了賦予機器人自主決策與控制能力,自2022年起,許多國際大廠(如Google DeepMind)及頂尖研究機構(如Berkeley、Stanford等)陸續提出針對機器人領域的基礎模型,統稱為VLA模型。由於這些研究單位與企業已在多個場域部署大量機器手臂,並建立完善的實體資料蒐集平台,能夠系統化地蒐集龐大實體資料,再結合強大的運算資源,最終訓練出多個具代表性的機器人基礎模型,如RT-2[14]、π0[15]、π0.5[16]、OpenVLA[17]、Octo[18]、以及GR00T[19]等。

值得注意的是,這些模型的資料與參數大多未公開,限制了外部研究與應用的可行性。然而,少數模型如OpenVLA與GR00T已釋出模型參數,並整合現有公開資料集於Open X-Embodiment[20],為後續技術開發提供了可行的起點。以下以OpenVLA架構圖為例進行架構說明:

圖4 OpenVLA之架構圖[12]

由圖4中可見,機器人基礎模型VLA結合了視覺分析基礎模型(如DinoV2[21]、SigLIP[22])與大型語言模型(如Llama),並透過設計專用的tokenizer,將影像、文字與動作訊號映射至同一特徵空間,進行聯合訓練以獲得最終模型。在模型訓練上,不同手臂來源的資料都會先透過正規化過程轉換到統一的動作空間上,這個步驟可讓不同手臂所蒐集的資料一起進行訓練學習,得到一個通用的決策神經網路,最後在實際應用中,這些基礎模型仍需針對目標任務蒐集實體資料並進行微調(如透過RoLA訓練機制),方能有效完成指定任務。

從模擬到實體的部署

由於機器人相關資料的蒐集相對困難,雖然目前已有部分公開的機器人資料集,但其規模與大型語言模型所依賴的龐大資料量相比仍存在顯著差距。因此,若要基於現有的機器人基礎模型來驅動機器人執行特定任務,仍須透過客製化的資料蒐集與模型微調,方能有效改變並優化機器人的行為表現。

本文以餐飲場域中的「煎鬆餅機器人」作為案例,說明整體流程設計。由於現行機器人基礎模型大多僅能處理簡單的操作,例如物品的抓取、推動與拉動等基本動作,而在煎鬆餅過程中涉及的多項行為(如判斷鍋面溫度)尚無法單純依靠現有感測器或基礎模型完成,因此本系統將整體流程切分為多個功能單元。如下圖5所示,於實際應用落地階段,系統中由機器人基礎模型支援的功能單元(AI-based)將以VLA架構實現,而其他功能單元則採用規則式方法(Rule-based)完成,以確保系統在靈活性與穩定性之間取得平衡。在VLA的部分,採用模擬與實體混合資料學習的方式調整神經網路;先利用上述擬真模擬環境建置技術,生成各式各樣的模擬場景,並透過虛擬手臂在模擬環境中進行取物,蒐集感測器輸入與對應的行為控制之相關訊號,快速得到一定數量的模擬訓練資料;此外,透過實體機械手臂,以遙控等方式蒐集少量真實操作之實體資料;最後,根據所產生的模擬資料與所蒐集的真實資料,以特定的比例、設計的訓練流程,讓機器人基礎模型循序漸進地進行微調,使其能針對特定動作展現更高的靈活性與適應性,進而完成任務。

圖5 拆解煎鬆餅細部流程。AI-Based的部分透過VLA技術實現,Rule-based的部分透過固定點位實現

如下圖6所示,本技術已於2025台灣機器人與智慧自動化展中,與達明機器人和Nvidia聯合展出,展示結合VLA模型以完成自動煎製鬆餅任務之應用案例,充分展現本研究於實務場域的落地成果。

圖6 VLA煎鬆餅於台灣機器人與智慧自動化展展出

未來展望

隨著3D Gaussian Splatting等快速場景重建技術的成熟,開發者將能更迅速地打造高擬真的數位雙生場景用於機器人訓練,降低實體資料蒐集的成本與門檻,使開發團隊可以在模擬中生成更多樣且大量的訓練數據,涵蓋更廣泛的任務場景與物件種類。結合日益強大的VLA模型(視覺-語言-行動模型),機器人對環境的感知與決策能力將持續提升,能處理更複雜的操作任務。隨著這類基礎模型不斷迭代(例如未來更先進的Llama或Gemini版本),機器人有望具備更高的泛化能力,縮小模擬與真實環境間的差距,進一步提高從模擬到實體部署的成功率。

文中展示了機械手臂在餐飲領域(煎鬆餅任務)中的應用潛力。展望未來,此類結合數位雙生與VLA模型的技術可延伸至更多餐飲烹飪工序,例如自動化炒菜、調製飲品,甚至整合多步驟的料理流程。隨著機器人基礎模型逐漸成熟,許多原先依賴人工規則控制的細節(如食材狀態判斷)將可由AI模型接手,提高系統的自主性與適應力。同時,跨領域的應用也將增加,服務型機器人可望運用類似方法擴散至其他產業(如零售、醫療照護),透過模擬預先訓練並經由少量實際環境資料的微調,快速學習新任務。未來,數位雙生技術與VLA機器人模型的深度結合將驅動服務型機器人發展進入新階段,不僅能提升餐飲自動化的效率與彈性,也為各產業的機器人應用開創更多可能性。

參考文獻

[1] X. Li, et al. "Efficient Scene Reconstruction for Robotic Simulation Using Panoramic RGB-D Data." International Conference on Robotics and Automation (ICRA), 2025.
[2] Z. Zhang, et al. "Physical Property-Enhanced Sim-to-Real Transfer for Robot Learning in High-Fidelity Digital Twins." International Conference on Robotics and Automation (ICRA), 2025.
[3] J. Wang, et al. "MobRT: A Digital Twin-Based Framework for Scalable Robot Training via Imitation Learning." arXiv preprint arXiv:2510.02796, 2025.
[4] Y. Mu, et al. "Dual-Arm Robot Benchmark with Generative Digital Twins." IEEE Robotics and Automation Letters, 2025.
[5] Q. Qin, et al. "Robot digital twin systems in manufacturing: Technologies, applications, and opportunities." Journal of Manufacturing Systems, 2025.
[6] https://ai.meta.com/blog/llama-4-multimodal-intelligence/
[7] Gemini Team Google, “Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context,” arXiv preprint arXiv:2403.05530, 2024.
[8] OpenAI Team, “GPT-4o System Card,” arXiv preprint arXiv:2410.21276, 2024.
[9] https://www.figure.ai/
[10] https://bostondynamics.com/
[11] https://www.tesla.com/en_eu/AI
[12] https://www.agilityrobotics.com/
[13] https://www.unitree.com/cn
[14] A. Brohan, et al. “RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control,” Conference on Robot Learning(PMLR), 2023.
[15] K. Black, et al. “π0 : A vision-language-action flow model for general robot control,” arXiv preprint ARXIV.2410.24164, 2024.
[16] K Black, et al. “π0.5 : a vision-language-action model with open-world generalization,” arXiv preprint arXiv:2504.16054, 2025
[17] M. J. Kim, et al. "Openvla: An open-source vision-language-action model." Conference on Robot Learning(CoRL), 2024.
[18] Octo Model Team, "Octo: An open-source generalist robot policy,” arXiv preprint arXiv:2405.12213, 2024.
[19] NVIDIA Team, “GR00T N1: An Open Foundation Model for Generalist Humanoid Robots,” arXiv:2503.14734, 2025.
[20] Open X-Embodiment Collaboration, “Open X-Embodiment: Robotic Learning Datasets and RT-X Models,” arXiv:2310.08864, 2024.
[21] M. Oquab, et al. "Dinov2: Learning robust visual features without supervision." arXiv preprint arXiv:2304.07193, 2023.
[22] X. Zhai, et al. “Sigmoid Loss for Language Image Pre-Training,” ICCV, 2023.