工業技術研究院 資訊與通訊研究所 洪權甫 應雨軒 許凱棋 張鈞為

隨著深度學習與大型模型技術的進步,資料驅動式機器人學習(data-driven robotics)已成為智慧製造的重要方向。
前言
隨著深度學習與大型模型技術的進步,資料驅動式機器人學習(data-driven robotics)已成為智慧製造的重要方向。特別是在模仿學習(Imitation Learning,IL)與機器人基礎模型的推動下,機器人能藉由大量、高品質且流暢的示範資料進行行為學習,展現更好的泛化能力。但此類模型高度依賴人類遙控操作資料(Human Teleoperation Data),而資料收集常受硬體差異與控制介面不一致限制,使系統難以跨硬體共用。
現有遠端操控(Teleoperation)系統多依特定硬體或特定場景設計,例如針對單一品牌機械手臂(e.g., Universal Robots[1], Techman Robot[2])開發專屬介面。此方式雖能在單一任務中運作良好,但在跨平台資料蒐集或多機種應用時,需重新整合通訊協定與控制命令,增加開發與維護成本。此外,現有研究框架(e.g., LeRobot[3], RoboSet[4], MimicPlay[5])雖提供資料格式與模型訓練方式,卻缺乏統一的遠端操控抽象層(Teleoperation Abstraction Layer),仍不利於通用化。
為解決上述問題,本研究提出一套可抽換輸入與輸出之通用型遠端遙控架構(Modular Teleoperation Framework)。該架構以遠端遙控中介層(Teleoperation Bridge)整合輸入端與輸出端,將輸入資料統一轉換為關節指令(Joint Command),並對應至指定機械手臂之控制協定,使研究者能以一致流程進行資料收集、模仿學習訓練與跨硬體驗證,大幅提升系統重用性與擴展性。
本文主要貢獻如下:(1)提出硬體無關(Hardware-agnostic)的通用遠端操控架構;(2)建立與不同框架相容的模組(在此以LeRobot為例),使標準化資料能驅動實體手臂;(3)以TM12進行實體驗證,展示架構在角度追蹤精度與即時性上的可行性。本研究期望促進未來模仿學習資料收集與跨平台機械手臂協作的整合與應用。
精彩內容
1.通用遠端操控架構的提出 2.從人類操作到模仿學習資料集 3.跨硬體即時控制與驗證 |
相關研究
近年來,雖然機器人策略模型取得了長足發展,但將這些模型部署於真實硬體,特別是跨越不同品牌機械手臂時,仍面臨嚴重的硬體異質性瓶頸。主流機械手臂雖在物理結構和控制目的上相似,但核心差異在於以下三點:
- 控制介面與通訊協定:各品牌採用專屬協定,例如Universal Robots使用RTDE,Techman Robot使用Modbus TCP/RTU。這使得跨平台資料蒐集或多機種操作必須重新整合通訊與控制命令。
- 運動學與動態差異:不同機型的規格差異顯著,如臂長、負載、速度與精度不同。例如,本研究中的LeRobot SO100屬於小型示範手臂(前臂長≈13cm),而TM12屬於大型工業手臂(前臂長≈65cm)。
- 上層抽象層的缺乏:雖然存在如MoveIt Servo等橋接方案,但業界普遍缺乏一個統一且可抽換輸入/輸出的Teleoperation抽象層,無法在不修改上層資料與模型(如LeRobot格式)的前提下,串接到不同品牌的實體控制輸出。
本研究提出的通用架構(Open-TeleOP)正是透過建立遠端操控中介層(Teleoperation Bridge),將異質輸入統一轉譯為標準化關節角指令(Joint Command),從根本上解決上述瓶頸,實現品牌隔閡的終結。
「擴散式策略」與「時序分塊式Transformer」已在近年成為機器人操作策略學習的兩大主要技術方向。代表性方法擴散式策略(Diffusion Policy)將視覺—運動策略建模為條件式去噪擴散過程,在多項操作基準任務上皆優於傳統策略,展現其在高維連續動作與多峰分布情境下的穩健性。另一方面,Action Chunking Transformer(ACT)透過動作分塊與序列生成,即使在低成本硬體與短示範資料下,也能學得精細的雙臂操作。後續如MT-ACT更將此方向推廣至多任務場景。這類研究共同強調:高品質人類示範對策略穩定性至關重要。
與上述專注於單一平台資料的路線不同,「跨體素資料整合」也逐漸成為主流。Open-X Embodiment / RT-X釋出了涵蓋二十餘種機器人體素、達百萬軌跡規模的資料集與模型家族,大幅提升跨平台泛化性與技能遷移的可行性,再次凸顯了大型且多樣化資料的重要性。同時,社群亦出現愈加完整的開源工具鏈,如LeRobot,聚焦模仿與強化學習的資料格式、訓練流程與實機工具,降低研究者在資料導入與部署實驗時的摩擦。
儘管大型策略模型可減少手工設計成本,但其性能仍高度依賴Teleoperation示範的「品質」與「覆蓋範圍」。除了以人工遙操作直接收集資料外,近年作品MimicGen[7]展示了使用少量人工示範自動合成大量、多樣化資料的方法,可覆蓋不同場景、物件與操作流程,不僅降低示範成本,也提升模型在長序列任務上的訓練品質。
此類合成系統為「示範稀缺」提供務實解方,但也更加依賴一致的資料結構與可重用的Teleoperation介面,才能使擴增後的資料順利回饋到真實機器人控制環境中。
在實機部署階段,通訊協定與控制介面的異質性是跨機種Teleoperation重複開發的主要瓶頸。常見方案包括:
- MoveIt Servo(ROS/ROS 2)[8,9]提供即時關節/末端速度與位姿伺服接口,可接收各式Teleoperation輸入(手柄、體感、視覺伺服),並具備奇異點與碰撞處理,適合作為「高層策略→低層控制」的橋接層。
- UR系列(UR3-e等)以RTDE(Real-Time Data Exchange)[10]與URScript提供高頻率狀態交換與指令下發,在標準TCP/IP上即可建立雙向同步控制。
- Techman TM系列(如TM12)透過Modbus TCP/RTU[11]與TMflow設計的暫存器地址,允許外部系統讀寫狀態並驅動控制流程。
然而,儘管各平台皆提供可用介面,研究者在跨TM、UR等機械手臂時,仍需花費大量精力進行協定對接與資料轉換。缺乏的是一個統一且可抽換輸入/輸出的Teleoperation抽象層,能在不修改上層資料與模型(如LeRobot)的前提下,將多來源的Teleoperation輸入、串接到不同品牌機械手臂的輸出。
這正是本研究欲填補的缺口:建立一個能在多硬體間直接移植的中介層,降低跨機種整合成本並提升重現性。
整體而言:
- 策略層面:已有擴散式策略、分塊式Transformer等成熟方法。
- 資料層面:存在跨體素大規模資料與MimicGen等合成擴增工具。
- 系統層面:仍缺乏將「模型/資料」與「實體控制」無縫銜接的通用Teleoperation框架。
因此,本文提出一個可抽換輸入/輸出的中介層設計,並透過LeRobot→TM12實機驗證其跨硬體的可用性與可擴充性。
通用型遠端遙控架構
本架構分四區塊討論,輸入界面、輸出界面、外部輸入、遠端遙控中介層,本架構主要目的在模仿學習與機器人基礎模型發展使用,透過此架構生成所需用之資料集。

圖1 通用型遠端遙控架構圖
本研究提出一個可抽換輸入與輸出之通用型遠端遙控架構,其架構如圖1所示。此系統核心在於建立通用的抽象化界面,能夠以統一協定整合不同類型的輸入與輸出裝置。輸入端可彈性接入多種控制來源(如LeRobot Leader或Apple Vision Pro),透過遠端遙控中介層將輸入訊號轉譯為標準化控制命令,並輸出至機械手臂控制端。輸出端同樣具備抽象化設計,使不同品牌與規格的機械手臂(如TM12、UR10)皆可無縫接入。此外,系統在執行過程中會同步記錄輸入指令、實際手臂狀態與環境回饋,形成可用於資料驅動型學習(Data-driven Learning)之高品質資料集,為後續模仿學習提供實證基礎。
在介紹輸入介面(Input interface)設計以前,本研究先關注Robot State API(RsAPI),其為整個輸入界面之核心關鍵。透過RsAPI,可即時取得遙控手臂於當前時刻之關節角度資料(未來研究方向則可延伸至關節力矩)。依據不同的設備特性與介面需求,研究者可設計相應的RsAPI實作。以LeRobot為例,我們可透過串流方式讀取STS3215馬達的編碼器(Encoder)資料,即可獲得六個關節的角度資訊。接著,只需依照輸入介面之規格格式化這些角度資料,即可完成輸入層的設計與整合。
在實作過程中,需特別注意資料同步性與一致性。首先,六個關節資料必須在相同時間點取得,並保持固定的輸出順序,以避免控制訊號錯置。其次,應注意當馬達轉至臨界角度(如0°或360°)時,是否存在角度值不連續(Discontinuity)問題,以確保資料的連續性與可解析性。
輸入介面可採用多種資料格式,包括文字型式(例如Comma-Separated Values, Tab-Separated Values, JavaScript Object Notation)或二進位型式(例如Protocol Buffers, MessagePack)。本研究為求實作效率與除錯便利,選擇以Comma-Separated Values(CSV)方式呈現,其優點在於可快速驗證資料正確性並簡化開發流程。
輸出介面(Output Interface)的設計核心在於與Robot Control and State API(RcsAPI)的互動。RcsAPI為虛實整合(Cyber-Physical Integration)的關鍵組成,其主要功能在於同時取得機械手臂的實際狀態並下達控制指令。
在狀態回饋部分,RcsAPI需能即時取得各關節之角度資訊與對應的時間戳記(Timestamp),以確保控制命令與實際姿態同步對應。未來的延伸研究可進一步納入力矩(Torque)資訊,以提升系統在力控與順應控制(Compliance control)上的表現。
在控制部分,RcsAPI必須能夠精確地下達各關節控制指令,並回傳執行結果或異常狀態。由於輸出介面在執行過程中同時需處理輸出命令與狀態回饋兩種任務,因此建議RcsAPI採用多執行緒(Multi-threading)架構,以確保資料讀寫並行處理、降低延遲並提升整體控制效能。
外部輸入界面(External interface)的設計重點在於資料錄製與實際驗證,此部分亦是模仿學習(Imitation Learning)能夠運行的關鍵基礎。根據相關文獻[12,13,14],多數模仿學習模型皆仰賴高品質的感知資料來源,特別是RGB影像,甚至包含深度資訊(Depth Data)。因此,為了支援後續模仿學習與資料驅動控制研究,本研究架構預先設計並開放了通用型外部輸入介面(Generalized External Input Interface),以提供研究者在不同環境與任務下的高度擴充性與彈性。
透過該介面,系統可方便地整合多樣化的感測來源(例如相機、深度感測器或力回饋裝置),並將這些輸入資料與手臂控制狀態進行時間同步(Temporal synchronization),以形成結構化的資料集。此設計不僅能支援即時操作的驗證,也能為後續的學習模型提供可重現、可分析的高品質資料來源。
遠端遙控中介層(Teleoperation Middleware Layer)的核心功能在於建立輸入與輸出之映射關係(Transformer),並同步記錄系統中所有狀態資訊以生成結構化資料集。此中介層位於整體架構的核心位置,負責接收來自輸入介面的控制訊號,轉譯後傳遞至輸出介面,同時整合外部輸入感測資料(如影像與深度資訊),以確保資料時序一致與語意對齊。
透過該中介層,系統能自動化地完成控制訊號、機械手臂狀態與外部感測資料的同步記錄,生成可直接用於模仿學習(Imitation Learning)的高品質資料集。本研究以Open-X Embodiment與RT-X為輸出格式實例,並設計Dataset converter模組,使錄製資料能依據不同資料集格式需求自動轉換,確保資料具通用性與可擴充性。
技術驗證成果與分析
本項目的通用型遠端遙控架構,允許輸入與輸出裝置的靈活配置與替換。本團隊其中一種硬體配置如圖2~圖3所示,主要由LeRobot SO100(作為遠端操作介面)與TM12機器手臂(作為執行端)構成。透過操作SO100,可實現對TM12機器手臂的遠端程序控制,驅動其進行準確的對應動作如影片1。

圖2 LeRobot SO100(前臂長:≈13cm,後臂長:≈14cm)

圖3 TM12機器手臂(前臂長:≈65cm,後臂長:≈70cm)
技術驗證成果與分析
實際遠端操作流程說明
影片1以SO100進行遠端控TM12機器手臂夾取桌上杯子的一系列動作示範一個使用通用型遠端遙控技術,動作流程如下:
- 開爪
- 移動大臂至杯子上方
- 操作小臂向下靠近並以夾爪抓取杯子
- 移動大臂往箱子移動
- 移動大臂至箱子上方
- 鬆開夾爪將杯子放入箱子
本研究之可抽換輸入與輸出之通用型遠端遙控架構,成功地將SO100(小型)機器手臂的運動軌跡和姿態,完全如實地對應至TM12(大型)機器手臂的動作上。此外,此架構亦能延伸應用於SO100對UR機器手臂的控制。這些實測結果強而有力地佐證了本技術在不同類型機器手臂之間實現控制指令轉移的高度可抽換性。
本架構的核心價值在於其高度的可重用性與擴展性。這體現在兩個面向:
- 跨品牌重用(TM/UR):透過抽象化RcsAPI,本系統得以將統一的Joint command映射至不同品牌的實體控制協定。雖然實機驗證聚焦於TM12,但我們的中介層已設計成可替換的輸出模組,理論上能無縫銜接至採用RTDE協定的UR系列機械手臂。此設計成功地消弭了硬體控制層的相依性,讓研究者能以一致的操作流程完成跨平台資料收集與驗證。
- 輸入/資料格式擴展:輸入端兼容LeRobot框架標準化的資料格式,未來可快速整合更多異質輸入裝置,例如Apple Vision Pro或其他感測來源。此外,錄製資料可透過Dataset converter模組自動轉換為Open-X Embodiment/RT-X等通用資料集格式,進一步提升資料的泛用性與模型遷移的可行性。
結論
本研究針對資料驅動式機器人學習在跨裝置資料蒐集與策略部署時所面臨的硬體耦合問題,提出一套可抽換輸入與輸出之通用型遠端遙控架構。藉由在控制流程中引入中介轉譯層,本系統得以將異質化的Teleoperation輸入信號統一為抽象化之Jointcommand介面,並再映射至不同品牌之實體控制協定(如TM Modbus、UR RTDE)。此設計成功消弭輸入裝置、資料格式與硬體控制層之間的相依性,並在不改動上層策略模型或資料結構的前提下,提升跨平台遷移能力與系統重現性。
實驗驗證顯示,本架構於TM12商用機械手臂上皆能達成穩定且連續的動作追蹤,並呈現高度一致的關節運動趨勢。從角度序列對應分析可觀察到,即便硬體動態範圍與關節具象化形式存在差異,控制指令仍能經由比例映射與動作一致性維持策略達到有效對齊,顯示本系統具有低延遲與動作一對一映射可靠性。上述結果證明,本架構具備支援資料驅動控制流程端至端落地之能力,可直接用於擴增模仿學習所需之動作資料集,並支援策略模型之實機驗證。
儘管本架構已展現高度可行性,仍存在若干挑戰與限制:(1)跨尺度映射挑戰:實驗中,小型SO100對大型TM12的控制,主要挑戰在於動態範圍的比例對齊與動作一致性維持,目前仍需人工設定比例系數,尚未完全達成自適性映射。這顯示在模仿學習(IL)資料收集時,比例映射的精細度對動作品質至關重要。(2)目前控制方式主要依賴Joint-level command,尚未進行視覺與力回饋之同步整合。(3)系統穩定度尚未於高動態或多接觸情境中進行完整測試。
未來將朝以下方向持續深化:(1)導入Impedance control與力回授以提升動作精細度與安全性;(2)結合大規模示範資料庫與Foundation policy models(如RT-X、MimicPlay、Diffusion Policy等)進行跨體素泛化能力驗證;(3)實現資料收集、策略訓練與實機執行之閉環自動化流程,推動資料驅動機器人應用擴展至多場域、多手臂協同操控。
綜上所述,本研究奠定一個具備通用性、擴展性與可重製性的Teleoperation介面技術基礎,將有助於降低機器人學習研究在真實硬體導入之技術門檻,並促進智慧製造領域邁向跨平台協作、模型共享與知識遷移的下一階段發展。此成果亦預期能成為學界與產業界在推動Robot foundation models實際落地時的重要連結橋樑[15]。
參考文獻
[1]universal robots, “Collaborative robotic automation | Cobots from Universal Robots,” Universal-robots.com, 2019. https://www.universal-robots.com/
[2] “Techman Robot | TM12,” Techman Robot, Aug. 14, 2023. Available at: https://www.tm-robot.com/zh-hant/tm12/ (accessed Oct. 28, 2025)
[3]huggingface, “GitHub – huggingface/lerobot: 🤗 LeRobot: Making AI for Robotics more accessible with end-to-end learning,” GitHub, 2024. https://github.com/huggingface/lerobot
[4]“RoboSet Dataset,” Github.io, 2025. https://robopen.github.io/roboset/ (accessed Nov. 03, 2025).
[5]“MimicPlay | Long-Horizon Imitation Learning by Watching Human Play,” Github.io, 2023. Available at: https://mimic-play.github.io/ (accessed Nov. 03, 2025).
[6]“Open X-Embodiment: Robotic Learning Datasets and RT-X Models,” Github.io, 2024. Available at: https://robotics-transformer-x.github.io/
[7]“MimicGen,” Github.io, 2023. Available at: https://mimicgen.github.io/
[8]Open Robotics, “ROS.org | Powering the world’s robots,” Ros.org, 2020. Available at: https://www.ros.org/
[9]“Realtime Servo — MoveIt Documentation: Rolling documentation,” Picknik.ai, 2025. Available at: https://moveit.picknik.ai/main/doc/examples/realtime_servo/realtime_servo_tutorial.html
[10]“RTDE,” Universal-robots.com, 2025. Available at: https://www.universal-robots.com/developer/communication-protocol/rtde/
[11]“Modbus Protocol,” www.modbustools.com. Available at: https://www.modbustools.com/modbus.html
[12]NVIDIA, “GitHub - NVIDIA/Isaac-GR00T: NVIDIA Isaac GR00T N1 is the world’s first open foundation model for generalized humanoid robot reasoning and skills.,” GitHub, 2025. Available at: https://github.com/NVIDIA/Isaac-GR00T
[13]M. Shukor et al., “SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics,” arXiv.org, 2025. Available at: https://arxiv.org/abs/2506.01844
[14]openvla, “GitHub - openvla/openvla: OpenVLA: An open-source vision-language-action model for robotic manipulation.,” GitHub, 2024. Available at: https://github.com/openvla/openvla
[15] ChatGPT. (GPT-5). OpenAI. Accessed: Oct. 28, 2025. [Online]. Available at: https://chat.openai.com