工業技術研究院 資訊與通訊研究所 陳冠安 胡耕維 賴嘉閎

如何在有限的時間與資源下,讓機器人迅速學會有效的操作策略,是推動實際應用時面臨的主要挑戰。
前言
隨著人工智慧與機器學習技術的快速進展,智慧機器人在餐飲、醫療及製造等多元領域的應用愈發廣泛。然而,如何在有限的時間與資源下,讓機器人迅速學會有效的操作策略,依舊是推動實際應用時面臨的主要挑戰。模仿學習(Imitation Learning,IL)作為一種高效率的控制策略訓練方法,透過收集專家示範資料,使機器人能夠直接學習並複製專家的行為,明顯縮短了傳統強化學習需依賴大量試誤來獲得控制策略的時間成本。在這樣的背景下,示範資料的蒐集方式與品質成為影響策略學習成效的關鍵因素。此外,如何將已訓練的策略順利應用於實際的智慧機器人,同樣存在著從資料到真實部署的轉換落差。本文將針對上述核心議題,提出一套系統化的模仿學習策略訓練與實證流程,並以智慧機器人應用場景進行驗證,探討其可行性與限制,期望為未來模仿學習於真實環境的推廣提供理論與實務上的參考。
精彩內容
1.具多階段與時序依賴特性的倒粉漿操控任務設計 2.輕量化Vision-Language-Action 策略於真實機械手臂成功部署 3.少樣本微調技術有效因應不同場域變動 |
相關研究
近年智慧機器人需求快速成長,從單純的重複性作業,逐漸走向需理解場景、適應變化並自主完成複雜任務的方向[1]。相較於早期以固定軌跡與教導點為主的控制技術 [2],現代研究開始依賴示範資料與多模態感知,透過資料驅動方式提升機器人動作的靈活度與泛化能力。本章將從「控制方法」、「模型架構」與「訓練與部署流程」三個主題進行整理,說明相關技術的發展脈絡,並引出本研究所在的位置。
傳統機器人操作多以教導點設定或插補控制為主,能確保高精度與穩定性,但當環境或任務稍有變化即需重新調整流程[1][2]。為提升自適應能力,資料驅動方法逐漸興起,其中模仿學習(Imitation Learning,IL)透過示範資料學習專家策略,是常見的方式之一。
行為複製(BC)透過監督式學習將狀態映射至專家控制策略[3],但部署時容易受到誤差累積而偏離專家控制策略分布,也就是所謂協變數偏移(covariate shift)[4]。此外在光照、物理特性或任務規則變化下,也會進一步造成分布偏移(distribution shift)[5]。上述偏移無疑會讓策略模型在長序列操作的穩定性。為解決此問題,DAgger(Dataset Aggregation)持續蒐集代理執行時的新狀態,並由專家補標動作[6];GAIL 則以對抗式學習逼近專家行為分布[7]。近期亦發展出以多步行為序列生成為核心的擴散策略(Diffusion Policy),利用逐步去噪的方式建立多步動作序列,能較好處理多模態與時間相關性,並改善長序列操作中的不穩定問題[8]。
-
模型架構(Methods Architectures)
隨著任務複雜度提升,單靠視覺模態難以應對多階段或語意驅動的場景。為讓策略具備語意理解與跨任務能力,研究者提出視覺-語言-動作(Vision-Language-Action,VLA)模型,整合視覺、語言與動作三種資訊。常用的示範資料集如OXE[9]與DROID[10],提供大量多樣化操作樣本,支援模型的跨任務預訓練。
代表性的模型包括OpenVLA,以自回歸架構產生動作序列並利用近百萬筆示範資料進行微調[11];以及以flow-matching機制生成多步行為的π0,其能透過逐步去噪生成策略行為,進一步提升在複雜任務中的序列建模能力[12]。這類模型展現了以語意條件化指令驅動操作的能力,使機器人能在不同場景中執行更靈活的動作。
-
訓練與部署流程(Training & Deployment Pipeline)
儘管大型模型展現跨場景的潛力,但在真實系統中仍面臨延遲、硬體資源與資料覆蓋度不足等挑戰,使其部署在邊緣裝置上並非易事。為此,本研究採用輕量化VLA模型作為核心,並提出示範蒐集、少樣本微調與部署驗證流程,以提升模型在真實場景的適應性。
以餐飲場域的粉漿傾倒任務為例,本研究透過Teleoperation蒐集示範資料,以Few-Shot微調方式校正策略,使模型能面對光照、容器位置與操作節奏的變動。最終實驗證明,輕量化模型能在資源受限的設備上達成即時、穩定的操作,具備實務落地的可行性。
模仿學習導向之策略訓練流程
本章說明模仿學習導向之策略訓練與部署流程,並以煎鬆餅作業中的「倒粉漿」任務為應用情境。該任務包含機械手臂接近、抓取並穩定移動粉漿容器,調整端末姿態完成傾倒後,安全放回指定位置。整體操作涉及抓取、定位與連續傾倒等多階段控制,具長序列、環境敏感與高精度等特性,適合作為驗證模仿學習效益之應用場景。依「倒粉漿」任務說明系統架構、示範資料蒐集、訓練策略與模型部署流程,呈現IL技術於智慧機器人任務的完整落地過程。
本研究提出一套模仿學習導向之控制策略訓練與部署流程,旨在提升智慧機器人於真實場域的操作效率。整體流程分為三個階段:示範資料蒐集、策略訓練與真實部署測試。此架構可有效縮短導入時程,並提升應用落地可行性。
示範資料為模仿學習策略成效的核心依據,因此本研究依任務特性規劃資料蒐集流程,以確保模型能學習具人類意圖的連續操控行為。
所蒐集資料主要包含三類:(1)視覺觀測資料,用以掌握操作場景與物件位置;(2)運動資訊與連續控制指令,描述機械手臂操控行為之時序特徵;(3)動作任務標註(語意標註),協助模型理解操作目標與動作意圖。
本研究在模型選型上以智慧機器人實務部署需求為主要考量。由於邊緣運算裝置受限於效能與功耗,控制策略模型須兼具輕量化與低延遲推論能力。因此,本研究採用視覺語言動作整合架構VLA模型為基礎,並選擇參數規模較小的SmolVLA [13]作為控制策略生成模型。
SmolVLA延續π0架構,以更輕量的骨幹網路設計實現約4.5億(450M)參數量,遠低於多數十億級VLA模型,可於邊緣裝置上高效運行,同時滿足即時操控的延遲與運算需求。
在「倒粉漿」任務中,部署時常面臨Domain Shift(如光照變化或容器位置差異)導致模型表現不佳。若每次變化皆需重新蒐集大量示範資料,將造成龐大的研發成本。SmolVLA整合多樣化示範資料(涵蓋抓取、移動與傾倒等操控技能),具良好策略泛化能力,適合以少量示範資料進行策略修正,特別適用於場景變化頻繁的真實應用環境。為提升模型在異質環境下的適應性,本研究採用Few-Shot微調策略(Few-Shot Adaptation)進行快速調整,當操作環境出現Domain Shift(如容器初始位置或光照條件改變)時,僅需少量新示範資料便可完成策略微調。
實驗設計與結果分析
針對前述策略訓練與部署流程進行驗證,以分析模仿學習於實際餐飲作業中的效能與限制。研究以煎鬆餅作業中的「倒粉漿」任務為應用場景,該任務包含抓取、移動、傾倒與放置等多階段連續操控,對定位精度、視覺穩定與策略連貫性要求高,具代表性驗證價值。
為模擬真實餐飲環境並驗證所提策略部署流程,本研究採用Techman Robot TM-12協作機械手臂作為操控主體,具中距離抓取與多方向運動能力(設備規格如表1)。末端夾具使用Robotiq 2F-85自適應雙指夾爪,能對應不同容器外形並維持穩定夾持。控制策略模型之動作指令經ROS傳輸至機械手臂;為確保推論與實際動作一致,系統以Modbus TCP擷取關節角度與末端姿態,提供模型掌握當前機械手臂姿態。
表1 實驗配置-機械手臂與夾爪選型
| 設備類型 |
設備型號 |
自由度 |
重量 |
有效負載 |
|
| 機械手臂 |
Techman Robot TM12 |
6 |
33kg |
12kg |
最大伸展長度1,300 mm |
| 夾爪 |
Robotiq 2F-85 |
2 |
0.9kg |
5kg |
行程 85 mm |
環境配置上,機械手臂前方設有工作桌,右側放置粉漿容器與藍色隔熱墊,左側配置電磁爐與平底鍋作為傾倒目標。任務流程定義如圖1所示,一共分成四個流程:起始狀態:機械手臂移動前的準備動作;夾取容器:機械手臂自隔熱墊抓取粉漿容器並抬離桌面;至鍋子上方傾倒:粉漿容器自桌面移動至平底鍋上方完成傾倒動作;容器放回:將粉漿容器穩定放回隔熱墊上方結束任務。需確保整體控制流暢與穩定,並避免粉漿溢出。

圖1 煎鬆餅應用之倒粉漿動作流程拆解
示範資料由操作者以遠端操作(Teleoperation)方式錄製。如圖2左側所示:本研究採用LeRobot SO-100作為示範資料錄製介面,透過關節對應(Joint-to-Joint Mapping)即時映射至圖二右側的工業型Techman Robot TM-12協作手臂之關節空間,達到機械手臂同動的目的。此設計具低阻力回饋與直覺關節映射,操作者可無須撰寫控制程式碼的情況下,快速完成示範動作錄製。

圖2 示範資料錄製:以SO-100與TM-12同動
為使模仿學習模型掌握倒粉漿任務之視覺感知、動作控制與任務語意,本研究依任務特性設計示範資料格式與標註內容(如表2所示)。資料集包含三類核心資訊,如下:
1.視覺觀測資料(Visual Observation)
本研究透過雙視角攝影機同步錄製,提供模型完整的場景幾何資訊。
- 正視視角(Front View)用於辨識場景布局與容器位置
- 側視視角(Side View)提供末端與平底鍋間相對位置及傾角資訊,以建構完整幾何理解。
2.運動資訊(Robot Motion Data)
讓模型捕捉操作者自然的控制行為,紀錄:
- 關節角度(Joint States)
- 末端夾具狀態(Gripper State)
- 連續控制指令,反映人員自然操控行為之動作邏輯。
上述訊號以8 Hz更新頻率記錄,呈現人類操控機械手臂進行倒粉漿時的動作邏輯與時序關連。
3.動作任務標註(Language Instruction)
以自然語言標註操作階段,使模型理解行為目的與任務轉換。例如:
- “Pour water into the pan”
- 此語意標註用於協助模型辨識不同操作階段與任務轉換,使策略能從任務意圖出發產出對應動作。
為便於理解示範資料格式,以單筆示範資料展開如圖3所示。
- 下方(視覺):以短片序列記錄雙視角影像;
- 左上(狀態訊號):Joint States與Gripper State控制指令連續波形
- 右上(語意標註):對應該回合倒粉漿任務的Language Instruction。
此資料格式同時保留動作時序、幾何與語意特徵,使模型能有效學習傾倒策略,並支援少樣本微調以快速適應不同場景。
表2 訓練用資料參數與規格
| 資料類型 |
技術規格 |
| 視覺資料(Front/Side View) |
RGB,640×480解析度,8 FPS,同步擷取 |
| 控制訊號與機器人狀態 |
8 Hz更新頻率,包含Joint States與Gripper State控制指令 |
| 動作任務標註(Language Instruction) |
Pour water into the pan |
| 示範資料規模 |
共50回合示範(Trials),總時長約46分鐘 |

圖3 單筆示範資料庫資料內容
此外,如圖4所示,為提升資料多樣性,本研究於蒐集過程中刻意引入位置與初始姿態變化。每次任務資料蒐集時,研究人員會刻意調整粉漿液容器的初始位置(紅框標註),避免模型因環境單一而降低泛化能力。

圖4 粉漿容器的初始化位置變化
本研究以SmolVLA為策略生成模型,使用倒粉漿任務示範資料進行少樣本微調。模型訓練在配置2張GPU- NVIDIA RTX 6000 Ada Generation的Ubuntu系統上執行,流程則基於HuggingFace LeRobot框架配置。
模型以速度控制量為輸出,採用MSE(L2)為動作回歸損失,並以AdamW優化器更新參數。為降低運算成本並確保即時部署,訓練階段固定視覺骨幹(Frozen Vision Encoder),僅微調動作生成層參數,使策略專注於環境差異下的運動調適。
輸入包含兩視角RGB影像(256×256×3)及機械手臂狀態(6維 Joint States),共進行20,000步(steps)訓練,批量大小64,學習率初始化為1×10⁻⁴,並採Warmup + Cosine Decay策略以維持訓練穩定性。
本研究於策略訓練階段採用SmolVLA為策略生成模型,經20,000次參數更新後完成訓練。如圖5所示,本研究透過六項主要指標:訓練步數、樣本累計、損失函數、梯度正規化、學習率變化與每步更新耗時分析策略模型的訓練成效。

圖5 模型訓練各項參數指標曲線
損失函數(train/loss)於初期快速下降,由約0.11收斂至0.0047,顯示模型已有效擬合示範資料中的連續動作分布,並掌握倒粉漿任務的軌跡與姿態調整。梯度正規化(train/grad_norm)由前期大於1降至約0.10,參數更新穩定,未出現梯度爆炸或震盪。學習率(train/lr)依Warmup + Cosine Decay排程逐步下降,前期促進探索,中後期維持平穩收斂。
在運算效能方面,訓練共處理1,280,000筆資料、約69.28個epoch,平均每步更新耗時0.814秒(train/update_s)。整體曲線呈穩定下降與良好收斂,顯示示範資料設計與微調流程能有效提升策略對幾何關係與傾倒動作的掌握,為後續實體部署奠定穩定基礎。
本研究將完成訓練與少樣本微調後之輕量化SmolVLA策略模型部署於實體餐飲操作情境,以驗證其於真實環境下的控制能力與穩定性。實驗結果顯示:機械手臂在接收自然語言指令後,能自主完成倒粉漿作業全流程,包括抓取容器、移動至平底鍋上方、調整端末姿態傾倒粉漿及將容器放回指定位置(如圖6所示)。整體過程無需教導點設定與人工補正,展現策略具任務語意理解與動作連續性。
在雙視角2D影像感知條件下,策略能穩定推論容器相對位置與傾斜角度,確保傾倒動作的安全與即時性。然而,部署實驗亦揭露其限制:當容器位於指定區域內時,抓取成功率約為50%–60%。失敗多發生於夾具接近容器時的邊緣碰撞,造成容器移位,而非策略判斷錯誤。此結果顯示策略於複雜視覺輸入下的精準定位能力仍有改進空間,特別在高精度抓取任務中,對深度與遮蔽變化仍敏感。
整體而言,所提出的模仿學習控制策略已成功落地於餐飲操作場域,展示輕量化VLA模型於多步驟與交互式操控任務的應用潛力。實驗同時指出,視覺定位穩定性與抓取精度為影響整體效能的關鍵因素。未來可結合多模態感測(如深度或力回饋)及高層任務規劃模組,以提升策略於商用部署中的成功率與一致性。

圖6 倒粉漿操作展示
結論與未來展望
本文以餐飲服務中的粉漿傾倒任務為案例,建立一套兼具效率與泛化能力的模仿學習流程。核心採用輕量化Vision-Language-Action模型SmolVLA,透過多視角影像與語言提示,使策略具備場景理解與動作生成能力。搭配Teleoperation示範與Few-Shot微調,能在少量資料下完成動作學習。實驗結果顯示,系统在粉漿傾倒任務中具有良好的成功率與操作安全性,可於資源有限的邊緣裝置即時運作,證明其具備落地部署的可行性。
在技術貢獻方面,本研究展示了VLA模型在餐飲操作情境中的實務效益,成功將語意理解融入動作控制,並提出一套縮短訓練週期、減少資料需求的訓練流程。此外,本研究亦驗證輕量化模型在操作型任務中可兼具即時性、穩定性與低延遲特性,提供業界可直接採用的部署路徑。
研究亦揭露現階段的核心限制。模型仍主要依賴2D影像,因此對光照、遮蔽與視角變化較敏感;粉漿傾倒涉及流體動態,現階段動作仍以示範擬合為主,對流量與落點的控制精度有限;策略方面,模仿學習雖能快速學到高品質行為,但在長序列、多階段或跨任務操作上仍欠缺高層推理能力。未來若結合深度與力回饋感測、多層級策略架構(如HiRobot[14])、或示範輔助強化學習(Relay Policy Learning[15]、ConRFT[16]),有望提升穩健性與跨情境適應力。
整體而言,本研究證明輕量化VLA模型具備餐飲操作任務的部署潛力,並指出未來突破操作複雜度與穩健性的可能方向,為智慧機器人於高操作密度場域的落地應用奠定基礎。
參考文獻
[1] S. An et al., "Dexterous manipulation through imitation learning: A survey," arXiv preprint arXiv:2504.03515, Apr. 2025.
[2] M. Alshahrani, A. Alshahrani, and M. Alshahrani, "Robot manipulator control using a robust data-driven method," Robotics, vol. 7, no. 9, pp. 1–18, Sep. 2023. [Online]. Available at: https://www.mdpi.com/2504-3110/7/9/692
[3] B. Zheng, S. Verma, J. Zhou, I. Tsang, and F. Chen, "Imitation learning: Progress, taxonomies and challenges," IEEE Trans. Neural Netw. Learn. Syst., vol. 21, pp. 1–21, Oct. 2022.
[4] S. A. Mehta, Y. U. Ciftci, B. Ramachandran, S. Bansal, and D. P. Losey, "Stable-BC: Controlling covariate shift with stable behavior cloning," IEEE Robot. Autom. Lett., 2024. [Online]. Available at: https://collab.me.vt.edu/Stable-BC/
[5] T. Xue, A. Razmjoo, S. Shetty, and S. Calinon, "Robust manipulation primitive learning via domain contraction," arXiv preprint arXiv:2410.11600, Oct. 2024. [Online]. Available at: https://arxiv.org/abs/2410.11600
[6] S. Ross, G. J. Gordon, and J. A. Bagnell, "A reduction of imitation learning and structured prediction to no-regret online learning," arXiv preprint arXiv:1011.0686, Mar. 2011. [Online]. Available at: https://arxiv.org/abs/1011.0686
[7] J. Ho and S. Ermon, "Generative adversarial imitation learning," arXiv preprint arXiv:1606.03476, Jun. 2016. [Online]. Available at: https://arxiv.org/abs/1606.03476
[8] C. Chi et al., "Diffusion policy: Visuomotor policy learning via action diffusion," arXiv preprint arXiv:2303.04137, Mar. 2023. [Online]. Available at: https://arxiv.org/abs/2303.04137
[9] A. O'Neill et al., "Open X-Embodiment: Robotic learning datasets and RT-X models," in Proc. IEEE Int. Conf. Robot. Autom. (ICRA), 2024.
[10] A. Khazatsky et al., "Droid: A large-scale in-the-wild robot manipulation dataset," arXiv preprint arXiv:2403.12945, 2024.
[11] M. J. Kim et al., "OpenVLA: An open-source vision-language-action model," arXiv preprint arXiv:2406.09246, 2024.
[12] K. Black et al., ": A vision-language-action flow model for general robot control," arXiv preprint arXiv:2410.24164, 2024.
[13] M. Shukor et al., "SmolVLA: A vision-language-action model for affordable and efficient robotics," arXiv preprint arXiv:2506.01844, 2025.
[14] L. X. Shi et al., "Hi robot: Open-ended instruction following with hierarchical vision-language-action models," arXiv preprint arXiv:2502.19417, 2025.
[15] A. Gupta, V. Kumar, C. Lynch, S. Levine, and K. Hausman, "Relay policy learning: Solving long-horizon tasks via imitation and reinforcement learning," arXiv preprint arXiv:1910.11956, 2019.
[16] Y. Chen, S. Tian, S. Liu, Y. Zhou, H. Li, and D. Zhao, "ConRFT: A reinforced fine-tuning method for VLA models via consistency policy," arXiv preprint arXiv:2502.05450, 2025.