技術探索

想怎麼動就怎麼動-以生成式AI驅動虛擬人動作

工業技術研究院 資訊與通訊研究所  呂坤憲  蘇奕宇  范庭維

前言

在智慧生活的浪潮下,虛擬人技術已成為提升互動性與沉浸體驗的關鍵元素。從影視娛樂、虛擬客服到虛擬展間等應用場景,各領域皆因更生動、擬真的虛擬人形象而受益。然而,傳統產製虛擬人動作的方式高度仰賴操作繁瑣的動作捕捉設備,不僅耗時費力,也使中小型創作者難以負擔其成本與門檻。隨著生成式AI(Generative AI, GenAI)技術的迅速發展,虛擬人動作的產製過程正邁向簡便、靈活與低成本的方向發展。本文提出長語句虛擬人動作生成技術,用戶僅需輸入文字腳本,即可生成對應語意的動作內容,並能串接至3D動畫軟體綁定與驅動虛擬角色,相較於既有動作生成服務,本技術可產製長達1分鐘以上的動作片段,展現更高的應用性。以下說明虛擬人動作產製技術趨勢以及本文提出的技術架構與發展現況。

 精彩內容

 1.虛擬人動作產製趨勢
 2.GenAI 驅動虛擬人的應用服務
 3.技術架構與發展現況

虛擬人動作產製趨勢

  • 3D動作捕捉技術的發展

近年來,3D動作捕捉技術(Motion Capture, MoCap)在遊戲、動畫、虛擬製作及 VR/AR應用領域中扮演著關鍵角色。根據國外市場研調機構Mordor Intelligence指出,全球3D動作捕捉市場規模預計將從2025年的2.81億美元增長至2030年的5.3億美元,年均增長率達13.5% [1]。傳統的動作捕捉技術主要分為光學與非光學系統,前者依靠標記點追蹤以達到高精度,但設備成本昂貴且需在受控環境下使用;後者則透過穿戴式慣性測量單元(Inertial Measurement Unit, IMU)來記錄人體動作,具有更高的靈活性,然而在精度與穩定性上不如光學式系統,不適用於精準度要求較高的應用情境。無論採用哪種技術,過去的動作捕捉方式普遍面臨高昂成本、設備限制及數據處理繁瑣等問題,這些門檻使得中小型內容創作者難以負擔使用。

  • 生成式AI動作生成技術的崛起

隨著深度學習與生成式AI的發展,透過生成式AI模型直接生成虛擬人動作的技術逐漸成熟。相較於傳統動作捕捉,AI動作生成技術不需真人錄製,能以更低成本、更高效率產生豐富的虛擬角色動作。當前具代表性的AI動作生成方法包括擴散模型(Diffusion Models)[2]、變分自動編碼器(Variational Autoencoder, VAE)與生成對抗網路(Generative Adversarial Network, GAN)[3]、潛在一致模型(Latent Consistency Models)[4]等方法,搭配人體動作語言資料集(Motion-Language Dataset),進行文字生成動作(Text-to-Motion)的模型訓練;而在推論階段,這些方法透過使用者輸入的文字描述(Text prompts),例如輸入一段文字「A person kicks with his left leg.」,便可由生成式AI模型產生符合此文字描述的虛擬人動作資料,包含身體關節點位置、角度、旋轉等,再與3D虛擬人模型整合以驅動虛擬人作動,適合應用於電商虛擬客服或是遊戲NPC及數位內容創作等,降低動作產製成本與時間。儘管GenAI動作生成技術帶來諸多優勢,但仍面臨許多問題與挑戰,包括如何提升虛擬人動作的真實性與多樣性、改善對動作的可控制性,以及確保虛擬人與場景、物件的互動性等。

GenAI驅動虛擬人的應用服務

  • 擴散模型驅動的動作生成介紹

目前在虛擬人動作生成領域,以擴散模型來實現自然且流暢的3D動作為主流作法,核心概念類似於圖像生成領域的Stable Diffusion模型 [5],代表性方法為「人體動作擴散模型」(Human Motion Diffusion Model, MDM)[2],此方法採用大規模3D人體運動語言資料集:HumanML3D [6],包含14,616段人體動作,每段動作有3句文字描述,平均每段動作時間長度為7.1秒(最長為10秒),進行GenAI擴散模型訓練,在訓練過程逐步添加雜訊來擾動原始動作資料,讓GenAI模型學習如何反向擴散雜訊以得到乾淨的動作資料;而在推論階段,將輸入的文字進行1,000回合(Steps)的反覆去除雜訊與加入雜訊,最終使GenAI模型能夠根據文字描述產生相應的動作序列資訊,運作流程如圖1所示。然而,目前的動作擴散模型仍然存在推論時間較長且僅能生成短秒數的動作序列等問題,單句文字的動作生成時間約需30秒以上,且主要適用於簡單動詞或短語句的動作生成。此外,由於是透過文字描述來生成動作表現,使用者需透過加入副詞或形容詞(如快、慢、輕微、生氣、次數)調整動作內容與風格,以產生符合期待且具有差異的動作表現,但實際測試使用時,即使經多次生成,也未必能得到符合需求的動作生成結果,在實際應用上仍有其局限性。

圖 1 人體動作擴散模型運作流程 [2]

  • AI動作生成商業應用服務

在商業應用方面,目前已有一些業者推出基於GenAI技術的3D動作生成服務,包含Krikey [7]、Vmotionize [8]及DeepMotion [9]等,讓使用者能夠透過輸入簡單的動作描述來生成虛擬角色動作。這些服務主要應用於遊戲角色製作、動畫製作、虛擬導覽等領域。例如,Krikey提供AI動畫製作工具(Text Animation Maker),透過線上輸入文字描述,例如欲表現的動作動詞或描述短語句,經由GenAI產生動作資料並套用至虛擬角色,亦提供使用者下載動作檔案,並匯入至其他3D動畫軟體使用;Vmotionize則專注於多模態AI生成,除了文字轉3D動畫外,還能處理影片與音樂生成3D動畫,並與Live3D平台 [10]合作,用於VTuber虛擬角色的動作驅動;DeepMotion則提供GenAI動畫工具-SayMotion,一樣讓使用者透過簡單的文字描述,包含動作類型、方向、身體部位、情緒等,在幾分鐘內生成虛擬角色動作。上述這些商業工具目前仍以輸入動作動詞或簡單語句,生成固定時間或短秒數長度之動作為主。

技術架構與發展現況

前述的動作生成技術或產品服務皆基於單一語句或簡短描述來生成動作,導致生成的動作片段通常僅限於10秒內,且難以連貫地表現較長的文字描述需求。為突破此限制,我們發展「長語句虛擬人動作生成技術」,主要結合大型語言模型(Large Language Model, LLM)與MDM動作擴散模型,將長語句拆解為多個短語句,再分別生成各子動作序列,研發動作銜接過場機制進行平滑過渡,使最終生成的動作序列長度可達1分鐘以上,提升虛擬人動作生成的應用性與表現力。

  • 系統架構與運作流程

系統架構主要由五大模組組成(如圖2),包括:文句分析、動作生成、動作銜接過場、動作品質評估以及動作資料處理。各模組功能簡述如下:

圖 2 長語句動作生成技術運作流程

  1. 文句分析模組:我們使用LLaMA(Large Language Model Meta AI)語言模型[11]並結合LoRA(Low-Rank Adaptation)微調技術[12],建置8,136組長短語句對應資料集進行文字拆解模型訓練與微調,能將使用者輸入的長語句拆解為多個短語句,並保持文字拆解前後的語義與詞彙的相似度。
  2. 動作生成模組:我們基於MDM動作擴散模型,以HumanML3D資料集重新訓練微調,進一步提升動作準確度與生成品質,解決原擴散模型在某些動作表現的不正常行為,例如行走但卻走離地面,使模型能夠根據文字拆解後的短語句,生成對應的3D動作序列。
  3. 動作銜接過場模組:我們針對各子動作序列之間的過場與銜接,加入動作握手區塊(Handshake Block),在動作生成過程,不斷將前後子動作的尾首動作資料進行合併銜接與過場,最終達到動作的平滑過渡,避免動作間的跳動與不自然感,確保動作銜接的流暢度。
  4. 動作品質評估模組:為確保生成動作的品質,我們將生成的動作序列進行忠實度(Faithfulness)、自然度(Naturalness)及活躍度(Activeness)評分,並將分數提供使用者參考,其中忠實度評估動作是否與文字描述一致,自然度則是評估動作是否連貫且符合人體工學,而活躍度則以身體肢體向量變化率進行分析,提供動作活躍程度的評分。
  5. 動作資料處理模組:我們將生成的動作序列轉換為基於SMPL(Skinned Multi-Person Linear)之人體模型[13],包含身體22個關節點的X,Y,Z座標、旋轉及位移資訊,並進行身體關節點平滑抖動處理,確保動作序列的流暢性,再輸出為通用的3D動作格式如FBX(FilmBox)檔案,提供使用者匯入Blender、Unity、Unreal Engine等3D動畫軟體,以綁定虛擬角色模型,使虛擬角色能依照生成的動作流暢且自然的動起來。
  • 應用案例

為方便使用者操作使用動作生成服務,我們建置一個文字生成動作的應用展示網頁(如圖3),提供使用者透過網頁輸入中文或英文的文字描述,並設定生成的參數,包含欲生成的動作樣本數量、每句的動作長度、動作握手區塊的長度等,按下生成按鈕後,稍候一段時間即可生成動作檔案;在此,以將一段文字拆解為7個單句為例,平均動作生成時間為每句12秒,便可預覽動作生成的結果與各子動作的自然度、忠實度及活躍度等分數,並進行動作檔案的生成產製,完成後可下載並匯入至3D動畫軟體進行應用。

圖3 文字生成動作的展示網頁與應用網頁(請點圖片可觀看Demo 影片)

結論

以GenAI驅動虛擬角色,突破了傳統3D動作捕捉技術的限制,能以更高效且低成本的方式生成自然流暢的3D動作序列,本系統透過長語句拆解與動作銜接過場技術,已能提供長度超過1分鐘的長動作序列生成產製,但由於生成的動作仍帶有一定的隨機性,應用至3D場景內虛擬角色的動作行為仍有局限性,因此,未來研發方向,可朝複雜動作語義理解、動作控制與編輯、場景與物件感知互動以及多角色互動等技術發展,進一步控制虛擬角色基於3D場景空間環境與內部物件或其他虛擬角色進行互動,以擴大動作生成的應用範圍,藉由更自然且多樣化的虛擬角色動作,提升用戶在3D虛擬場景與虛擬角色的互動性與沉浸感。

參考文獻

[1] Mordor Intelligence, 3D Motion Capture Market Size & Share Analysis (2025-2030), Available at https://www.mordorintelligence.com/industry-reports/3d-motion-capture-market
[2] G. Tevet, S. Raab, B. Gordon, Y. Shafir, D. Cohen-Or, and A. H. Bermano, "MDM: Human Motion Diffusion Model," in Proc. of The International Conference on Learning Representations (ICLR), 2023.
[3] W. Zhu, X. Ma, D. Ro, H. Ci, J. Zhang, J. Shi, F. Gao, Q. Tian, and Y. Wang, "Human Motion Generation: A Survey," IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 46, no.4, pp. 2430-2449, 2024.
[4] W. Dai, L.-H. Chen, J. Wang, J. Liu, B. Dai, and Y. Tang, "MotionLCM: Real-time Controllable Motion Generation via Latent Consistency Model," in Proc. of the 18th European Conference on Computer Vision (ECCV 2024), pp. 390-408, 2024.
[5] R. Rombach, A. Blattmann, D. Lorenz, P. Esser, and B. Ommer, "High-Resolution Image Synthesis with Latent Diffusion Models," in Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 10674-10685, 2022.
[6] C. Guo, S. Zou, X. Zuo, S. Wang, W. Ji, X. Li, and L. Cheng, "Generating Diverse and Natural 3D Human Motions from Text," in Proc. of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 5142-5151, 2022.
[7] Krikey AI - AI Animation Generator, Available at https://www.krikey.ai
[8] Vmotionize - AI Animation Generation Platform, Available at https://vmotionize.com
[9] DeepMotion - Text to 3D Animation, Available at https://www.deepmotion.com/saymotion
[10] Live3D - VTuber Software Suite, Available at https://live3d.io
[11] H. Touvron, T. Lavril, G. Izacard, et al., "LLaMA: Open and Efficient Foundation Language Models," arXiv preprint arXiv:2302.13971, 2023.
[12] E. J. Hu, Y. Shen, P. Wallis, et al., "LoRA: Low-Rank Adaptation of Large Language Models," arXiv preprint arXiv:2106.09685, 2021.
[13] M. Loper, N. Mahmood, J. Romero, G. Pons-Moll, and M. J. Black, "SMPL: A Skinned Multi-Person Linear Model," ACM Transactions on Graphics (TOG), vol. 34, no. 6, pp. 1-16, 2015.