技術探索

AI手語-虛擬氣象主播

工業技術研究院 資訊與通訊研究所  李雅文  張揆晧  呂坤憲  蕭柏宣

AI手語-虛擬氣象主播能以手語形式即時呈現氣象資訊,確保聽障者能即時理解重要天氣資訊。

前言

在現代資訊社會中,氣象預報是日常生活中不可或缺的重要資訊,尤其在颱風、地震或暴雨等自然災害來襲時,能否快速且準確地接收到警報,對國人而言至關重要。然而,傳統媒體的氣象資訊傳遞方式對聽障人士存在明顯障礙,他們無法依賴廣播或聲音形式的氣象預報。目前的即時氣象播報往往缺乏字幕或手語翻譯員的演示,即便提供字幕,其播放速度也可能過快,令聽障人士難以跟上並正確理解內容。

隨著人工智慧(Artificial Intelligence, AI)技術的飛速發展,資訊無障礙的落實正逐漸成為可能。AI手語-虛擬氣象主播的誕生,融合前瞻技術與社會關懷的創新應用,透過大語言模型、骨架估測與虛擬人物生成等技術,將氣象文字資訊轉化為生動的手語影像播報,使其能夠無障礙地獲取天氣預報,這正是普惠科技在資訊無障礙(Information Accessibility)領域的典型應用。

AI手語-虛擬氣象主播能以手語形式即時呈現氣象資訊,確保聽障者能即時理解重要天氣資訊。本文將介紹AI手語-虛擬氣象主播的需求背景、核心技術、目前應用場域及未來可能應用方向。透過AI手語-虛擬氣象主播這項普惠科技技術,將不僅在實現資訊無障礙方面邁出重要一步,也為推動共融社會的願景提供新的可能性。

 精彩內容

 1.翻譯手語,打破資訊障礙
 2. 虛擬主播快速生成,播報氣象預警
 3.創新技術推動資訊平權

翻譯手語,打破資訊障礙

當國家經濟發展達到一定程度,政府通常會透過政策與法規,確保身心障礙者等弱勢族群能共享經濟成長的果實,並享有平等的權益。這些政策目的在提供必要的支持與資源,協助他們更好地融入社會。近年來,台灣政府持續完善無障礙相關法規,其中包含聽語障族群的相關規範,並跨越多個政府部門,要求提供手語翻譯服務以滿足實際需求。

隨著社會對資訊無障礙化的重視,如何讓聽障人士平等獲取資訊已成為一項重要議題。在天氣預報領域,視訊內容通常伴隨語音說明,然而,這些形式對於聽障人士而言明顯不足。手語翻譯可以有效填補此資訊落差,但傳統手語翻譯需由持有專業證照的翻譯員執行,成本高且難以實現大規模即時應用。

根據衛生福利部統計,截至113第三季,聽障人數已超過13.5萬人。然而,同年年底,具備手語翻譯員證照者僅616人(參見圖1),且每年技能檢定合格率不足30%,其中已通過乙級手語翻譯技能檢定的人數僅67人。由於乙級證照是從事專業領域公共事務(如教育、法律、醫療衛生、社會福利、勞工政策、交通運輸、藝文活動、大眾傳播及體育競賽等)服務的必要資格,手語翻譯人力的不足導致服務供需失衡問題更加顯著。AI手語技術能夠即時將口語文字轉換為流暢的手語動作,有效補足手語翻譯人力資源的不足,確保聽障者能平等獲取資訊,進一步實現資訊無障礙與數位平權。

圖1 手語翻譯員證照之累積人數(資料來源:勞動部,資料整理:工研院資通所)

此外,極端氣候現象近年頻繁發生,聽障者對天氣資訊的需求與日俱增。特別是在極端天氣事件下,快速且準確的資訊傳遞能大幅降低生命與財產損失。而目前現有天氣預報系統主要針對聽覺健全者設計,不利於聽障群體取得重要資訊,這已成為亟需解決的社會問題。

虛擬主播快速生成,播報氣象預警

公共電視與工研院攜手合作,共同建置臺灣手語資料庫與 AI 應用,藉由公共電視數十年累積的珍貴資源,如《公視手語新聞》與手語節目《聽聽看》等影像資料,工研院透過前瞻AI科技的創新研發,打造具可擴散性的 AI 手語服務。將期望以科技力量打破溝通障礙,為聽障族群帶來更多溫暖,並進一步達成臺灣手語語言保存與資訊平權的目標。

AI手語-虛擬氣象主播目的在於自動將口語文字轉換為手語動作,實現無縫的資訊傳達。該系統首先透過大語言模型(Large Language Model, LLM)將口語文字翻譯為手語文字,隨後利用 AI 模型精確估測手部與身體的骨架細微動作變化,並且確保手語連續動作的流暢性與準確性。最終,系統結合生成式 AI(Generative AI, GAI)技術,將骨架動作轉換為虛擬人形的2D手語影像,以自然且精確的手語表達呈現文字內容,讓聽障者即時看到生動的手語演示,大幅提升氣象資訊對聽障族群的友善性與可及性。如圖2,AI手語-虛擬氣象主播的實現依賴以下核心技術:

圖2 AI手語-虛擬氣象主播影像生成流程示意圖

  • 手語文字翻譯技術

手語(Sign Language)與口語(Spoken Language)各自有其語言獨特的語法和句法,透過LLM技術,可實現口語與手語的即時文字翻譯。此過程需大量手語資料集進行訓練,以確保翻譯前後的語義一致性與準確性。如圖3 手語文字翻譯技術透過資料合成和檢索增強生成(Retrieval Augmented Generation, RAG)方式提高翻譯效能表現。為解決資料長尾分布問題,採用預訓練的LLM作為AI助手。透過精心設計的合成提示(Synthetic Prompt)輸入至LLM,進行手語片段(Gloss)詞彙的替換,生成多樣化的合成資料,用以增強訓練資料的多樣性,可以改善模型對低頻率詞彙和多變情境的適應能力。使用RAG技術在前處理和後處理兩個階段:在前處理階段,將使用者的口語文字轉換為詞嵌入向量,並查找資料庫中相似的翻譯例句,形成少樣本提示(Few-Shot Prompt),幫助LLM提供範例參考,從而提高翻譯準確性。後處理階段,RAG技術解決LLM生成錯誤Gloss名稱的問題,通過核對資料庫中的正確名稱,確保翻譯結果的準確性,並為後續2D影像生成提供可靠基礎 [1]。

圖3 資料合成和檢索增強生成

  • 骨架估測技術

如圖4,結合深度學習與電腦視覺技術,進行骨架估測(Skeleton Estimation),以精準產生手語連續動作的骨架估測結果。此技術涵蓋手部、手指的細緻運動,以及整體身體動作的協調性,確保手語表達的流暢性與準確性。從技術演進來看,2D骨架估測最初依賴傳統電腦視覺演算法,如HOG(Histograms of Oriented Gradients)[2]。然而,隨著深度學習的發展,卷積神經網路(Convolutional Neural Network, CNN)提升骨架估測準確度,代表性模型包括OpenPose [3]和HRNet [4]。傳統CNN方法受限於局部特徵學習,無法充分理解整體姿態,因此Google開發MediaPipe [5],結合傳統電腦視覺與CNN以提升估測表現。近期,Transformer架構被應用於骨架估測領域,如DWPose [6]結合CNN與Transformer,進一步提升估測準確度。然而,這些技術在身體軀幹估測表現良好,但在手語動作分析仍面臨挑戰,主要包括:在細微手指骨架估測表現不佳、手勢遮擋問題,手部重疊或遮擋使得AI模型無法準確判斷骨架位置。為提升估測準確性,計劃建置高品質手指骨架資料集,並基於該資料集訓練模型,進一步推動手語動作分析技術的發展。

圖4 2D骨架估測結果範例

  • 2D影片生成技術

透過生成式 AI 技術,將骨架估測結果轉化為高度擬真的 2D 動畫,精確呈現手語內容。此技術需確保角色動畫的表情、手勢及身體動作與原始手語一致,並優化動畫流暢度與細節精確度,以提升手語視覺化的清晰度與自然度,增強無障礙溝通體驗。傳統的影片生成技術往往難以在時間序列中保持一致性與精度,本技術採用Stable Video Diffusion(SVD)作為影片生成的主要模型。如圖5,SVD 具有出色的時序處理能力與影像生成效果 [7],特別適用於連續影片的生成任務。透過結合人體骨架資訊,模型能夠準確地捕捉並還原手語動作,生成長度可調的手語影片 [8-10]。為進一步提升手部細節的生成品質與準確性,進行一系列技術創新。首先,改進手部姿勢的信心值訓練機制,信心值的提高意味著模型對手部姿勢的確定性增強,有助於減少誤差。其次,為進一步加強手指的細節,採用基於CNN-based架構,強化U-Net [11]生成手指的細節,大幅降低現有 2D 影片生成模型中常見的手指影像扭曲問題,細節更加真實自然。

圖5 SVD模型架構

創新技術推動資訊平權

AI 手語播報員在未來可廣泛應用於多種場域,提升資訊無障礙服務。在氣象播報方面,先從一般氣象播報入手,確保 AI 手語-虛擬氣象主播能夠正確傳遞日常資訊,再逐步擴展至重大天氣事件,最終推廣到更廣泛的緊急事件播報。氣象播報每天都會進行,讓AI 手語-虛擬氣象主播能夠在大量日常使用中不斷優化,聽障者可以長期觀察 AI 手語的表達方式,給予反饋,幫助改進自然度與可理解性。從較為穩定的氣象播報入手,可以幫助 AI 系統逐步提升手語翻譯的精確度與表達能力,接下來,AI 手語主播能即時傳達颱風、暴風雨等極端天氣的預警資訊,確保聽障者能迅速理解防災措施,降低災害風險。在緊急事件(例如地震、海嘯或其他突發事件)發生時,能迅速轉譯政府警報與避難指引,確保關鍵訊息的即時傳達。在新聞報導中,AI 手語主播提供即時手語翻譯,讓聽障者無障礙地獲取時事資訊,實現資訊平權。

AI 手語技術還可在社會補助相關申請中發揮重要作用。聽障者在申請各類社會補助時,能藉由 AI 手語主播獲取清晰的指引與申請過程說明,消除語言障礙,確保其能順利完成申請流程。應用於醫療場域,協助聽障者獲取疫苗接種、健康公告等重要資訊,保證其得到正確的醫療訊息。在機場、火車站、公車站、高鐵站等交通領域,AI 手語主播能即時播報服務公告、乘車資訊,讓聽障者無障礙地獲取重要即時交通資訊,提升交通資訊的可及性與便利性。

在旅遊業,AI 手語主播可用於導覽,提供景點解說與行程資訊,讓聽障旅客也能輕鬆享受旅遊樂趣。此外,AI 手語技術還可應用於智慧自助服務,如 Kiosk 互動式終端機,為聽障者提供手語導引與操作說明,提升自助服務的便利性與可及性。透過這些應用,AI 手語主播不僅能提升資訊無障礙環境,也能幫助企業創造更具包容性的服務模式。

結論

AI 手語-虛擬氣象主播是一項具有廣泛社會影響力的創新技術,能有效解決聽障人士獲取天氣資訊的難題,推動資訊無障礙化。通過人工智慧技術不僅實現資訊的平等傳遞,還提升聽障族群的生活品質。

隨著技術持續不斷進步,AI手語技術的應用範圍將更加廣泛,不僅局限於天氣預報領域,還可延伸至公共交通、醫療服務、旅遊導覽與智慧自助商業服務應用等。透過社會各界的支持與共同合作,本技術有望成為建設多元化與包容性社會的重要助力,並為全球聽障族群創造更多福祉。

公廣集團計劃於2025年底,在公視新聞頻道推出「AI手語-虛擬氣象主播」服務,以普惠科技為核心理念,透過AI技術填補手語翻譯人力缺口,提升氣象資訊的可及性。此服務為聽障者提供即時掌握天災警訊的解決方案,實現資訊無障礙,並進一步推動資訊與文化平權,打造包容且具韌性的社會。

工研院與公視攜手合作建立的氣象手語語料庫,既保存臺灣手語文化資產,也為科技創新提供寶貴的資源,AI手語氣象主播幫助聽障者即時獲取氣象資訊,不僅提升資訊的可及性,還促進資訊平權,使聽障者能平等享有氣象服務。這項技術讓聽障者能更加便捷地掌握天氣狀況,從而提升他們的生活品質與安全感。

未來期望將AI手語應用於防災、救難等公共傳播領域,幫助聽障人士即時掌握天災警訊。這不僅將填補手語翻譯人力的缺口,也為推動資訊無障礙邁出重要步伐,彰顯AI科技研發對社會普惠的深遠影響。

參考資料

[1]M. Lewis, B. Oguz, and F. Petroni, "Retrieval-augmented generation for knowledge-intensive NLP tasks," arXiv preprint arXiv:2005.11401, 2020.
[2]N. Dalal and B. Triggs, "Histograms of Oriented Gradients for Human Detection," Proc. IEEE Computer Society Conf. Computer Vision and Pattern Recognition (CVPR), 2005.
[3]Z. Cao, G. Hidalgo, T. Simon, S. E. Wei, and Y. Sheikh, "OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields," IEEE Trans. Pattern Anal. Machine Intell., vol. 43, no. 1, pp. 172-186, 2019.
[4]K. Sun, B. Xiao, D. Liu, and J. Wang, "Deep High-Resolution Representation Learning for Human Pose Estimation," Proc. IEEE Conf. Computer Vision and Pattern Recognition (CVPR), 2019.
[5]C. Lugaresi, J. Tang, H. Nash, et al., "MediaPipe: A Framework for Perceiving and Processing Reality," arXiv preprint arXiv:1906.08172, 2019.
[6]Z. Yang, A. Zeng, C. Yuan, and Y. Li, "Effective Whole-body Pose Estimation with Two-stages Distillation," Proc. IEEE/CVF Int. Conf. Computer Vision (ICCV), 2023.
[7]A. Blattmann, T. Dockhorn, S. Kulal, D. Mendelevitch, M. Kilian, D. Lorenz, and R. Rombach, "Stable video diffusion: Scaling latent video diffusion models to large datasets," arXiv preprint arXiv:2311.15127, 2023.
[8]Y. Zhang, J. Gu, L. W. Wang, H. Wang, J. Cheng, Y. Zhu, and F. Zou, "Mimicmotion: High-quality human motion video generation with confidence-aware pose guidance," arXiv preprint arXiv:2406.19680, 2024.
[9]S. Fang, L. Wang, C. Zheng, Y. Tian, and C. Chen, "SignLLM: Sign languages production large language models," arXiv preprint arXiv:2405.10718, 2024.
[10]L. Hu, "Animate anyone: Consistent and controllable image-to-video synthesis for character animation," in Proc. IEEE/CVF Conf. on Computer Vision and Pattern Recognition, 2024, pp. 8153-8163.
[11]Ronneberger, Olaf, Philipp Fischer, and Thomas Brox. "U-net: Convolutional networks for biomedical image segmentation." Medical image computing and computer-assisted intervention–MICCAI 2015: 18th international conference, Munich, Germany, October 5-9, 2015, proceedings, part III 18. Springer international publishing, 2015.