推廣合作

雲端語音辨識技術

Speech Recognition for Cloud

技術簡介

提供伺服器端語音辨識元件與技術,包括大詞彙連續語音辨識與驗證、中文語音辨識轉文字、深度神經網路語音辨識、直覺式語音指令與文法編輯、與STT@ITRI語音辨識應用試作網路服務,廠商可透過上述技術快速且方便的建立口語問答系統、語音轉文字系統、Web-based語音辨識…等服務,並提供使用者透過網路使用相關語音辨識服務。

技術特色

  • 大詞彙連續語音辨識與驗證(LVCSR: Large Vocabulary Continuous Speech Recognition) 
    • 可先以最大相似度線性預估(MLLR)技術對聲學模型進行粗略調整,再透過最大事後機率法則(MAP)進行細部微調,搭配類別式語言模型後處理以突破調適資料不足之情況。
    • 建立包含31,098詞之電影查詢應用服務,經辨識測試字元正確率達97.78%。
  • 中文語音辨識轉文字(STT: Speech to Text)
    • 具備極大詞彙與高維度語言模型存取架構
    • 建立word-based rescoring機制取代class-based作法
      • 可建立特定領域STT系統
      • 可以generic文字語料建立一通用領域STT系統
  • 深度神經網路語音辨識(DNN: Deep Neural Network)
    • 完成ITRI DNN-HMM ASR元件,並實現p-norm DNN聲學相似度計算模組
    • 支援硬體加速:CPU SSE2/AVX以及GPU,加速約2X~4X
  • 直覺式語音指令與文法編輯(T2A: Text to Action)
    • 透過Windows office Excel提供簡單易用的直覺式語音指令與文法編輯工具,可使用指令+變數之兩段式組合設計,可產出一簡易語音對話系統。
    • 產出基於Excel之text-to-action  editor模組三種介面
      • 客製化模板:每種應用均需客製化下拉式action選項
      • 喚醒指令支援:每組指令均由Pilot+Command組成
      • 兩段式+變數:每個group包含多個指令,每組指令分成兩段,每段均可引用變數,群組可改變其屬性,包含是否顯現group名稱,可加快如訂票的對話應用
  • STT@ITRI語音辨識應用試作網路服務
    透過工研院語音轉文字Web服務,您可以客製化您想要辨識的語句辭彙,並在您的應用程式中透過語音的方式,辨識出您所選擇的語句詞彙。並可以進階應用在餐廳查詢、電影查詢與冷氣控制等的內容,為銀髮族、視覺功能障礙者甚至一般普羅大眾,提供更平易近人的人機互動模式。

技術規格

  • 伺服器端
    • 大量的運算資源,例如:雙CPU、多核心、高運算頻率
    • 大量的記憶體資源,例如:32GB以上
    • 具備硬體加速,例如:CPU SSE2/AVX、GPU
  • 使用者端
    • 需有可錄音的平台或裝置
    • 需具有網路連線能力
  • STT@ITRI採用 Restful API 及 JSON 開放格式,提供STT@ITRI API與SDK供開發者介接使用

應用範圍

  • 人機介面
  • 車載機、智慧電視、機器人、玩具
  • 個人助理
  • 語音查詢
  • 導覽服務
  • 知識問答

聯絡窗口

游淑惠/ 新世代通訊技術與應用推廣部(C200)
電話:03-5917135
Email:ivyyu@itri.org.tw
https://www.itri.org.tw/工研院資訊與通訊研究所