雲端語音辨識技術

推廣合作

2018-09-30

Speech Recognition for Cloud

技術簡介

提供伺服器端語音辨識元件與技術，包括大詞彙連續語音辨識與驗證、中文語音辨識轉文字、深度神經網路語音辨識、直覺式語音指令與文法編輯、與STT@ITRI語音辨識應用試作網路服務，廠商可透過上述技術快速且方便的建立口語問答系統、語音轉文字系統、Web-based語音辨識…等服務，並提供使用者透過網路使用相關語音辨識服務。

技術特色

大詞彙連續語音辨識與驗證（LVCSR: Large Vocabulary Continuous Speech Recognition）
- 可先以最大相似度線性預估(MLLR)技術對聲學模型進行粗略調整，再透過最大事後機率法則(MAP)進行細部微調，搭配類別式語言模型後處理以突破調適資料不足之情況。
- 建立包含31,098詞之電影查詢應用服務，經辨識測試字元正確率達97.78%。

中文語音辨識轉文字（STT: Speech to Text）
- 具備極大詞彙與高維度語言模型存取架構
- 建立word-based rescoring機制取代class-based作法
  - 可建立特定領域STT系統
  - 可以generic文字語料建立一通用領域STT系統

深度神經網路語音辨識（DNN: Deep Neural Network）
- 完成ITRI DNN-HMM ASR元件，並實現p-norm DNN聲學相似度計算模組
- 支援硬體加速：CPU SSE2/AVX以及GPU，加速約2X~4X

直覺式語音指令與文法編輯（T2A: Text to Action）
- 透過Windows office Excel提供簡單易用的直覺式語音指令與文法編輯工具，可使用指令+變數之兩段式組合設計，可產出一簡易語音對話系統。
- 產出基於Excel之text-to-action editor模組三種介面
  - 客製化模板:每種應用均需客製化下拉式action選項
  - 喚醒指令支援:每組指令均由Pilot+Command組成
  - 兩段式+變數:每個group包含多個指令，每組指令分成兩段，每段均可引用變數，群組可改變其屬性，包含是否顯現group名稱，可加快如訂票的對話應用

STT@ITRI語音辨識應用試作網路服務
透過工研院語音轉文字Web服務，您可以客製化您想要辨識的語句辭彙，並在您的應用程式中透過語音的方式，辨識出您所選擇的語句詞彙。並可以進階應用在餐廳查詢、電影查詢與冷氣控制等的內容，為銀髮族、視覺功能障礙者甚至一般普羅大眾，提供更平易近人的人機互動模式。

技術規格

伺服器端
- 大量的運算資源，例如：雙CPU、多核心、高運算頻率
- 大量的記憶體資源，例如：32GB以上
- 具備硬體加速，例如：CPU SSE2/AVX、GPU

使用者端
- 需有可錄音的平台或裝置
- 需具有網路連線能力

STT@ITRI採用 Restful API 及 JSON 開放格式，提供STT@ITRI API與SDK供開發者介接使用

應用範圍

人機介面
車載機、智慧電視、機器人、玩具
個人助理
語音查詢
導覽服務
知識問答

聯絡窗口

游淑惠/ 新世代通訊技術與應用推廣部(C200)
電話：03-5917135
Email：ivyyu@itri.org.tw
https://www.itri.org.tw/工研院資訊與通訊研究所