Speech Recognition for Cloud
技術簡介
提供伺服器端語音辨識元件與技術,包括大詞彙連續語音辨識與驗證、中文語音辨識轉文字、深度神經網路語音辨識、直覺式語音指令與文法編輯、與STT@ITRI語音辨識應用試作網路服務,廠商可透過上述技術快速且方便的建立口語問答系統、語音轉文字系統、Web-based語音辨識…等服務,並提供使用者透過網路使用相關語音辨識服務。
技術特色
- 大詞彙連續語音辨識與驗證(LVCSR: Large Vocabulary Continuous Speech Recognition)
- 可先以最大相似度線性預估(MLLR)技術對聲學模型進行粗略調整,再透過最大事後機率法則(MAP)進行細部微調,搭配類別式語言模型後處理以突破調適資料不足之情況。
- 建立包含31,098詞之電影查詢應用服務,經辨識測試字元正確率達97.78%。
- 中文語音辨識轉文字(STT: Speech to Text)
- 具備極大詞彙與高維度語言模型存取架構
- 建立word-based rescoring機制取代class-based作法
- 可建立特定領域STT系統
- 可以generic文字語料建立一通用領域STT系統
- 深度神經網路語音辨識(DNN: Deep Neural Network)
- 完成ITRI DNN-HMM ASR元件,並實現p-norm DNN聲學相似度計算模組
- 支援硬體加速:CPU SSE2/AVX以及GPU,加速約2X~4X
- 直覺式語音指令與文法編輯(T2A: Text to Action)
- 透過Windows office Excel提供簡單易用的直覺式語音指令與文法編輯工具,可使用指令+變數之兩段式組合設計,可產出一簡易語音對話系統。
- 產出基於Excel之text-to-action editor模組三種介面
- 客製化模板:每種應用均需客製化下拉式action選項
- 喚醒指令支援:每組指令均由Pilot+Command組成
- 兩段式+變數:每個group包含多個指令,每組指令分成兩段,每段均可引用變數,群組可改變其屬性,包含是否顯現group名稱,可加快如訂票的對話應用
- STT@ITRI語音辨識應用試作網路服務
透過工研院語音轉文字Web服務,您可以客製化您想要辨識的語句辭彙,並在您的應用程式中透過語音的方式,辨識出您所選擇的語句詞彙。並可以進階應用在餐廳查詢、電影查詢與冷氣控制等的內容,為銀髮族、視覺功能障礙者甚至一般普羅大眾,提供更平易近人的人機互動模式。
技術規格
- 伺服器端
- 大量的運算資源,例如:雙CPU、多核心、高運算頻率
- 大量的記憶體資源,例如:32GB以上
- 具備硬體加速,例如:CPU SSE2/AVX、GPU
- STT@ITRI採用 Restful API 及 JSON 開放格式,提供STT@ITRI API與SDK供開發者介接使用
應用範圍
- 人機介面
- 車載機、智慧電視、機器人、玩具
- 個人助理
- 語音查詢
- 導覽服務
- 知識問答