AWS自動語音辨識服務Transcribe推出即時語音轉文字功能

AWS日前才更新了自然語言理解服務Comprehend,推出客製Entity辨識模型的功能,讓不懂機器學習的開發人員,也能訓練自家的Entity辨識模型,來自動萃取特定的字詞。該公司的自動語音辨識服務Transcribe近日也有新功能,推出即時語音轉文字Streaming Transcription,Transcribe能夠讓開發者,將語音轉文字的功能新增到自家的應用中,而最新推出的Streaming Transcription則更進一步,讓使用者上傳一段語音到服務中,就能回傳即時辨識的文字稿。

自動語音辨識服務Transcribe於去年11月AWS re:Invent大會上第一次亮相,並於今年4月與即時翻譯服務Translate一起公開發布,該服務能將語音轉換成文字,同時能夠讓開發人員將該功能加入自家的應用中,目前支援16 kHz和8 kHz語音串流,和多種語音格式,像是WAV、MP3、MP4和Flac,也能夠用來分析存放在S3的語音檔案內容,或是分析客戶的通話資料、自動建立字幕、根據內容執行目標式廣告,也能搜尋語音或影片內容,支援美式英語、英式英語、西班牙語、澳洲英語和加拿大法語。

AWS認為,即時語音轉文字的服務,對於不同的產業都很有幫助,包含客服中心、媒體、娛樂產業、金融和保險業,甚至是法庭的記錄,都能夠提供輔助,舉例來說,客服中心可以即時偵測與抄寫文字的關鍵字,根據關鍵字觸發下一個工作流程,媒體業則可以在新聞播報時,即時自動上字幕,電玩商也能透過這項功能,提供聽力受損的玩家輔助服務,而在法庭上,該功能則可以速記法庭上的對話內容,同樣地,一般的企業也可以用來記錄會議資訊。

Streaming Transcription利用了HTTP/2執行雙向流技術,來處理使用者應用端和AWS服務端之間的語音串流和文字記錄,雙向流可以讓應用端同時發送和接收數據,因此,能夠更快速地得到結果。

為了展示如何使用AWS ADK將Streaming Transcription加入自家的應用中,AWS創立了一個範例並公開在GitHub上,使用者透過麥克風或是上傳語音檔,傳輸到AWS的語音轉文字服務中,就能即時獲得文字記錄。

原文來自 iThome Online