谷歌在其開源博客中宣布開源 Android 語音識別轉(zhuǎn)錄工具 —— Live Transcribe 的語音引擎(Live Transcribe Speech Engine),它旨在將語音或?qū)υ拰崟r轉(zhuǎn)錄為文字,還能夠為聽障人士提供幫助。
Live Transcribe 是谷歌于今年 2 月推出的一款 Android 應用程序,它的語音識別由谷歌最先進的 Cloud Speech API 提供。但是,依賴于云引入了一些復雜性,不斷變化的網(wǎng)絡連接、數(shù)據(jù)成本和延遲的魯棒性等等都帶來一些考驗。因此,谷歌把它開源出來, 希望開發(fā)人員在已有的基礎上進一步構建和開發(fā)。
Cloud Speech API 目前無法支持無限的音頻流,團隊目前采取了一些措施來解決這一難題,例如在達到超時之前關閉并重新啟動流式傳輸請求,這將有效減少會話中丟失的文本量。
無限流媒體音頻帶來了一大挑戰(zhàn)。在許多國家,網(wǎng)絡數(shù)據(jù)非常昂貴,并且在互聯(lián)網(wǎng)較差的地方,帶寬可能有限。Live Transcribe Speech Engine 的團隊對音頻編解碼器進行了大量實驗,并最終在不影響精度的情況下將數(shù)據(jù)使用量減少了 10 倍。
另外,由于是提供實時語音轉(zhuǎn)錄,轉(zhuǎn)錄出來的文本會隨著語音的輸入不斷發(fā)生變化,降低延遲自然十分必要。該引擎能夠大大降低延遲率,這都要歸功于它的自定義 Opus 編碼器。
此外,值得一提的是,Live Transcribe 支持超過 70 種語言,并能夠根據(jù)語音自動識別語種,其中也包括中文。
-
解碼器
+關注
關注
9文章
1144瀏覽量
40827 -
谷歌
+關注
關注
27文章
6176瀏覽量
105677 -
語音識別
+關注
關注
38文章
1742瀏覽量
112745
原文標題:【業(yè)內(nèi)熱點】谷歌開源實時語音轉(zhuǎn)錄引擎 Live Transcribe Speech Engine
文章出處:【微信號:ChinaAET,微信公眾號:電子技術應用ChinaAET】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論