10 月 29 日,廣州云從信息科技有限公司(以下簡稱云從科技)宣布在語音識別技術(shù)上取得重大突破,該技術(shù)在全球最大的開源語音識別數(shù)據(jù)集 Librispeech 上刷新了世界紀(jì)錄,錯(cuò)詞率(Worderrorrate,WER)降低至 2.97%,將Librispeech 的 WER 指標(biāo)提升了 25%,超過微軟、谷歌、IBM、阿里、百度及約翰霍普金斯大學(xué)等企業(yè)及高校。
據(jù)介紹,云從科技核心技術(shù)閉環(huán)包括人臉識別、智能感知與智能分析三個(gè)階段,而語音識別技術(shù)是智能感知的重要部分,通過語音識別,機(jī)器可以像人類一樣理解語言,進(jìn)而展開處理并進(jìn)行反饋。
云從科技此次推出的語音識別模型Pyramidal-FSMN 融合圖像識別與語音識別的優(yōu)勢,將殘差卷積網(wǎng)絡(luò)和金字塔記憶模塊的序列記憶網(wǎng)絡(luò)相結(jié)合,能夠同時(shí)有效的提取空間和時(shí)間上不同粒度的信息,相比目前業(yè)界使用最為廣泛的 LSTM 模型,其訓(xùn)練速度更快、識別準(zhǔn)確率更高。
此次突破是云從科技在今年4月刷新“跨鏡追蹤技術(shù)(ReID)”三項(xiàng)世界紀(jì)錄后取得的又一重大成果。今年4月,云從科技跨鏡追蹤技術(shù)(ReID)技術(shù)在 Market-1501,DukeMTMC-reID,CUHK03 三個(gè)數(shù)據(jù)集刷新了世界紀(jì)錄,其中最高在 Market-1501 上的首位命中率(Rank-1 Accuracy)達(dá)到96.6%,讓跨鏡追蹤技術(shù)(ReID)技術(shù)在準(zhǔn)確率上首次達(dá)到商用水平。
-
語音識別
關(guān)注
38文章
1739瀏覽量
112659 -
云從科技
+關(guān)注
關(guān)注
1文章
70瀏覽量
9701
原文標(biāo)題:云從科技取得語音識別技術(shù)新突破
文章出處:【微信號:robotmagazine,微信公眾號:機(jī)器人技術(shù)與應(yīng)用】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論