0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

云從科技打破世界紀(jì)錄 語音識別準(zhǔn)確率達(dá)97.03%

cMdW_icsmart ? 來源:未知 ? 作者:胡薇 ? 2018-10-31 17:11 ? 次閱讀

語音識別領(lǐng)域,全球科技企業(yè)的目標(biāo)很一致,那就是想“超過人類”。之前科研界設(shè)定人類錯詞率為5.9%的這個界線,受過嚴(yán)格訓(xùn)練的專業(yè)速記員錯詞率在3%左右,錯詞率(Worderrorrate,WER)是衡量語音識別技術(shù)水平的核心指標(biāo)。

人類的界線已在2017年被微軟超過,而受過嚴(yán)格訓(xùn)練的專業(yè)速記員則一直堅(jiān)守著自己的底線。

然而這個紀(jì)錄也在這個10月被打破,2018年10月 29日,中國人工智能“國家隊(duì)”云從科技在語音識別技術(shù)上取得重大突破,他們?nèi)诤蠄D像識別與語音識別的優(yōu)勢,推出全新Pyramidal-FSMN語音識別模型。

在技術(shù)研究的「最后一公里」,每 0.1 個百分點(diǎn)的進(jìn)步都異常艱難。全新Pyramidal-FSMN語音識別模型在全球最大的開源語音識別數(shù)據(jù)集Librispeech上刷新了世界紀(jì)錄,準(zhǔn)確率提升到97.03%,將Librispeech的錯詞率(Worderrorrate,WER)降低至2.97%,超過阿里、百度、約翰霍普金斯大學(xué)等企業(yè)及高校,大幅刷新原先記錄。

DS2:百度,ESPnet:約翰霍普金斯大學(xué),DFSMN-CE:阿里

云從科技并沒有把人臉識別作為唯一的“寶”來押注,這家孵化自中國科學(xué)院的企業(yè),并不是第一次取得這樣的技術(shù)突破。

2018年2月,云從科技正式在國內(nèi)首發(fā)“3D結(jié)構(gòu)光人臉識別技術(shù)”。2018年4月,云從科技“跨鏡追蹤技術(shù)”(ReID)技術(shù)在Market-1501,DukeMTMC-reID,CUHK03三個數(shù)據(jù)集刷新了世界紀(jì)錄,其中最高在Market-1501上的首位命中率(Rank-1 Accuracy)達(dá)到96.6%,讓跨鏡追蹤技術(shù)(ReID)技術(shù)在準(zhǔn)確率上首次達(dá)到商用水平,人工智能從「刷臉」跨到「識人」的新紀(jì)元。

語音識別技術(shù)同樣是智能感知中一個重要的部分,通過語音識別,機(jī)器就可以像人類一樣聽懂說話,進(jìn)而能夠理解、思考與反饋。近年來,在深度學(xué)習(xí)技術(shù)的幫助下,語音識別取得了極大的進(jìn)展,從實(shí)驗(yàn)室開始走向市場,走向?qū)嵱没?。基于語音識別技術(shù)的輸入法、搜索和翻譯等人機(jī)交互場景都有了廣泛的應(yīng)用。

智能感知 大數(shù)據(jù),是云從科技打造核心技術(shù)閉環(huán),領(lǐng)跑人工智能行業(yè)的利器。

據(jù)悉,此次技術(shù)突破是云從科技打造核心技術(shù)閉環(huán)路徑中的關(guān)鍵一步。此前,云從科技在10月12日發(fā)布了國家發(fā)改委“人工智能基礎(chǔ)資源公共服務(wù)平臺”項(xiàng)目,該平臺可以基于行業(yè)數(shù)據(jù)為各行各業(yè)提供人工智能智能感知及大數(shù)據(jù)服務(wù),中國人民銀行、中國聯(lián)通、中國郵政、民航局、金山云等企業(yè)與機(jī)構(gòu)與云從首批簽約。這個搭載人臉、人體、手勢、紅外、語音、車輛、風(fēng)控、文字、大數(shù)據(jù)分析等多種方式為一體的人工智能平臺,云從傾注了大量的技術(shù)力量。

在平臺發(fā)布會上,云從科技創(chuàng)始人周曦提出了人工智能發(fā)展的五個階段,核心技術(shù)閉環(huán)是五個階段的重要基礎(chǔ)。云從科技在今年先后首發(fā)3D結(jié)構(gòu)光人臉識別技術(shù)及刷新跨鏡追蹤技術(shù)三項(xiàng)世界紀(jì)錄,并在金融、安防、機(jī)場等優(yōu)勢行業(yè)建設(shè)基于智能分析的“行業(yè)大腦”,廣泛強(qiáng)化合作伙伴范圍,穩(wěn)步推進(jìn)從核心技術(shù)到智能生態(tài)的五步走戰(zhàn)略。

目前,云從科技是中國銀行業(yè)第一大AI供應(yīng)商。包括農(nóng)行、建行、中行、招行總行等全國400多家銀行已采用公司產(chǎn)品,為全國銀行提供對比服務(wù)日均2.16億次,同時為14.7萬家社會網(wǎng)點(diǎn)提供服務(wù)。

在安防領(lǐng)域,公司產(chǎn)品已在29個省級行政區(qū)上線實(shí)戰(zhàn),每天比對超過10億次,數(shù)據(jù)匯聚總量超過千億,協(xié)助全國公安抓獲超過1萬名犯罪嫌疑人;

在民航領(lǐng)域,已有60余家機(jī)場選擇云從產(chǎn)品,日服務(wù)旅客人數(shù)達(dá)到6千萬。

在這些基礎(chǔ)上,云從科技正在致力整合算力、智力、數(shù)據(jù)等資源及其成果,打造人工智能平臺,進(jìn)一步促進(jìn)人工智能在金融、安防、交通、零售、教育等重要行業(yè)的落地。

語音識別六十年,技術(shù)突破總是艱難而緩慢。

語音識別的研究起源可以追溯到上世紀(jì)50年代,AT&T貝爾實(shí)驗(yàn)室的Audry系統(tǒng)率先實(shí)現(xiàn)了十個英文數(shù)字識別。

從上世紀(jì)60年代開始,CMU的Reddy開始進(jìn)行連續(xù)語音識別的開創(chuàng)性工作。但是這期間進(jìn)展緩慢,以至于貝爾實(shí)驗(yàn)室的約翰·皮爾斯(John Pierce)認(rèn)為語音識別是幾乎不可能實(shí)現(xiàn)的事情。

上世紀(jì)70年代,計(jì)算機(jī)性能的提升,以及模式識別基礎(chǔ)研究的發(fā)展,促進(jìn)了語音識別的發(fā)展。IBM、貝爾實(shí)驗(yàn)室相繼推出了實(shí)時的PC端孤立詞識別系統(tǒng)。

上世紀(jì)80年代是語音識別快速發(fā)展的時期,引入了隱馬爾科夫模型(HMM)。此時語音識別開始從孤立詞識別系統(tǒng)向大詞匯量連續(xù)語音識別系統(tǒng)發(fā)展。

上世紀(jì)90年代是語音識別基本成熟的時期,但是識別效果離實(shí)用化還相差甚遠(yuǎn),語音識別的研究陷入了瓶頸。

關(guān)鍵突破起始于2006年。這一年辛頓(Hinton)提出深度置信網(wǎng)絡(luò)(DBN),促使了深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)研究的復(fù)蘇,掀起了深度學(xué)習(xí)的熱潮。

2009年,辛頓以及他的學(xué)生默罕默德(D. Mohamed)將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于語音的聲學(xué)建模,在小詞匯量連續(xù)語音識別數(shù)據(jù)庫TIMIT上獲得成功。

2011年,微軟研究院俞棟、鄧力等發(fā)表深度神經(jīng)網(wǎng)絡(luò)在語音識別上的應(yīng)用文章,在大詞匯量連續(xù)語音識別任務(wù)上獲得突破。國內(nèi)外巨頭大力開展語音識別研究。

2017年3月,IBM結(jié)合了 LSTM 模型和帶有 3 個強(qiáng)聲學(xué)模型的 WaveNet 語言模型?!凹袛U(kuò)展深度學(xué)習(xí)應(yīng)用技術(shù)終于取得了 5.5% 錯詞率的突破”。相對應(yīng)的是去年5月的6.9%。

2017年8月,微軟發(fā)布新的里程碑,通過改進(jìn)微軟語音識別系統(tǒng)中基于神經(jīng)網(wǎng)絡(luò)的聽覺和語言模型,在去年基礎(chǔ)上降低了大約12%的出錯率,錯詞率為5.1%。相對應(yīng)的是去年10月的5.9%,聲稱超過人類。

2017年12月,谷歌發(fā)布全新端到端語音識別系統(tǒng)(State-of-the-art Speech Recognition With Sequence-to-Sequence Models),錯詞率降低至5.6%。相對于強(qiáng)大的傳統(tǒng)系統(tǒng)有 16% 的性能提升。

2018年6月,阿里巴巴達(dá)摩院推出了新一代語音識別模型DFSMN,將全球語音識別準(zhǔn)確率紀(jì)錄提高至96.04%,錯詞率降低至3.96%。

2018年10月,云從科技發(fā)布全新Pyramidal-FSMN語音識別模型,錯詞率(Worderrorrate,WER)降低至2.97%,較之前提升了25%,將全球語音識別準(zhǔn)確率紀(jì)錄提高至97.03%,超過受過嚴(yán)格訓(xùn)練的專業(yè)人類速記員。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 語音識別
    +關(guān)注

    關(guān)注

    38

    文章

    1742

    瀏覽量

    112802
  • 云從科技
    +關(guān)注

    關(guān)注

    1

    文章

    71

    瀏覽量

    9740

原文標(biāo)題:一舉打破世界紀(jì)錄,云從科技將語音識別準(zhǔn)確率提升到97.03%

文章出處:【微信號:icsmart,微信公眾號:芯智訊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    中國“人造太陽”刷新世界紀(jì)錄

    近日,位于安徽合肥的全超導(dǎo)托卡馬克核聚變實(shí)驗(yàn)裝置(EAST),被譽(yù)為中國的“人造太陽”,成功創(chuàng)造了新的世界紀(jì)錄。該裝置首次實(shí)現(xiàn)了1億攝氏度下持續(xù)1000秒的“高質(zhì)量燃燒”,這一成就標(biāo)志著中國在聚變
    的頭像 發(fā)表于 01-21 10:28 ?79次閱讀

    請問AFE4400 SPO2精度和準(zhǔn)確率如何?

    請問用TI 的AFE4400 EVM 測量SPO2 的值,有沒有詳細(xì)的說明其測量的準(zhǔn)確率和精度,抗弱灌注等。謝謝! 比如如下類似: SpO2 測量范圍 0~100% 分辨 1% 精度 70~100%, 2%
    發(fā)表于 01-15 07:02

    天合光能創(chuàng)造高效n型HJT電池組件效率世界紀(jì)錄

    ?)認(rèn)證,最高組件窗口效率達(dá)到25.44%,創(chuàng)造了大面積HJT組件窗口效率的世界紀(jì)錄,這是天合光能第30次創(chuàng)造和刷新世界紀(jì)錄,也是目前正背面接觸結(jié)構(gòu)晶體硅組件的最高紀(jì)錄,創(chuàng)造了單結(jié)晶體硅太陽電池組件光電轉(zhuǎn)換效率的
    的頭像 發(fā)表于 01-06 15:02 ?226次閱讀

    如何提升人臉門禁一體機(jī)的識別準(zhǔn)確率

    準(zhǔn)確率,可以以下幾個方面進(jìn)行改進(jìn)。一、優(yōu)化算法與模型人臉識別的核心在于算法的優(yōu)化和模型的調(diào)整,目前深度學(xué)習(xí)技術(shù)在圖像識別中的應(yīng)用取得了顯著成效。通過采用更為先進(jìn)
    的頭像 發(fā)表于 12-10 15:05 ?274次閱讀
    如何提升人臉門禁一體機(jī)的<b class='flag-5'>識別</b><b class='flag-5'>準(zhǔn)確率</b>?

    ASR與傳統(tǒng)語音識別的區(qū)別

    識別技術(shù)。 構(gòu)建更深更復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,利用大量數(shù)據(jù)進(jìn)行訓(xùn)練。 提高了語音識別準(zhǔn)確率和穩(wěn)定性。 傳統(tǒng)語音
    的頭像 發(fā)表于 11-18 15:22 ?585次閱讀

    微機(jī)保護(hù)裝置預(yù)警功能的準(zhǔn)確率

    異常狀態(tài)。 微機(jī)保護(hù)裝置的預(yù)警功能準(zhǔn)確率是衡量其性能的重要指標(biāo),它直接關(guān)系到裝置能否及時準(zhǔn)確地檢測潛在的故障或異常情況,從而預(yù)防事故的發(fā)生。 準(zhǔn)確率影響因素: 1.硬件性能:高精度的傳感器和強(qiáng)大的數(shù)據(jù)處理單元直
    的頭像 發(fā)表于 11-03 16:10 ?199次閱讀

    隆基綠能HPBC 2.0組件效率破世界紀(jì)錄

    基綠能在光伏技術(shù)領(lǐng)域的又一次重大突破,也象征著中國在光伏產(chǎn)業(yè)領(lǐng)域的領(lǐng)先地位進(jìn)一步得到了鞏固。 據(jù)悉,HPBC 2.0組件的效率表現(xiàn)一舉打破了晶硅組件效率的世界紀(jì)錄,這不僅僅是隆基綠能自身的榮耀,更是中國光伏產(chǎn)業(yè)在全球舞臺上的一次華麗亮
    的頭像 發(fā)表于 10-27 15:29 ?532次閱讀

    隆基綠能刷新光伏晶硅組件效率世界紀(jì)錄

    近日,隆基綠能宣布了一項(xiàng)重大突破。據(jù)國際權(quán)威認(rèn)證機(jī)構(gòu)——德國弗勞霍夫太陽電池研究所最新發(fā)布的認(rèn)證報(bào)告顯示,隆基綠能自主研發(fā)的HPBC 2.0組件效率達(dá)到了驚人的25.4%,成功打破了晶硅組件效率的世界紀(jì)錄。
    的頭像 發(fā)表于 10-23 17:40 ?551次閱讀

    ai人工智能回答準(zhǔn)確率高嗎

    ,AI可能表現(xiàn)出較高的準(zhǔn)確率。例如,在圖像識別、語音識別等領(lǐng)域,經(jīng)過大量訓(xùn)練的AI系統(tǒng)通常能夠取得令人滿意的準(zhǔn)確率。 然而,在其他領(lǐng)域或場景
    的頭像 發(fā)表于 10-17 16:30 ?3634次閱讀

    NIUSB6009 采集準(zhǔn)確率的問題?

    NIUSB6009 采集準(zhǔn)確率的問題? 一、本人做一個中間繼電器電性能實(shí)驗(yàn)的裝置 1、PLC帶動中間繼電器吸合和釋放,(吸合用時1.5秒,釋放用時1.5秒)周而復(fù)始的運(yùn)動。 2、中間繼電器的觸頭負(fù)載
    發(fā)表于 09-23 15:59

    NRK3301識別語音芯片在智能按摩椅中的應(yīng)用與體驗(yàn)提升

    了新的變革。?一、高識別準(zhǔn)確率和快速響應(yīng)?NRK3301語音識別芯片采用最新的神經(jīng)網(wǎng)絡(luò)(?TDNN)?算法,?具有高識別
    的頭像 發(fā)表于 08-03 08:07 ?512次閱讀
    NRK3301<b class='flag-5'>識別</b><b class='flag-5'>語音</b>芯片在智能按摩椅中的應(yīng)用與體驗(yàn)提升

    什么是離線語音識別芯片?與在線語音識別的區(qū)別

    離線語音識別芯片適用于智能家電等,特點(diǎn)為小詞匯量、低成本、安全性高、響應(yīng)快,無需聯(lián)網(wǎng)。在線語音識別功能更廣泛、識別
    的頭像 發(fā)表于 07-22 11:33 ?450次閱讀

    740.6W!天合光能打破N型i-TOPCon組件輸出功率世界紀(jì)錄

    近日,天合光能光伏科學(xué)與技術(shù)全國重點(diǎn)實(shí)驗(yàn)室宣布, 其自主研發(fā)的210+N型i-TOPCon光伏組件,經(jīng)權(quán)威第三方檢測認(rèn)證機(jī)構(gòu)TüV南德認(rèn)證,最高輸出功率達(dá)740.6W,創(chuàng)造了新的世界紀(jì)錄! 這也是天
    的頭像 發(fā)表于 04-23 09:28 ?789次閱讀

    NVIDIA路徑優(yōu)化引擎創(chuàng)下23項(xiàng)世界紀(jì)錄

    NVIDIA cuOpt 不僅在過去三年中所有的大型路徑規(guī)劃基準(zhǔn)測試中均名列榜首,還創(chuàng)下了二十多項(xiàng)世界紀(jì)錄。這意味著該路徑優(yōu)化引擎能夠使各行各業(yè)采取節(jié)約成本的高效措施。
    的頭像 發(fā)表于 03-21 09:47 ?402次閱讀

    ROG助力i9-14900KS達(dá)到9117.75 MHz,創(chuàng)下四項(xiàng)世界紀(jì)錄

    近日,據(jù) ROG 玩家國度官方微博透露,ROG MAXIMUS Z790 APEX ENCORE 助力 i9-14900KS 刷新至 9117.75 MHz,創(chuàng)造四項(xiàng)世界紀(jì)錄(CPU 頻率、SUPERPI 1M、PIFAST、PYPRIME 32B)。
    的頭像 發(fā)表于 03-15 11:40 ?747次閱讀