亚洲一区二区三区免费,欧美成年黄网站色

在語音識別領(lǐng)域，全球科技企業(yè)的目標(biāo)很一致，那就是想“超過人類”。之前科研界設(shè)定人類錯詞率為5.9%的這個界線，受過嚴(yán)格訓(xùn)練的專業(yè)速記員錯詞率在3%左右，錯詞率（Worderrorrate，WER）是衡量語音識別技術(shù)水平的核心指標(biāo)。

人類的界線已在2017年被微軟超過，而受過嚴(yán)格訓(xùn)練的專業(yè)速記員則一直堅(jiān)守著自己的底線。

然而這個紀(jì)錄也在這個10月被打破，2018年10月 29日，中國人工智能“國家隊(duì)”云從科技在語音識別技術(shù)上取得重大突破，他們?nèi)诤蠄D像識別與語音識別的優(yōu)勢，推出全新Pyramidal-FSMN語音識別模型。

在技術(shù)研究的「最后一公里」，每 0.1 個百分點(diǎn)的進(jìn)步都異常艱難。全新Pyramidal-FSMN語音識別模型在全球最大的開源語音識別數(shù)據(jù)集Librispeech上刷新了世界紀(jì)錄，準(zhǔn)確率提升到97.03%，將Librispeech的錯詞率（Worderrorrate，WER）降低至2.97%，超過阿里、百度、約翰霍普金斯大學(xué)等企業(yè)及高校，大幅刷新原先記錄。

DS2：百度，ESPnet：約翰霍普金斯大學(xué)，DFSMN-CE：阿里

云從科技并沒有把人臉識別作為唯一的“寶”來押注，這家孵化自中國科學(xué)院的企業(yè)，并不是第一次取得這樣的技術(shù)突破。

2018年2月，云從科技正式在國內(nèi)首發(fā)“3D結(jié)構(gòu)光人臉識別技術(shù)”。2018年4月，云從科技“跨鏡追蹤技術(shù)”（ReID）技術(shù)在Market-1501，DukeMTMC-reID，CUHK03三個數(shù)據(jù)集刷新了世界紀(jì)錄，其中最高在Market-1501上的首位命中率（Rank-1 Accuracy）達(dá)到96.6%，讓跨鏡追蹤技術(shù)（ReID）技術(shù)在準(zhǔn)確率上首次達(dá)到商用水平，人工智能從「刷臉」跨到「識人」的新紀(jì)元。

語音識別技術(shù)同樣是智能感知中一個重要的部分，通過語音識別，機(jī)器就可以像人類一樣聽懂說話，進(jìn)而能夠理解、思考與反饋。近年來，在深度學(xué)習(xí)技術(shù)的幫助下，語音識別取得了極大的進(jìn)展，從實(shí)驗(yàn)室開始走向市場，走向?qū)嵱没?。基于語音識別技術(shù)的輸入法、搜索和翻譯等人機(jī)交互場景都有了廣泛的應(yīng)用。

智能感知大數(shù)據(jù)，是云從科技打造核心技術(shù)閉環(huán)，領(lǐng)跑人工智能行業(yè)的利器。

據(jù)悉，此次技術(shù)突破是云從科技打造核心技術(shù)閉環(huán)路徑中的關(guān)鍵一步。此前，云從科技在10月12日發(fā)布了國家發(fā)改委“人工智能基礎(chǔ)資源公共服務(wù)平臺”項(xiàng)目，該平臺可以基于行業(yè)數(shù)據(jù)為各行各業(yè)提供人工智能智能感知及大數(shù)據(jù)服務(wù)，中國人民銀行、中國聯(lián)通、中國郵政、民航局、金山云等企業(yè)與機(jī)構(gòu)與云從首批簽約。這個搭載人臉、人體、手勢、紅外、語音、車輛、風(fēng)控、文字、大數(shù)據(jù)分析等多種方式為一體的人工智能平臺，云從傾注了大量的技術(shù)力量。

在平臺發(fā)布會上，云從科技創(chuàng)始人周曦提出了人工智能發(fā)展的五個階段，核心技術(shù)閉環(huán)是五個階段的重要基礎(chǔ)。云從科技在今年先后首發(fā)3D結(jié)構(gòu)光人臉識別技術(shù)及刷新跨鏡追蹤技術(shù)三項(xiàng)世界紀(jì)錄，并在金融、安防、機(jī)場等優(yōu)勢行業(yè)建設(shè)基于智能分析的“行業(yè)大腦”，廣泛強(qiáng)化合作伙伴范圍，穩(wěn)步推進(jìn)從核心技術(shù)到智能生態(tài)的五步走戰(zhàn)略。

目前，云從科技是中國銀行業(yè)第一大AI供應(yīng)商。包括農(nóng)行、建行、中行、招行總行等全國400多家銀行已采用公司產(chǎn)品，為全國銀行提供對比服務(wù)日均2.16億次，同時為14.7萬家社會網(wǎng)點(diǎn)提供服務(wù)。

在安防領(lǐng)域，公司產(chǎn)品已在29個省級行政區(qū)上線實(shí)戰(zhàn)，每天比對超過10億次，數(shù)據(jù)匯聚總量超過千億，協(xié)助全國公安抓獲超過1萬名犯罪嫌疑人；

在民航領(lǐng)域，已有60余家機(jī)場選擇云從產(chǎn)品，日服務(wù)旅客人數(shù)達(dá)到6千萬。

在這些基礎(chǔ)上，云從科技正在致力整合算力、智力、數(shù)據(jù)等資源及其成果，打造人工智能平臺，進(jìn)一步促進(jìn)人工智能在金融、安防、交通、零售、教育等重要行業(yè)的落地。

語音識別六十年，技術(shù)突破總是艱難而緩慢。

語音識別的研究起源可以追溯到上世紀(jì)50年代，AT&T貝爾實(shí)驗(yàn)室的Audry系統(tǒng)率先實(shí)現(xiàn)了十個英文數(shù)字識別。

從上世紀(jì)60年代開始，CMU的Reddy開始進(jìn)行連續(xù)語音識別的開創(chuàng)性工作。但是這期間進(jìn)展緩慢，以至于貝爾實(shí)驗(yàn)室的約翰·皮爾斯（John Pierce）認(rèn)為語音識別是幾乎不可能實(shí)現(xiàn)的事情。

上世紀(jì)70年代，計(jì)算機(jī)性能的提升，以及模式識別基礎(chǔ)研究的發(fā)展，促進(jìn)了語音識別的發(fā)展。IBM、貝爾實(shí)驗(yàn)室相繼推出了實(shí)時的PC端孤立詞識別系統(tǒng)。

上世紀(jì)80年代是語音識別快速發(fā)展的時期，引入了隱馬爾科夫模型（HMM）。此時語音識別開始從孤立詞識別系統(tǒng)向大詞匯量連續(xù)語音識別系統(tǒng)發(fā)展。

上世紀(jì)90年代是語音識別基本成熟的時期，但是識別效果離實(shí)用化還相差甚遠(yuǎn)，語音識別的研究陷入了瓶頸。

關(guān)鍵突破起始于2006年。這一年辛頓（Hinton）提出深度置信網(wǎng)絡(luò)（DBN），促使了深度神經(jīng)網(wǎng)絡(luò)（Deep Neural Network，DNN）研究的復(fù)蘇，掀起了深度學(xué)習(xí)的熱潮。

2009年，辛頓以及他的學(xué)生默罕默德（D. Mohamed）將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于語音的聲學(xué)建模，在小詞匯量連續(xù)語音識別數(shù)據(jù)庫TIMIT上獲得成功。

2011年，微軟研究院俞棟、鄧力等發(fā)表深度神經(jīng)網(wǎng)絡(luò)在語音識別上的應(yīng)用文章，在大詞匯量連續(xù)語音識別任務(wù)上獲得突破。國內(nèi)外巨頭大力開展語音識別研究。

2017年3月，IBM結(jié)合了 LSTM 模型和帶有 3 個強(qiáng)聲學(xué)模型的 WaveNet 語言模型?！凹袛U(kuò)展深度學(xué)習(xí)應(yīng)用技術(shù)終于取得了 5.5% 錯詞率的突破”。相對應(yīng)的是去年5月的6.9%。

2017年8月，微軟發(fā)布新的里程碑，通過改進(jìn)微軟語音識別系統(tǒng)中基于神經(jīng)網(wǎng)絡(luò)的聽覺和語言模型，在去年基礎(chǔ)上降低了大約12%的出錯率，錯詞率為5.1%。相對應(yīng)的是去年10月的5.9%，聲稱超過人類。

2017年12月，谷歌發(fā)布全新端到端語音識別系統(tǒng)（State-of-the-art Speech Recognition With Sequence-to-Sequence Models），錯詞率降低至5.6%。相對于強(qiáng)大的傳統(tǒng)系統(tǒng)有 16% 的性能提升。

2018年6月，阿里巴巴達(dá)摩院推出了新一代語音識別模型DFSMN，將全球語音識別準(zhǔn)確率紀(jì)錄提高至96.04%，錯詞率降低至3.96%。

2018年10月，云從科技發(fā)布全新Pyramidal-FSMN語音識別模型，錯詞率（Worderrorrate，WER）降低至2.97%，較之前提升了25%，將全球語音識別準(zhǔn)確率紀(jì)錄提高至97.03%，超過受過嚴(yán)格訓(xùn)練的專業(yè)人類速記員。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴