亚洲色精品aⅴ一区区三区,麻豆果冻国产91在线极品

你的童年是否也曾這樣對著大門發(fā)出命令？

當(dāng)然，大門用靜止表示對你的“忽視”。樂此不疲的孩子還是會(huì)時(shí)不時(shí)對著門喊上幾句，我們的潛意識(shí)是希望得到門有所回應(yīng)，比如：門開了。

命令失效的原因是什么？因?yàn)榇箝T本身不具備聽到聲音的能力，如果我們能讓大門可以聽到你說的話、發(fā)出的命令，進(jìn)一步才可以啟動(dòng)語義和執(zhí)行系統(tǒng)控制它的開關(guān)。

這就引申到本次重點(diǎn)介紹的技術(shù)——語音識(shí)別。本次干貨分享由語音識(shí)別產(chǎn)品經(jīng)理：@ 焦糖瑪奇朵進(jìn)行提供。希望能為大家打開語音識(shí)別的大門。

語音識(shí)別是一項(xiàng)將人類的聲音信號轉(zhuǎn)化為文字的過程。本文將從產(chǎn)品的角度對業(yè)界的語音識(shí)別產(chǎn)品進(jìn)行歸類和說明。不同的產(chǎn)品類型具有不同的算法或者接口特性，對應(yīng)不同的需求場景。

根據(jù)識(shí)別內(nèi)容的范圍，語音識(shí)別的大類分列如下

1、封閉域識(shí)別：

識(shí)別范圍為預(yù)先指定的字/詞集合，即算法只在開發(fā)者預(yù)先設(shè)定的封閉域識(shí)別詞的集合內(nèi)進(jìn)行語音識(shí)別，對范圍之外的語音會(huì)進(jìn)行拒識(shí)。因此，可以將其聲學(xué)模型和語言模型進(jìn)行裁剪，使得識(shí)別引擎的運(yùn)算量也較小。并且可將引擎封到嵌入式芯片或者本地化的SDK中，從而使識(shí)別過程完全脫離云端，擺脫對網(wǎng)絡(luò)的依賴，并且不會(huì)影響識(shí)別率。業(yè)界廠商提供的引擎部署方式包括云端和本地化（如：芯片，模塊和純軟件SDK）。

產(chǎn)品類型：命令字/詞識(shí)別，語音喚醒，語法識(shí)別

產(chǎn)品形態(tài)：流式傳輸-同步獲取

典型的應(yīng)用場景：不涉及到多輪交互和多種語義說法的場景，如簡單指令交互的智能家居和電視盒子，語音控制指令一般只有：“打開窗簾”，“打開中央臺(tái)”等，但是一旦涉及到程序猿大大們在后臺(tái)配置識(shí)別詞集合之外的命令，如“給小編這篇文章來個(gè)打賞”，識(shí)別系統(tǒng)將拒識(shí)這段語音，不會(huì)返回相應(yīng)的文字結(jié)果，更不會(huì)做相應(yīng)的回復(fù)或者指令動(dòng)作。

2、開放域識(shí)別：

無需預(yù)先指定識(shí)別詞集合，算法將在整個(gè)語言大集合范圍中進(jìn)行識(shí)別。為適應(yīng)此類場景，聲學(xué)模型和語音模型一般都比較大，引擎運(yùn)算量也較大。將其封裝到嵌入式芯片或者本地化的SDK中，耗能較高并且影響識(shí)別效果。業(yè)界廠商基本上都以云端形式提供，云端包括公有云形式和私有云形式。本地化形式只有帶服務(wù)器級別計(jì)算能力的嵌入式系統(tǒng)，如會(huì)議字幕系統(tǒng)。

產(chǎn)品類型按照說話風(fēng)格的特點(diǎn)，分為：

（1）語音聽寫：語音時(shí)長較短（<1min），一般情況下均為一句話。訓(xùn)練語料為朗讀風(fēng)格，語速較為平均。一般為人機(jī)對話場景，錄音質(zhì)量較好。

按照音頻錄入和結(jié)果獲取方式定義產(chǎn)品形態(tài)：

(a)流式上傳-同步獲取，應(yīng)用/軟件會(huì)對說話人的語音進(jìn)行自動(dòng)錄制并將其連續(xù)上傳至云端，說話人在說完話的同時(shí)能實(shí)時(shí)地看到返回的文字。語音云服務(wù)廠商的產(chǎn)品接口中會(huì)提供音頻錄制接口和格式編碼算法，供客戶端進(jìn)行邊錄制邊上傳，并與云端建立長連接，同步監(jiān)聽并獲取識(shí)別結(jié)果。

(b)已錄制音頻文件上傳-同步獲取，用戶需自行預(yù)先錄制好規(guī)定格式的音頻，并使用語音云服務(wù)廠商提供的接口進(jìn)行音頻上傳，客戶端與云端的連接和結(jié)果獲取方式與上述音頻流類似。

典型應(yīng)用場景：應(yīng)用發(fā)展已經(jīng)比較成熟：主要在輸入場景，如輸入法；與麥克風(fēng)陣列和語義結(jié)合的人機(jī)交互場景，如具備更自然交互形態(tài)的智能音響，如“叮咚叮咚，轉(zhuǎn)發(fā)小編這篇文章?！保跓o配置的情況下，識(shí)別系統(tǒng)也能夠識(shí)別這段語音，返回相應(yīng)的文字結(jié)果。

（2）語音轉(zhuǎn)寫：語音時(shí)長一般較長（五小時(shí)內(nèi)），句子較多。訓(xùn)練語料為交談風(fēng)格，即說話人說話無組織性比較強(qiáng)，因此語速較不平均，吞字&連字現(xiàn)象較多。錄音大多為遠(yuǎn)場或帶噪的。

除了模型不同之外，按照音頻錄入和結(jié)果獲取方式定義產(chǎn)品形態(tài)：

(a)音頻流轉(zhuǎn)寫：流式上傳-同步獲取，與上述語音聽寫類似，唯一不同的是，識(shí)別的時(shí)長不會(huì)有一句話的限制。

(b)非實(shí)時(shí)已錄制音頻轉(zhuǎn)寫：已錄制音頻文件上傳-異步獲取，用戶需自行調(diào)用軟件接口或者是硬件平臺(tái)預(yù)先錄制好規(guī)定格式的音頻，并使用語音云服務(wù)廠商提供的接口進(jìn)行音頻上傳，上傳完成之后便可以斷掉連接。用戶通過輪詢語音云服務(wù)器或者使用回調(diào)接口進(jìn)行結(jié)果獲取。

由于長語音的計(jì)算量較大，計(jì)算時(shí)間較長，因此采取異步獲取的方式可以避免由于網(wǎng)絡(luò)問題帶來的結(jié)果丟失。也因?yàn)檎Z音轉(zhuǎn)寫系統(tǒng)通常是非實(shí)時(shí)處理的，這種工程形態(tài)也給了識(shí)別算法更多的時(shí)間進(jìn)行多遍解碼。而長時(shí)的語料，也給了算法使用更長時(shí)的信息進(jìn)行長短期記憶網(wǎng)絡(luò)建模。在同樣的輸入音頻下，此類型產(chǎn)品形態(tài)犧牲了一部分實(shí)時(shí)率，花費(fèi)了更高的資源消耗，但是卻可以得到最高的識(shí)別率。在時(shí)間允許的使用場景下，非實(shí)時(shí)已錄制音頻轉(zhuǎn)寫無疑是最推薦的產(chǎn)品形態(tài)！

典型應(yīng)用場景：如字幕配置，客服語音質(zhì)檢，UGC語音內(nèi)容審查

概念厘清

1、離線VS在線

在訊飛開放平臺(tái)的產(chǎn)品定義和較多的客戶認(rèn)知中，離/在線的區(qū)別在于識(shí)別過程是否需要通過云端請求，即識(shí)別引擎是在云端還是本地。而云計(jì)算中的離/在線產(chǎn)品的引擎都處在云端，區(qū)別在于在計(jì)算過程中，客戶端是否需要與云端進(jìn)行實(shí)時(shí)數(shù)據(jù)交互，即上述所述的音頻流和非實(shí)時(shí)已錄制音頻轉(zhuǎn)寫。兩者的定義有沖突，因此并不建議使用離/在線概念進(jìn)行相關(guān)產(chǎn)品定義。

2、8K VS 16Khz采樣率語音模型

在眾多語音云服務(wù)廠商中，會(huì)根據(jù)音頻采樣率進(jìn)行分類，從而訓(xùn)練出更適合各類采樣率的語音模型，最典型的為8K和16K模型。原始音頻信息保留越多越有利于識(shí)別率的提升，因此，16K音頻采用16K語音模型，其識(shí)別率會(huì)普遍高于8K音頻采用8K模型。

3、語音識(shí)別VS語義識(shí)別

語音識(shí)別是語義識(shí)別的前提基礎(chǔ)。語音識(shí)別將聲音轉(zhuǎn)化成文字，語義識(shí)別提取文字中的相關(guān)信息和相應(yīng)意圖，通過執(zhí)行模塊進(jìn)行相應(yīng)的問題回復(fù)或者反饋動(dòng)作。

結(jié)語：

最后舉一個(gè)栗子作為收尾：“叮咚叮咚，給小編這篇文章點(diǎn)個(gè)贊唄?！?，在無后臺(tái)配置的情況下，封閉域的語音識(shí)別系統(tǒng)會(huì)拒識(shí)這段語音，開放域的識(shí)別系統(tǒng)卻能夠識(shí)別這段語音，返回相應(yīng)的文字結(jié)果。而現(xiàn)階段的開放域語義系統(tǒng)在大概率情況下，還是會(huì)回復(fù)得比較生硬，并且也不會(huì)自動(dòng)識(shí)別出相應(yīng)的意圖并做出指令。按照現(xiàn)有的比較通用的方法，這個(gè)功能需要使用封閉域的語義識(shí)別在后臺(tái)預(yù)先配置相關(guān)答案，并且根據(jù)預(yù)先配置的信息抽取意圖，再根據(jù)意圖類別和槽位信息執(zhí)行相應(yīng)的動(dòng)作——即調(diào)用微信的點(diǎn)贊接口（假設(shè)可以）進(jìn)行相應(yīng)的點(diǎn)贊操作。

聽起來好繞呀，是不是覺得還是自己手動(dòng)點(diǎn)個(gè)贊簡單粗暴省事得多了呢？然而，一切現(xiàn)代人類做起來自然而然&毫不費(fèi)力的動(dòng)作，卻都是建構(gòu)在經(jīng)過了億萬年的學(xué)習(xí)進(jìn)化，兆億次閉環(huán)重復(fù)練習(xí)的智人基因！而任何的人工智能技術(shù)也是需要一個(gè)巨量的數(shù)據(jù)訓(xùn)練和一定的演變周期。并且在所有的科技發(fā)展進(jìn)程中，率先取得突破并且在應(yīng)用領(lǐng)域產(chǎn)品成熟化往往都是在封閉域，亦如現(xiàn)在正處封閉域產(chǎn)品化的語義識(shí)別（如：AIUI，echo等），而語音識(shí)別的產(chǎn)品成熟化已經(jīng)走過了封閉域到達(dá)了開放域，正在向各行各業(yè)輸送人工智能的力量！

附圖：語音識(shí)別產(chǎn)品類別圖

關(guān)于語音識(shí)別類產(chǎn)品細(xì)分及其應(yīng)用場景分析

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

語音識(shí)別

語音識(shí)別

+關(guān)注

關(guān)注
38

文章
1739

瀏覽量
112662
云服務(wù)

云服務(wù)

+關(guān)注

關(guān)注
0

文章
820

瀏覽量
38920

PCBA分析儀的技術(shù)原理和應(yīng)用場景

PCBA分析儀，通常指的是多功能PCBA測試儀，是一種綜合性測試設(shè)備，能夠同時(shí)進(jìn)行多種測試，如功能測試、ICT（在線測試）、AOI（自動(dòng)光學(xué)檢測）、X射線檢測等。以下是對其技術(shù)原理和應(yīng)用場景的詳細(xì)

發(fā)表于 12-04 14:31

測試接收機(jī)的技術(shù)原理和應(yīng)用場景

測試接收機(jī)是一種專門用于信號測量和分析的電子設(shè)備，具有高精度、高靈敏度、高穩(wěn)定性等特點(diǎn)。以下將詳細(xì)闡述測試接收機(jī)的技術(shù)原理和應(yīng)用場景。一、技術(shù)原理測試接收機(jī)的工作原理是將待測設(shè)備產(chǎn)生的信號通過

發(fā)表于 12-03 14:23

射頻分析儀的技術(shù)原理和應(yīng)用場景

射頻分析儀是一種功能強(qiáng)大的電子測量儀器，在無線通信、電子測試等領(lǐng)域具有廣泛的應(yīng)用。以下是關(guān)于射頻分析儀的技術(shù)原理和應(yīng)用場景的詳細(xì)介紹：一、射頻分析

發(fā)表于 11-26 14:32

無線通信頻譜分析儀的技術(shù)原理和應(yīng)用場景

無線通信頻譜分析儀是一種用于測量信號頻譜特性的重要儀器，其技術(shù)原理和應(yīng)用場景如下：技術(shù)原理無線通信頻譜分析儀的工作原理主要基于傅立葉變換，這是一種將信號從時(shí)域轉(zhuǎn)換到頻域的數(shù)學(xué)工具。具體過程如下

發(fā)表于 11-07 15:13

SUMIF函數(shù)的應(yīng)用場景分析

SUMIF函數(shù)在Excel中是一個(gè)強(qiáng)大的數(shù)據(jù)分析工具，特別適用于需要對數(shù)據(jù)進(jìn)行條件篩選并求和的場景。以下是對SUMIF函數(shù)應(yīng)用場景的分析： 1. 財(cái)務(wù)數(shù)據(jù)

發(fā)表于 10-30 09:55 ?337次閱讀

便攜式示波器的技術(shù)原理和應(yīng)用場景

便攜式示波器作為示波器的一種，具有體積小、重量輕、便于攜帶等特點(diǎn)，在多個(gè)領(lǐng)域有著廣泛的應(yīng)用。以下是對其技術(shù)原理和應(yīng)用場景的詳細(xì)介紹：一、技術(shù)原理便攜式示波器的基本原理與傳統(tǒng)示波器相同，都是通過采集

發(fā)表于 10-24 14:31

實(shí)時(shí)示波器的技術(shù)原理和應(yīng)用場景

有頻譜分析功能，可以將時(shí)域信號轉(zhuǎn)換為頻域信號，從而顯示信號的頻譜特性。綜上所述，實(shí)時(shí)示波器憑借其獨(dú)特的技術(shù)原理和廣泛的應(yīng)用場景，在電子工程和通信技術(shù)領(lǐng)域發(fā)揮著不可替代的作用。

發(fā)表于 10-23 14:22

參數(shù)分析儀的技術(shù)原理和應(yīng)用場景

參數(shù)分析儀的技術(shù)原理和應(yīng)用場景因其具體類型和用途的不同而有所差異。以下是對參數(shù)分析儀技術(shù)原理和應(yīng)用場景的詳細(xì)歸納：技術(shù)原理基于物理性質(zhì)的測量：某些參數(shù)

發(fā)表于 10-17 14:42

太陽膜測試儀的技術(shù)原理和應(yīng)用場景

性能及其在不同應(yīng)用場景下的表現(xiàn)。這有助于推動(dòng)太陽膜技術(shù)的發(fā)展和創(chuàng)新。綜上所述，太陽膜測試儀通過其獨(dú)特的技術(shù)原理和廣泛的應(yīng)用場景，在多個(gè)行業(yè)中發(fā)揮著重要的作用。隨著技術(shù)的不斷進(jìn)步和應(yīng)用領(lǐng)域的不斷拓展，太陽膜測試儀的性能和功能也將

發(fā)表于 09-29 14:18

物聯(lián)網(wǎng)系統(tǒng)智能控制產(chǎn)品的語音識(shí)別方案_離線語音識(shí)別芯片分析

01 物聯(lián)網(wǎng)系統(tǒng)中為什么要使用離線語音識(shí)別芯片物聯(lián)網(wǎng)系統(tǒng)中使用離線語音識(shí)別芯片的原因主要基于以下幾個(gè)方面： 1、實(shí)時(shí)性與可靠性實(shí)時(shí)性好：離線語音

發(fā)表于 09-26 17:56 ?610次閱讀

NFC協(xié)議分析儀的技術(shù)原理和應(yīng)用場景

的安全性，并提出相應(yīng)的防護(hù)措施和改進(jìn)建議。綜上所述，NFC協(xié)議分析儀在移動(dòng)支付、門禁系統(tǒng)、智能標(biāo)簽識(shí)別、物聯(lián)網(wǎng)設(shè)備控制以及安全分析等領(lǐng)域都有廣泛的應(yīng)用場景。它能夠幫助用戶快速準(zhǔn)確地

發(fā)表于 09-25 14:45

USB協(xié)議分析儀的技術(shù)原理和應(yīng)用場景

USB協(xié)議分析儀的技術(shù)原理和應(yīng)用場景可以詳細(xì)闡述如下：技術(shù)原理USB協(xié)議分析儀的技術(shù)原理主要基于以下幾個(gè)方面：總線監(jiān)聽：USB協(xié)議分析儀通過監(jiān)聽USB總線上的數(shù)據(jù)傳輸過程，實(shí)時(shí)捕獲U

發(fā)表于 09-24 14:29

「芯知識(shí)」NRK3601語音識(shí)別芯片的功能特性及應(yīng)用場景介紹

NRK3601是一款高性能、低成本語音識(shí)別芯片，支持精準(zhǔn)離線識(shí)別，降噪效果好，可應(yīng)用于智能家居、智能小家電等場景。其具備多種功能特性和外設(shè)接口，適應(yīng)性強(qiáng)，未來有望在更多領(lǐng)域發(fā)揮作用。

發(fā)表于 06-12 13:12 ?396次閱讀

NanoEdge AI的技術(shù)原理、應(yīng)用場景及優(yōu)勢

能耗并提高數(shù)據(jù)安全性。本文將對 NanoEdge AI 的技術(shù)原理、應(yīng)用場景以及優(yōu)勢進(jìn)行綜述。 1、技術(shù)原理 NanoEdge AI 的核心技術(shù)包括邊緣計(jì)算、神經(jīng)網(wǎng)絡(luò)壓縮和低功耗硬件設(shè)計(jì)。邊緣計(jì)算

發(fā)表于 03-12 08:09

AG32VF-MIPI應(yīng)用場景

to 1.2Gbps MIPI D-PHY以及DSI硬核 AG32VF-MIPI的應(yīng)用場景，包括了基本的MIPI屏幕驅(qū)動(dòng)，以及各種顯示橋接場合，如下圖所示。 AG32VF-MIPI系列產(chǎn)品即將正式發(fā)布。

發(fā)表于 01-22 08:56

搜索歷史

關(guān)于語音識(shí)別類產(chǎn)品細(xì)分及其應(yīng)用場景分析

評論

PCBA分析儀的技術(shù)原理和應(yīng)用場景

測試接收機(jī)的技術(shù)原理和應(yīng)用場景

射頻分析儀的技術(shù)原理和應(yīng)用場景

無線通信頻譜分析儀的技術(shù)原理和應(yīng)用場景

SUMIF函數(shù)的應(yīng)用場景分析

便攜式示波器的技術(shù)原理和應(yīng)用場景

實(shí)時(shí)示波器的技術(shù)原理和應(yīng)用場景

參數(shù)分析儀的技術(shù)原理和應(yīng)用場景

太陽膜測試儀的技術(shù)原理和應(yīng)用場景

物聯(lián)網(wǎng)系統(tǒng)智能控制產(chǎn)品的語音識(shí)別方案_離線語音識(shí)別芯片分析

NFC協(xié)議分析儀的技術(shù)原理和應(yīng)用場景

USB協(xié)議分析儀的技術(shù)原理和應(yīng)用場景

「芯知識(shí)」NRK3601語音識(shí)別芯片的功能特性及應(yīng)用場景介紹

NanoEdge AI的技術(shù)原理、應(yīng)用場景及優(yōu)勢

AG32VF-MIPI應(yīng)用場景