0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

智能語音機(jī)器人工作原理

倩倩 ? 來源:lq ? 2019-06-12 11:15 ? 次閱讀

信息時代,科學(xué)技術(shù)的飛速發(fā)展帶動人工智能化技術(shù)的更新進(jìn)步。機(jī)器人的應(yīng)用領(lǐng)域和范圍也越來越廣泛,在生產(chǎn)、建筑、旅游等各個行業(yè)都能夠看到人工智能機(jī)器人的身影。 旅游產(chǎn)業(yè)與互聯(lián)網(wǎng)的結(jié)合,要隨著信息技術(shù)的發(fā)展與時俱進(jìn)。物聯(lián)網(wǎng)、人工智能、虛擬現(xiàn)實(shí)等新興的互聯(lián)網(wǎng)技術(shù)讓旅游產(chǎn)業(yè)的未來充滿了挑戰(zhàn)與機(jī)遇,導(dǎo)游等依賴大數(shù)據(jù)的職業(yè)完全可能被人工智能機(jī)器人取代。

語音助手越來越像人類了,與人類之間的交流不再是簡單的你問我答,不少語音助手甚至能和人類進(jìn)行深度交談。在交流的背后,離不開自然語言處理(NLP)和自然語言生成(NLG)這兩種基礎(chǔ)技術(shù)。機(jī)器學(xué)習(xí)的這兩個分支使得語音助手能夠?qū)⑷祟愓Z言轉(zhuǎn)換為計算機(jī)命令,反之亦然。

這兩種技術(shù)有什么差異?工作原理是什么?

NLP vs NLG:了解基本差異

什么是NLP?

NLP指在計算機(jī)讀取語言時將文本轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)的過程。簡而言之,NLP是計算機(jī)的閱讀語言。可以粗略地說,在NLP中,系統(tǒng)攝取人語,將其分解,分析,確定適當(dāng)?shù)牟僮?,并以人類理解的語言進(jìn)行響應(yīng)。

NLP結(jié)合了計算機(jī)科學(xué)、人工智能和計算語言學(xué),涵蓋了以人類理解的方式解釋和生成人類語言的所有機(jī)制:語言過濾、情感分析、主題分類、位置檢測等。

什么是NLG?

自然語言處理由自然語言理解(NLU)和自然語言生成(NLG)構(gòu)成。NLG是計算機(jī)的“編寫語言”,它將結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為文本,以人類語言表達(dá)。即能夠根據(jù)一些關(guān)鍵信息及其在機(jī)器內(nèi)部的表達(dá)形式,經(jīng)過一個規(guī)劃過程,來自動生成一段高質(zhì)量的自然語言文本。

智能語音機(jī)器人工作原理

NLP vs NLG:聊天機(jī)器人的工作方式

人類談話涉及雙向溝通的方式,聊天機(jī)器人也一樣,只是溝通渠道略有不同——您是與機(jī)器交談。當(dāng)給機(jī)器人發(fā)送消息時,它會將其拾取并使用NLP,機(jī)器將文本轉(zhuǎn)換為自身的編碼命令。然后將該數(shù)據(jù)發(fā)送到?jīng)Q策引擎。

在整個過程中,計算機(jī)將自然語言轉(zhuǎn)換為計算機(jī)理解的語言,處理,識別語音。語音識別系統(tǒng)常用的是Hidden Markov模型(HMM),它將語音轉(zhuǎn)換為文本以確定用戶所說的內(nèi)容。通過傾聽您所說的內(nèi)容,將其分解為小單元,并對其進(jìn)行分析以生成文本形式的輸出或信息。

此后的關(guān)鍵步驟是自然語言理解(NLU),如上文所說,它是NLP的另一個子集,試圖理解文本形式的含義。重要的是計算機(jī)要理解每個單詞是什么,這是由NLU執(zhí)行的部分。在對詞匯、語法和其他信息進(jìn)行篩選時,NLP算法使用統(tǒng)計機(jī)器學(xué)習(xí)、應(yīng)用自然語言的語法規(guī)則,并確定所說的最可能的含義。

另一方面,NLG是一種利用人工智能和計算語言學(xué)生成自然語言的系統(tǒng)。它還可以將該文本翻譯成語音。NLP系統(tǒng)首先確定要翻譯成文本的信息,然后組織表達(dá)結(jié)構(gòu),再使用一組語法規(guī)則,NLG就能系統(tǒng)形成完整的句子并讀出來。

應(yīng)用

語音助手只是NLP眾多應(yīng)用程序之一。它還可用于網(wǎng)絡(luò)安全文章、白皮書、科研等領(lǐng)域。例如,NLP對在線內(nèi)容進(jìn)行情緒分析,以改進(jìn)服務(wù)并為客戶提供更好的產(chǎn)品。

而NLG通常用于Gmail,它可以為您自動創(chuàng)建答復(fù)。創(chuàng)建公司數(shù)據(jù)圖表的描述說明時,NLG也是很好的工具。

說NLP和NLG完全不相關(guān),也不正確,因?yàn)镹LP和NLG相當(dāng)于學(xué)習(xí)中的閱讀、寫作過程,還是有內(nèi)在關(guān)聯(lián)的。

一般智能語音助理或語音機(jī)器人工作原理大致如下:

第一階段:語音到文本的過程。信號源→設(shè)備(捕獲音頻輸入)→增強(qiáng)音頻輸入→檢測語音→轉(zhuǎn)換為其他形式(如文本)

第二階段:響應(yīng)過程。處理文本(如用NLP處理文本,識別意圖)→操作響應(yīng)。

在檢測語音過程中,就包括分辨是否為語音信號,該過程會通過指定的頻率對模擬信號進(jìn)行采樣,將模擬聲波轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù)。這一過程很重要,是否成功地識別語音。如果生成數(shù)字?jǐn)?shù)據(jù)都是錯誤的,那么后期的處理響應(yīng)那肯定是錯的。這也是影響智能語音助理或語音機(jī)器人識別率的重要因素。

在這個過程,用于語音處理的技術(shù)是語音活性檢測 (Voice activity detection,VAD),目的是檢測語音信號是否存在。 VAD技術(shù)主要用于語音編碼和語音識別。它可以簡化語音處理,也可用于在音頻會話期間去除非語音片段:可以在IP電話應(yīng)用中避免對靜音數(shù)據(jù)包的編碼和傳輸,節(jié)省計算時間和帶寬。

與大家分享VAD技術(shù),首先講兩個概念:

信噪比(縮寫為SNR或S / N)是科學(xué)和工程中使用的一種度量,它將所需信號的電平與背景噪聲電平進(jìn)行比較。SNR定義為信號功率與噪聲功率之比,通常以分貝表示。比率高于1:1(大于0 dB)表示信號多于噪聲。

窗口,研究信號源,我們將其分成滑動窗口或僅窗口。

能量檢測器

能量檢測器對于高SNR信號是有效的,但是當(dāng)SNR下降直到它在1以下變得無效時失去效率。它也不能將語音與諸如沖擊噪聲(將筆放在桌子上),打字,空調(diào)或任何噪聲之類的噪聲區(qū)分開來。比人聲更響亮或更響亮。

波形和頻譜分析

在波形和頻譜分析中,語音活動檢測利用語音的已知特征。在該方法中應(yīng)用VAD比基于能量的解決方案更加計算密集,但是能夠更好地檢測非平穩(wěn)噪聲和低SNR場景中的噪聲。對于濁音音素,聲帶的振動產(chǎn)生諧波豐富的聲音,具有50到250 Hz之間的明顯音調(diào)。所有元音,但也有一些輔音,表現(xiàn)出這種諧波結(jié)構(gòu),因此是語音的特征。代表諧波結(jié)構(gòu)的特征是語音的可靠指標(biāo)。然而,單獨(dú)使用基于諧度或基于音調(diào)的特征不能預(yù)期無聲語音部分(例如一些摩擦音)被檢測到。此外,音樂或其他諧波噪聲分量可能被誤解為語音。總的來說,對信號的倒譜的分析可以揭示信號能量的來源。同樣的,基于該共振峰結(jié)構(gòu),也是語音識別系統(tǒng)的重要特征。人類聲道中的可變腔允許揚(yáng)聲器形成不同的音素。強(qiáng)調(diào)諧振(或共振峰)頻率,導(dǎo)致頻譜包絡(luò)的特征形狀。平滑很重要,在一個對話中,一個人只有50%的時間在說話,并且存在大量非活動幀。諸如[p] [t] [k] [b]之類的音是靜音,并且靜音部分可能不會被算法識別為語音,這將影響自動語音識別系統(tǒng)的性能。解決方案如下:

要被視為語音,必須至少有3個連續(xù)的窗口標(biāo)記語音(192ms)。它可以防止短暫的噪音被視為語音。

要被認(rèn)為是沉默,必須至少連續(xù)3個窗口標(biāo)記為靜音。它可以防止過多的語音切入影響語音節(jié)奏。

如果窗口被認(rèn)為是語音,則前3個窗口和3個窗口被認(rèn)為是語音。它可以防止在句子開頭和結(jié)尾丟失信息。

基于統(tǒng)計分析

MFCC,F(xiàn)BANK,PLP是最常用的語音識別功能。有數(shù)學(xué)運(yùn)算的連接,旨在通過保持最相關(guān)的數(shù)據(jù)來減少和壓縮信息的數(shù)量。

在“信號源→設(shè)備(捕獲音頻輸入)→增強(qiáng)音頻輸入→檢測語音”過程中,語音成功采樣識別為數(shù)字?jǐn)?shù)據(jù),是后期語言處理的前提,在檢測中文面臨更大挑戰(zhàn),斷句、語氣、語調(diào)等因素直接影響識別率。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    211

    文章

    28618

    瀏覽量

    207918
  • 智能語音
    +關(guān)注

    關(guān)注

    10

    文章

    789

    瀏覽量

    48843
  • 自然語言處理
    +關(guān)注

    關(guān)注

    1

    文章

    619

    瀏覽量

    13611
收藏 人收藏

    評論

    相關(guān)推薦

    智能避障語音遙控機(jī)器人

    我們設(shè)計的這款智能機(jī)器人,通過語音識別功能對智能機(jī)器人進(jìn)行遙控,遙控的語音指令有前進(jìn)、后退、左拐
    發(fā)表于 10-26 22:50

    如何在人工智能機(jī)器人領(lǐng)域應(yīng)用大數(shù)據(jù)?

    ,前騰訊、現(xiàn)創(chuàng)業(yè)公司PM;專注于人工智能領(lǐng)域的產(chǎn)品化研究,關(guān)注人機(jī)交互(特別是語音交互)在手機(jī)、機(jī)器人智能汽車、智能家居、AR/VR等前沿
    發(fā)表于 11-13 16:37

    智能語音機(jī)器人

    人工智能系統(tǒng)算法設(shè)計;與國內(nèi)外同類研究的比較:1.該機(jī)器人能與人進(jìn)行簡單的語言交流,能夠識別部分方言;2.能夠多平臺控制:語音控制,手機(jī)控制,電腦控制; 3.搭載多種傳感器,隨時知道當(dāng)?shù)販囟?、濕?/div>
    發(fā)表于 12-02 19:08

    未來趨勢:人工智能+機(jī)器人+互聯(lián)網(wǎng)三者融合

    當(dāng)下的趨勢表明,未來需要人工智能、機(jī)器人和互聯(lián)網(wǎng)三者融合在一起。今天大家都在談?wù)摗盎ヂ?lián)網(wǎng)+”,相信將來會有更多人看到“人工智能+”。如今,機(jī)器人
    發(fā)表于 01-25 11:30

    人工智能應(yīng)用到機(jī)器人上,現(xiàn)在有哪些“稀奇”機(jī)器人出來了?

    進(jìn)行證據(jù)搜集,甚至還可以幫助司機(jī)開車以減少交通意外死亡等。人工智能聽起來很遙遠(yuǎn),其實(shí)已經(jīng)滲透到我們的日常工作和生活中。人工智能在人臉識別、手寫識別、語音識別、語義理解、
    發(fā)表于 12-05 17:18

    分享:人工智能算法將帶領(lǐng)機(jī)器人走向何方?

    模仿人,給人的印象很“死板”?,F(xiàn)如今,人工智能賦予機(jī)器人語義、認(rèn)知、理解等能力,給機(jī)器人帶來了無限可能。 以掃地機(jī)器人為例 過去的掃地機(jī)器人
    發(fā)表于 08-16 10:44

    工業(yè)機(jī)器人工作原理

    現(xiàn)在廣泛應(yīng)用的焊接機(jī)器人都屬于第一代工業(yè)機(jī)器人,它的基本工作原理是示教再現(xiàn)。示教也稱導(dǎo)引,即由用戶導(dǎo)引機(jī)器人,一步步按實(shí)際任務(wù)操作一遍,機(jī)器人
    發(fā)表于 12-15 10:25

    人類與人工智能機(jī)器人合作的前景

    `  人類工作者如果把人工智能機(jī)器人當(dāng)做合作伙伴,將能獲得很大福利。人類不用過于擔(dān)心人工智能會“砸”了我們的“飯碗”。因?yàn)樵谌伺c機(jī)器的競爭中
    發(fā)表于 04-16 17:42

    電銷機(jī)器人成為2018人工智能最熱產(chǎn)業(yè)之一

    、自然語言處理、語音識別、機(jī)器學(xué)習(xí)應(yīng)用、計算機(jī)視覺與圖像、技術(shù)平臺、智能無人機(jī)、智能機(jī)器人、無人駕駛。目前這些領(lǐng)域都在有條不紊的發(fā)展,預(yù)計今
    發(fā)表于 05-21 15:54

    請問電銷機(jī)器人智能語音識別的原理是什么?

    照語法排列成句子,最后還會分析上下文的關(guān)聯(lián),對適當(dāng)?shù)牟课贿M(jìn)行修正,就可以實(shí)現(xiàn)與客戶溝通了。看起來十分的麻煩,但實(shí)際上,在電銷機(jī)器人工作的過程中,整個流程不過數(shù)秒就可以完成。智能語音識別是人工智
    發(fā)表于 06-12 14:03

    AI語音智能機(jī)器人開發(fā)實(shí)戰(zhàn)

    第四期直播PPT下載:第三期直播PPT+程序下載:第二期直播PPT下載:第一期直播PPT下載:主題簡介及亮點(diǎn):以AI智能語音陪護(hù)機(jī)器人為載體,徹底講解整個機(jī)器人研發(fā)的全流程,從開發(fā)環(huán)境
    發(fā)表于 01-04 11:48

    AI人工智能:零基礎(chǔ)入門機(jī)器人開發(fā)教程

    AI語音智能機(jī)器人開發(fā)直播:http://t.elecfans.com/live/718.html手把手教你設(shè)計人工智能芯片及系統(tǒng)(全階設(shè)計教程+AI芯片F(xiàn)PGA實(shí)現(xiàn)+開發(fā)板)詳情鏈接
    發(fā)表于 02-26 14:17

    【 平頭哥CB5654語音開發(fā)板試用連載】人工智能機(jī)器人

    項(xiàng)目名稱:人工智能機(jī)器人試用計劃:申請理由:人工智能機(jī)器人語音識別單元,計劃5月份開發(fā)完成,7月份量產(chǎn),pcb板在華強(qiáng)pcb加工。
    發(fā)表于 03-13 16:16

    AI智能語音機(jī)器人 揭秘讓企業(yè)電銷輕松拓客神器

    AI智能語音機(jī)器人是一款基于人工智能開發(fā)的,適用于產(chǎn)品業(yè)務(wù)或服務(wù)推廣需求的語音營銷服務(wù)平臺!通過精準(zhǔn)語音
    發(fā)表于 07-21 22:54

    ai人工智能機(jī)器人

    的運(yùn)營成本、人力成本還在不斷提高(如:辦公場地的租金、員工的工資、社保公積金、節(jié)假日福利等)。 如今的智能電話機(jī)器人,每天的電話撥打量可達(dá)800-1000通,相比人工提高了3-5倍,大大縮短了名單的篩選
    發(fā)表于 09-21 11:09