一本视频精品中文字幕,免费看国产夜色视频,精品无人区一区二区三区的特点

說話人識別和驗(yàn)證系統(tǒng)的應(yīng)用與日俱增。該技術(shù)的使用有助于控制和訪問自動駕駛汽車、計(jì)算機(jī)、手機(jī)和其他設(shè)備。還建立了各種機(jī)器學(xué)習(xí)模型來保護(hù)說話人識別和驗(yàn)證系統(tǒng)。這是通過分析聲音的情緒反應(yīng)和壓力水平來檢測對個人的威脅以及觸發(fā)他們安全的機(jī)制來實(shí)現(xiàn)的。

介紹

說話者和驗(yàn)證系統(tǒng)根據(jù)一個人的聲音或講話的特性來識別說話者。人類每天都習(xí)慣于識別和響應(yīng)說話者，但通過技術(shù)進(jìn)行語音識別是復(fù)雜的，需要大量計(jì)算。由于數(shù)字信號處理和計(jì)算機(jī)系統(tǒng)的進(jìn)步，自動說話人識別系統(tǒng)的使用在過去十年中變得普遍。

說話人識別系統(tǒng)的組成部分

說話人識別系統(tǒng)包括三個部分：

說話人識別：從一組登記的說話人中查明說話人的身份。目標(biāo)是從已存儲的幾個模型中找到合適的揚(yáng)聲器。（檢查多人）

說話人驗(yàn)證：驗(yàn)證未知聲音是否屬于某個說話人。當(dāng)一個人將自己標(biāo)識為 John Doe/Jane Doe 時，說話人驗(yàn)證系統(tǒng)會將語音數(shù)據(jù)與錄制的模型進(jìn)行比較，以確定說話人的身份是否與他/她聲稱的身份相符。（檢查聲稱的身份）

說話者分類：根據(jù)語音的特殊特征（基于從語音內(nèi)容中提取的特征）將包含說話者語音的音頻流劃分為同質(zhì)段/時間幀，以對說話者進(jìn)行身份分類。

說話人驗(yàn)證系統(tǒng)的應(yīng)用

訪問控制：一個人必須說出一個特定的短語來表明自己的身份，才能訪問受限場所和特權(quán)信息。

交易認(rèn)證：一個人必須說出一個特定的短語來識別他/她自己，以啟動電話銀行/信用卡授權(quán)或類似的交易。

揚(yáng)聲器驗(yàn)證系統(tǒng)基礎(chǔ)知識

圖 1：揚(yáng)聲器驗(yàn)證基礎(chǔ)

Front-End 部分捕獲說話者的聲音，并將語音信號轉(zhuǎn)換為一組代表說話者特征的特征向量。后端部分將特征向量與說話者的存儲模型（即通用背景模型，如下所述）進(jìn)行比較，以確定它們匹配的精確程度以驗(yàn)證說話者的身份。一旦說話者的聲音與數(shù)據(jù)庫中的聲音模型匹配，他們就可以訪問。

用于記錄和創(chuàng)建“揚(yáng)聲器模型”的機(jī)制的變化增加了復(fù)雜性。由于可變的語音/語音保真度，說話人識別/驗(yàn)證變得更加復(fù)雜。例如，在銀行使用高分辨率、高保真錄音機(jī)創(chuàng)建揚(yáng)聲器模型時，語音保真度會有所不同，但基于語音的交易是使用具有嘈雜背景的手機(jī)完成的。

說話人識別/驗(yàn)證流程圖

最初創(chuàng)建了一個大型模型數(shù)據(jù)庫，其中包含許多說話者和來自這些說話者的數(shù)小時語音數(shù)據(jù)。錄音包含來自不同來源的各種高保真和低保真語音輸入。分析從大量語音數(shù)據(jù)中提取的特征并訓(xùn)練模型以創(chuàng)建通用的男性/女性模型。該模型數(shù)據(jù)庫被稱為“通用背景模型”（UBM）。

然后，創(chuàng)建想要識別/驗(yàn)證自己的說話者模型數(shù)據(jù)庫。該模型數(shù)據(jù)庫被稱為“揚(yáng)聲器模型”。該模型是從“通用背景模型”派生/創(chuàng)建的，該模型對通用男性/女性聲音進(jìn)行分類。目標(biāo)揚(yáng)聲器型號與 UBM 略有不同。這些差異被記錄并保存在“揚(yáng)聲器模型”數(shù)據(jù)庫中。

現(xiàn)在，當(dāng)這個人說：“我是 John Doe”時，這個語音片段被記錄下來并分割成 10 毫秒的幀，并通過特征提取模型，產(chǎn)生語音的一些特征/特征。

圖 2：說話人驗(yàn)證流程圖

如果 John Doe 想要驗(yàn)證他的名字，我們將從輸入語音“I am John Doe”中提取的特征輸入到他的說話人模型（特征提?。┲校撃Ｐ痛_定特征匹配的水平并計(jì)算它是“John多伊'。

然后，對于相同的輸入聲音，“我是 John Doe”，我們將提取的特征輸入到通用背景模型中，以確定特征匹配的水平，并得出他是普通男性聲音的可能性。

決策的似然比由上述兩個似然比得出。接受/拒絕決定是基于根據(jù)呼叫者是“John Doe”的可能性和呼叫者是普通男性的可能性（基于通用背景模型）計(jì)算的某個閾值做出的。

eInfochips 為基于語音和音頻的中間件提供嵌入式系統(tǒng)和軟件開發(fā)、移植、優(yōu)化、支持和維護(hù)解決方案，其中包括：DSP 域中的編碼器、解碼器、預(yù)處理和后處理算法。還提供語音/音頻相關(guān)工具和服務(wù)的維護(hù)和開發(fā)。eInfochips 還迎合了多核平臺上自定義算法的實(shí)現(xiàn)和并行化。

作者：瑞詩凱詩·阿加什

Rhishikesh Agashe 是 eInfochips 技術(shù)團(tuán)隊(duì)的一員，他在 IT 行業(yè)擁有近 19 年的經(jīng)驗(yàn)。4 年的企業(yè)家生涯和 15 年的嵌入式領(lǐng)域經(jīng)驗(yàn)，其中他的大部分經(jīng)驗(yàn)是在嵌入式媒體處理領(lǐng)域，他參與了音頻和語音算法的實(shí)施。

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴