電子發(fā)燒友網(wǎng)>電子資料下載>DSP>基于嵌入式的說話人身份識別系統(tǒng)設計方案解析

基于嵌入式的說話人身份識別系統(tǒng)設計方案解析

2362486 2017-10-25 | rar | 0.3 MB | 次下載 | 1積分

資料介紹

說話人身份識別屬于生物認證技術的一種，是一項根據(jù)語音中反映說話人生理和行為特征的語音參數(shù)來自動識別說話人身份的技術。近年來，說話人身份識別以其獨特的方便性、經(jīng)濟性和準確性等優(yōu)勢受到矚目，在信息安全等領域的應用逐漸增大，并成為人們?nèi)粘Ｉ詈凸ぷ髦兄匾移占暗陌踩炞C方式。目前，說話人身份識別在理論上和實驗室條件下已經(jīng)達到了比較高的識別精度，并開始走向?qū)嶋H應用階段。AT&T、歐洲電信聯(lián)盟、ITT、Keyware、T-NETIX，Motorola和Vi-sa等公司相繼開展了相關實用化研究，國內(nèi)這方面研究主要在中科聲學所，中科院自動化所，清華大學等研究所和大學中進行。
　　基于嵌入式的說話人身份識別系統(tǒng)具有高精度，適時性好，低功耗，低費用，體積小等優(yōu)勢，逐漸成為說話人身份識別面向?qū)嶋H應用的新熱點。而隨著DSP新技術的發(fā)展，DSP芯片無論在處理速度、精度、功耗或者體積等方面都取得了突破性的進展。DSP也越來越多的應用于說話人身份識別。但目前這方面研究主要局限于小數(shù)據(jù)量、與PC機配套使用上，沒有太大的實用價值。在此介紹一種基于TMS320C6713 DSP芯片設計的嵌入式，10個人范圍的說話人身份識別系統(tǒng)。該系統(tǒng)可以自舉運行，并可靈活的選擇訓練、識別或者更換訓練者、識別者，識別率達98％以上。
　　1 系統(tǒng)的架構及硬件構成
　　系統(tǒng)總體實現(xiàn)流程如圖1所示。系統(tǒng)主要分為訓練和識別兩部分，系統(tǒng)初始化后由操作者控制訓練或識別。訓練目的是提取說話人模型參數(shù)并將其存儲在FLASH ROM中。識別目的是讀取待識別者語音信息并將獲得的模型參數(shù)與訓練的模型參數(shù)比較，從而獲得識別結果。
　　基于嵌入式的說話人身份識別系統(tǒng)設計方案解析

　　1．1 系統(tǒng)的主要硬件構成
　　系統(tǒng)硬件構成如圖2所示，主要包含語音采集模塊、數(shù)據(jù)處理模塊（DSP）、程序數(shù)據(jù)存儲及自舉FLASH模塊、數(shù)據(jù)存儲器RAM模塊、系統(tǒng)時序邏輯控制CPLD模塊、JTAG接口模塊。
　　基于嵌入式的說話人身份識別系統(tǒng)設計方案解析

　　語音采集模塊主要由TLV320AIC23音頻編解碼器來完成，該芯片是TI公司的一款高性能的立體聲音頻Codec芯片，內(nèi)置放大器，輸入／輸出增益可編程設置。模數(shù)，數(shù)／模轉(zhuǎn)換集成在一塊芯片中。采樣率8～96 kHz可編程實現(xiàn)。另外還具有低功耗，連接電路簡單，性價比高的特點。
　　語音處理DSP采用TI公司的TMS320C6713芯片，該芯片實現(xiàn)浮點運算，最高時鐘頻率225 MHz，使用該芯片外部存儲器接口可實現(xiàn)對外部存儲器（SDRAM）數(shù)據(jù)傳輸和程序存儲器（FLASH ROM）進行程序讀寫；依靠JTAG接口電路通過仿真器進行仿真調(diào)試，實現(xiàn)與主機數(shù)據(jù)交換；通過片內(nèi)外設McBSP完成串行數(shù)據(jù)的接收和發(fā)送，實現(xiàn)對音頻處理模塊的控制等工作。
　　FLASH ROM最大可提供512 KB空間，通常為前256 KB可用。SDRAM最大容量為16 MB，為該系統(tǒng)提供較大的數(shù)據(jù)存儲空間。CPLD為存儲器的擴展實現(xiàn)邏輯編碼。電源為TPS54310芯片，可為系統(tǒng)提供3．3 V和1．26 V兩種電壓。
　　1．2 選擇說話人
　　該系統(tǒng)要訓練10個人的語音，每個人的語音存放在FLASH ROM的不同位置。在訓練的開始階段，系統(tǒng)需確定當前訓練者的身份，以便對訓練完成后說話者模型參數(shù)存儲位置有準確的判斷。對當前訓練者身份的選擇由系統(tǒng)中的4個Switch實現(xiàn)。若把每個Switch的開關兩種狀態(tài)看成是二進制數(shù)的0，1，則最終可形成16種組合，代表16個人。該系統(tǒng)選取前10個組合。
　　1．3 AIC23語音采集
　　考慮到系統(tǒng)的實用性，語音的輸入由mic in接口輸入。語音采集若設為雙聲道，則采集的左右聲道數(shù)據(jù)差別不大，對識別沒有太大的幫助，而且采集到的語音會占用太大存儲器空間，故采用單聲道采樣；對于采樣精度要求，TLV320AIC23可實現(xiàn)8～96 kHz，16 b，20 b，24 b，32 b，的不同采樣，隨著采樣頻率的提高，采樣間隔將相應的縮短，要求更大的內(nèi)存空間和更長的處理時間，實驗表明，采樣率由16 kHz下降到8 kHz，所造成的識別率的微乎其微，但是可以節(jié)省50％的動態(tài)存儲空間，并可減少大量的運算。對于采樣位數(shù)，16 b精度已能滿足該系統(tǒng)要求，故采樣精度設為8 kHz，16 b采樣。
　　1．4 數(shù)據(jù)的存儲
　　由TLV320AIC23獲得的語音信號的數(shù)據(jù)，只有賦值給相應的數(shù)組，才能在接下來的算法中有所應用。為此在SDRAM中定義一片數(shù)組存儲區(qū)域。對于數(shù)組大小及類型的選擇基于以下兩點：
　?。?）數(shù)組大小選擇。該系統(tǒng)算法中包含訓練和識別兩個內(nèi)容。語音信號的訓練需要大量的數(shù)據(jù)才能準確的提取語音的特征參量。該系統(tǒng)采用8 kHz采樣率的10 s的語音信號，所需的數(shù)組空間大小為80 000個數(shù)據(jù)單位；語音信號的識別要求快速性，該系統(tǒng)采用時間較短的8 kHz 3 s語音信號，所需數(shù)組空間大小為30 000個數(shù)據(jù)單位，為了減少數(shù)據(jù)空間，系統(tǒng)設定為與訓練數(shù)組共用前30 000個數(shù)據(jù)單位的空間。
　　（2）數(shù)組類型為浮點型，由于設定的采樣格式是16 b采樣，而采樣后數(shù)據(jù)類型是Uint32，語音數(shù)據(jù)位于低16位，所以賦值過程中取低16位數(shù)據(jù)賦值給數(shù)組。
　　1．5 模型參數(shù)存入與參數(shù)調(diào)出
　　將模型參數(shù)存入FLASH ROM的目的是保存訓練所得的參數(shù)，以供識別時調(diào)用。訓練可能用于多次識別，或者訓練和識別可能處于不同的時間地點，所以，保存參數(shù)的存儲器選定為具有掉電時數(shù)據(jù)不丟失特點的FLASH ROM。每個說話者語音參數(shù)代表一個說話者身份，所以每個說話者模型參數(shù)應存儲在FLASHROM中一個確定的位置。為此，該系統(tǒng)在FLASHROM中分配了10塊的區(qū)域，每個說話者模型參數(shù)占有一塊特定的區(qū)域。
　　在FLASH ROM中存人數(shù)據(jù)格式為32 b無符號整數(shù)。而訓練得到的是浮點型的數(shù)據(jù)。這就要求在數(shù)據(jù)存入之前將浮點數(shù)轉(zhuǎn)換為32 b無符號類型的整數(shù)，假設要轉(zhuǎn)換的數(shù)據(jù)為float x［M］［N］則轉(zhuǎn)換方法如下：
　?。?）x［M］［N］歸一化；
　?。?）對x［M］［N］乘以一常數(shù)K得到有符號整型的數(shù)組y［M］［N］，即：
　　y［M］［N］=x［M］［N］×K （1）
　?。?）屏蔽第32位符號位，得到32 b無符號類型的整數(shù)數(shù)組。方法如下：
　　z［i］［j］=y［i］［j］&0x7FFFFFFF （2）
　　（4）將z［i］［j］存入FLASH ROM。
　　通過統(tǒng)計實驗數(shù)據(jù)發(fā)現(xiàn)歸一化后數(shù)據(jù)的范圍為10-5～1，故K選擇為108，既可以實現(xiàn)較大精度的轉(zhuǎn)化，又不會影響第31位的數(shù)值。轉(zhuǎn)換得到的有符號整型數(shù)組y［M］［N］范圍為-108～108，在存儲器中正數(shù)為原碼表示，負數(shù)為補碼表示，通過計算發(fā)現(xiàn)，該范圍的正數(shù)第31位為0，負數(shù)第31位為1，所以，上述第（3）步，將有符號數(shù)轉(zhuǎn)換為無符號數(shù)后，數(shù)值的正負改為使用第31位標識。在識別階段，要將說話者的GMM參數(shù)依次從FLASH ROM中讀出，逐個與待識別者語音的MFCC參數(shù)比較，求最大似然值。參數(shù)調(diào)出過程與以上存入過程相反。
　　1．6 說話人身份識別的結果顯示
　　說話人的身份顯示通過LED的組合顯示確定。在DSK上有4只LED燈，將每個LED燈看成是一位二進制數(shù)。則4個LED燈最大可表示16個人的身份。該系統(tǒng)取前10個組合來表示所識別的說話人的身份。