0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

快商通李稀敏:近場(chǎng)聲紋識(shí)別將普及,本地化的AI能力是剛需

智能生物識(shí)別說 ? 2019-11-01 18:11 ? 次閱讀

快商通公檢法事業(yè)線總經(jīng)理李稀敏博士就“人機(jī)語(yǔ)音交互是否必須要先喚醒和離線語(yǔ)音技術(shù)在本地端上的實(shí)現(xiàn)是否未來的趨勢(shì)”為題進(jìn)行分享:


01 人機(jī)交互必須要先喚醒嗎?


語(yǔ)音交互流程被劃分為五個(gè)環(huán)節(jié) – 喚醒、響應(yīng)、輸入、理解、反饋。其中喚醒是每一次用戶與語(yǔ)音產(chǎn)品交互的第一個(gè)接觸點(diǎn),喚醒環(huán)節(jié)的體驗(yàn)在整個(gè)語(yǔ)音交互流程中至關(guān)重要,它的體驗(yàn)好壞將直接影響用戶對(duì)產(chǎn)品的“第一印象”。就目前市面上常見的語(yǔ)音交互產(chǎn)品來說,一個(gè)眼神或者一個(gè)動(dòng)作還不能引起它的注意,因此需要定義一個(gè)將產(chǎn)品從待機(jī)狀態(tài)切換到工作狀態(tài)的詞語(yǔ),即所謂的“喚醒詞”。比如“小度小度”“若琪”“叮咚叮咚”。那么,人機(jī)交互我們必須要先喚醒嗎?李稀敏認(rèn)為:隨著技術(shù)場(chǎng)景越來越成熟,當(dāng)機(jī)器具備足夠的智能化,機(jī)器是可以不需要喚醒詞,就像跟人對(duì)話一樣自然。但距離無喚醒交互的實(shí)現(xiàn),還有一段路要走。從聲紋識(shí)別的角度來看有兩種場(chǎng)景,第一種,用喚醒詞作為命令詞,設(shè)備在休眠或鎖屏狀態(tài)下也能檢測(cè)到用戶的聲音(設(shè)定的語(yǔ)音指令,即喚醒詞),讓處于休眠狀態(tài)下的設(shè)備直接進(jìn)入到等待指令狀態(tài),開啟語(yǔ)音交互第一步。第二種設(shè)置一個(gè)“喚醒詞”,這時(shí)候我們可以將設(shè)備喚醒比作水龍頭的開關(guān),如果水龍頭沒有開關(guān)的話,摁都摁不住是吧?就像智能音響交互的時(shí)候,設(shè)備亂七八糟的識(shí)別了一大堆語(yǔ)音,這個(gè)東西出來摁都摁不住,所以人機(jī)交互還是要有“喚醒”步驟。但是否需要喚醒詞,還需根據(jù)場(chǎng)景的需求來決定,沒有所謂的通用答案。


02 聲紋識(shí)別是否可以改進(jìn)人機(jī)交互方式?


最近一段時(shí)間很火的蘋果AirPods,華為榮耀FlyPods Pro都在主打身份識(shí)別。目前的喚醒大家都是在用這個(gè)特定的喚醒詞,如果改用聲紋識(shí)別,是否可以改變這種交互的方式?李稀敏認(rèn)為:在不同的場(chǎng)景中,最佳的喚醒的方式可以不同,但在耳機(jī)等可穿戴設(shè)備的場(chǎng)景中,聲紋識(shí)別因其高易用性、非接觸、不需要前置設(shè)備等優(yōu)點(diǎn),相對(duì)其他生物識(shí)別技術(shù),能夠更好的解決該場(chǎng)景的實(shí)際身份認(rèn)證的問題,進(jìn)而改進(jìn)人機(jī)交互體驗(yàn)。


03 實(shí)現(xiàn)本地端離線語(yǔ)音技術(shù)是未來趨勢(shì)?


“在貼身的耳機(jī),也就是本地端做聲紋識(shí)別,其實(shí)避免了一個(gè)技術(shù)問題:遠(yuǎn)場(chǎng)識(shí)別”,李稀敏解釋。遠(yuǎn)場(chǎng)的文本無關(guān)身份識(shí)別由于復(fù)雜的信號(hào)傳播環(huán)境等原因,是目前的技術(shù)難點(diǎn),還有很長(zhǎng)的路要走。但相對(duì)來說,近場(chǎng)的身份識(shí)別,在本地端可以通過技術(shù)手段快速解決問題。所以,接下來本地端近場(chǎng)身份識(shí)別能夠大面積普及,在今后很多場(chǎng)景,我們隨身攜帶一個(gè)小設(shè)備都能夠直接識(shí)別身份。


關(guān)于本地化是不是未來的趨勢(shì)。從數(shù)據(jù)的角度來講,很多人是不希望自己的聲音信息,人臉信息,通過設(shè)備或各種隱私接口上傳到云端且變?yōu)椴豢煽?。李稀敏認(rèn)為,從這個(gè)角度來看,本地化的AI的能力是一個(gè)剛需。


04 大熱的語(yǔ)音合成技術(shù)TTS,跟聲紋識(shí)別PK,誰(shuí)會(huì)更勝一籌?


對(duì)于使用錄音、合成語(yǔ)音等攻擊手段的識(shí)別,是聲紋識(shí)別必須要解決的問題??焐掏ㄔ跒殂y行、保險(xiǎn)等金融客戶設(shè)計(jì)聲紋身份識(shí)別系統(tǒng),這個(gè)是第一個(gè)需要解決的問題。


目前,對(duì)聲紋認(rèn)證的攻擊,大概分成幾類,第一類是模仿,第二類是語(yǔ)音合成或者語(yǔ)音轉(zhuǎn)換,第三類是錄音重放。根據(jù)實(shí)際欺詐的手段來講,目前主要是防錄音重放。其中,錄音重放是最難檢測(cè)的。解決了錄音重放問題,就相當(dāng)于解決了語(yǔ)音拼接和語(yǔ)音合成問題。


快商通在這一點(diǎn)上做得比較領(lǐng)先,我們的首席科學(xué)家李海洲院士,團(tuán)隊(duì)在ASVspoof2017自動(dòng)說話人驗(yàn)證欺騙和對(duì)策挑戰(zhàn)賽中獲得第一名。包括在許多銀行客戶的測(cè)試中,我們都是100%檢測(cè)到錄音重放。


另外分享個(gè)故事,除了算法和系統(tǒng)本身領(lǐng)先,解決方案還需要數(shù)據(jù)驅(qū)動(dòng),大量的錄音樣本、各種設(shè)備、各種采樣率、各種時(shí)長(zhǎng)、各種環(huán)境的訓(xùn)練。1年前,我們?cè)诒本准毅y行做測(cè)試的時(shí)候,白天我們?cè)诘罔F上,在最嘈雜的環(huán)境下,各種測(cè)試都攻不破。


但晚上,我住在清華大學(xué)里,在10:00、11:00左右夜深人靜、一點(diǎn)聲音都沒有的時(shí)候,掏出了我們的APP進(jìn)行測(cè)試,卻被攻破了。說明當(dāng)時(shí)我們的訓(xùn)練數(shù)據(jù)沒有覆蓋到無雜音、無噪音的情況,當(dāng)然,現(xiàn)在已經(jīng)覆蓋到了(笑)。


關(guān)于快商通:


快商通是一家從事人工智能技術(shù)與應(yīng)用研發(fā)的創(chuàng)新型科技企業(yè),在聲紋識(shí)別、自然語(yǔ)言處理、深度學(xué)習(xí)、大數(shù)據(jù)等方面擁有原創(chuàng)核心競(jìng)爭(zhēng)力。


面向企業(yè)服務(wù)、金融、公檢法、醫(yī)療、物聯(lián)網(wǎng)等領(lǐng)域,為全球客戶提供包含人工智能算法、應(yīng)用軟件、平臺(tái)軟件及內(nèi)嵌人工智能功能的軟硬件一體化解決方案。致力于持續(xù)為客戶創(chuàng)造價(jià)值,讓人工智能走進(jìn)每個(gè)人的生活。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    愛普生科技+本地化引領(lǐng)五大創(chuàng)新

    自八十年代進(jìn)入中國(guó)以來,愛普生已在中國(guó)市場(chǎng)上深耕近四十年。從打印機(jī)到工業(yè)機(jī)器人,愛普生業(yè)務(wù)遍布多個(gè)領(lǐng)域,始終秉承“科技+本地化”的核心理念,與中國(guó)市場(chǎng)同頻共振,不斷深化與本土合作伙伴合作,推出“中國(guó)定制”產(chǎn)品及解決方案。
    的頭像 發(fā)表于 12-12 16:31 ?182次閱讀

    英飛凌 CEO:將在中國(guó)本地化生產(chǎn)芯片以滿足客戶需求

    12月11日消息,據(jù)報(bào)道,德國(guó)芯片巨頭英飛凌的CEO Jochen Hanebeck近日透露,為了滿足中國(guó)客戶的特定需求,公司正在積極推進(jìn)商品級(jí)產(chǎn)品的本地化生產(chǎn)策略,與中國(guó)市場(chǎng)保持緊密的業(yè)務(wù)聯(lián)系
    的頭像 發(fā)表于 12-11 18:21 ?256次閱讀

    城市交通氣象站:本地化氣象服務(wù)保障都市交通

    在繁華喧囂的都市中,交通如同一座城市的血脈,日夜不停地流淌,維持著城市的生機(jī)與活力。而城市交通氣象站,則猶如敏銳的神經(jīng)末梢,感知著氣象的細(xì)微變化,為都市交通提供著精準(zhǔn)且本地化的氣象服務(wù),成為保障
    的頭像 發(fā)表于 12-11 17:20 ?222次閱讀

    傳音“融入”東南亞 本地化模式成功復(fù)制 ?

    近年來,中國(guó)手機(jī)品牌逐漸在海外占有一席之地,特別是深耕海外多年的傳音控股在新興市場(chǎng)呈現(xiàn)出勃勃生機(jī)。面對(duì)日益激烈的競(jìng)爭(zhēng)態(tài)勢(shì),傳音更堅(jiān)持本地化運(yùn)營(yíng)與技術(shù)創(chuàng)新雙驅(qū)動(dòng),積極開拓非洲之外的市場(chǎng)空間,最終成功
    的頭像 發(fā)表于 12-11 11:14 ?283次閱讀
    傳音“融入”東南亞 <b class='flag-5'>本地化</b>模式成功復(fù)制 ?

    Visual Components數(shù)字化工廠仿真軟件本地化服務(wù):億達(dá)四方的優(yōu)勢(shì)

    的行業(yè)經(jīng)驗(yàn)和卓越的服務(wù)能力,為用戶提供了全方位的本地化服務(wù),助力企業(yè)在智能制造領(lǐng)域取得成功。本文將深入探討億達(dá)四方在提供本地化服務(wù)方面的幾大優(yōu)勢(shì)。 ?1. 多語(yǔ)言支持與定制培訓(xùn) 對(duì)于
    的頭像 發(fā)表于 12-03 18:07 ?134次閱讀

    聯(lián)想印度布局AI服務(wù)器生產(chǎn),加速AI技術(shù)本地化進(jìn)程

    聯(lián)想集團(tuán)近日宣布了一項(xiàng)重大戰(zhàn)略舉措,正式在印度南部啟動(dòng)人工智能服務(wù)器的本地化生產(chǎn),并配套在班加羅爾科技中心設(shè)立專注于AI服務(wù)器的研發(fā)實(shí)驗(yàn)室。此舉標(biāo)志著聯(lián)想在全球AI領(lǐng)域布局的進(jìn)一步深化,尤其是在亞洲市場(chǎng)的重要一步。
    的頭像 發(fā)表于 09-19 16:46 ?342次閱讀

    極氪與Mobileye攜手加速自動(dòng)駕駛技術(shù)中國(guó)本地化

    近日,新能源汽車品牌極氪汽車與以色列領(lǐng)先的自動(dòng)駕駛技術(shù)巨頭Mobileye宣布了一項(xiàng)重要合作計(jì)劃,旨在加速雙方在中國(guó)市場(chǎng)的技術(shù)本地化進(jìn)程。此次合作的核心是將Mobileye的SuperVision自動(dòng)駕駛技術(shù)深度整合至極氪汽車的下一代車型中,共同推動(dòng)駕駛安全與自動(dòng)駕駛技術(shù)的全面升級(jí)。
    的頭像 發(fā)表于 08-06 10:19 ?658次閱讀

    優(yōu)刻得與聯(lián)想AI實(shí)驗(yàn)室攜手共建高效AI資源池

    近日,云計(jì)算服務(wù)提供優(yōu)刻得(UCloud)與聯(lián)想AI實(shí)驗(yàn)室宣布達(dá)成戰(zhàn)略合作,雙方將共同打造一個(gè)高效且靈活的本地化AI資源池,旨在加速AI
    的頭像 發(fā)表于 07-14 14:19 ?1095次閱讀

    涂鴉HEDV本地化部署方案,助你低成本實(shí)現(xiàn)定制化開發(fā)!

    在日新月異的信息科技領(lǐng)域,軟件定制需求不斷增長(zhǎng),尤其在智慧校園、智慧園區(qū)和智慧能源等多元業(yè)務(wù)場(chǎng)景中,許多企業(yè)和組織對(duì)本地化部署的需求日益強(qiáng)烈。然而,傳統(tǒng)軟件應(yīng)用往往難以跟上企業(yè)智能
    的頭像 發(fā)表于 07-06 08:15 ?779次閱讀
    涂鴉HEDV<b class='flag-5'>本地化</b>部署方案,助你低成本實(shí)現(xiàn)定制化開發(fā)!

    亞馬遜云科技與四維圖新深化合作,共推汽車行業(yè)本地化服務(wù)

    在近日舉辦的亞馬遜云科技中國(guó)峰會(huì)2024上,亞馬遜云科技與四維圖新宣布了新一輪的戰(zhàn)略合作。雙方將攜手合作,共同設(shè)計(jì)并推出面向汽車行業(yè)的本地化服務(wù)及專屬解決方案。
    的頭像 發(fā)表于 05-30 14:27 ?558次閱讀

    廣汽埃安泰國(guó)工廠185協(xié)議簽署,實(shí)現(xiàn)本地化生產(chǎn)重要突破

    作為廣汽集團(tuán)在海外設(shè)立的首家保稅工廠,此次保稅區(qū)獲批對(duì)埃安泰國(guó)本地化戰(zhàn)略具有重大意義。185(保稅區(qū)運(yùn)營(yíng)許可證)的批準(zhǔn)將使所有生產(chǎn)零部件進(jìn)口關(guān)稅降至零,同時(shí),在保稅區(qū)內(nèi)生產(chǎn)的電動(dòng)車可享有東盟成員國(guó)間的互免關(guān)稅待遇以及便捷的通關(guān)流程
    的頭像 發(fā)表于 05-08 10:17 ?514次閱讀

    開發(fā)者手機(jī) AI - 目標(biāo)識(shí)別 demo

    功能簡(jiǎn)介 該應(yīng)用是在Openharmony 4.0系統(tǒng)上開發(fā)的一個(gè)目標(biāo)識(shí)別AI應(yīng)用,旨在從上到下打通Openharmony AI子系統(tǒng),展示Openharmony系統(tǒng)的AI
    發(fā)表于 04-11 16:14

    源2.0適配FastChat框架,企業(yè)快速本地化部署大模型對(duì)話平臺(tái)

    北京2024年2月28日?/美通社/ -- 近日,浪潮信息Yuan2.0大模型與FastChat框架完成全面適配,推出"企業(yè)快速本地化部署大模型對(duì)話平臺(tái)"方案。該方案主要面向金融、法律、教育等領(lǐng)域
    的頭像 發(fā)表于 02-29 09:57 ?811次閱讀
    源2.0適配FastChat框架,企業(yè)快速<b class='flag-5'>本地化</b>部署大模型對(duì)話平臺(tái)

    非洲數(shù)字經(jīng)濟(jì)持續(xù)崛起 本地化策略讓傳音提前入局

    4%。廣闊的非洲大陸煥發(fā)著勃勃生機(jī)。新形勢(shì)下,非洲迎來數(shù)字轉(zhuǎn)型的浪潮,移動(dòng)支付、電子商務(wù)等新興業(yè)態(tài)迅速發(fā)展,為企業(yè)提供了新的增長(zhǎng)點(diǎn)。 中國(guó)科技企業(yè)出海代表傳音在此契機(jī)下加速出海,投身非洲數(shù)字建設(shè),以本地化運(yùn)營(yíng)模式鞏固優(yōu)勢(shì),
    的頭像 發(fā)表于 02-23 17:10 ?497次閱讀

    比亞迪匈牙利工廠將落地,未來產(chǎn)品將歐洲本地化

    比亞迪董事長(zhǎng)兼總裁王傳福則強(qiáng)調(diào),未來公司計(jì)劃利用本地化資源加快開發(fā)具有歐洲特色的品牌產(chǎn)品。他表示將充分發(fā)揮比亞迪作為全球頂尖新能源汽車制造的優(yōu)勢(shì),推動(dòng)匈牙利實(shí)現(xiàn)汽車行業(yè)的電動(dòng)轉(zhuǎn)型。
    的頭像 發(fā)表于 02-01 14:05 ?800次閱讀