0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

語(yǔ)音識(shí)別技術(shù)最新進(jìn)展:視聽融合的多模態(tài)交互成為主要演進(jìn)方向

Carol Li ? 來(lái)源:電子發(fā)燒友網(wǎng) ? 作者:李彎彎 ? 2023-12-28 09:06 ? 次閱讀

電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)所謂“模態(tài)”,英文是modality,用通俗的話說(shuō),就是“感官”,多模態(tài)即將多種感官融合。多模態(tài)交互技術(shù)是近年來(lái)人工智能領(lǐng)域的一項(xiàng)重要?jiǎng)?chuàng)新。隨著語(yǔ)音識(shí)別技術(shù)的發(fā)展,采用多種模態(tài)(聲學(xué)、語(yǔ)言模型、視覺特征等)進(jìn)行聯(lián)合建模,基于深度學(xué)習(xí)的多模態(tài)語(yǔ)音識(shí)別取得了新進(jìn)展。

多模態(tài)交互的原理及優(yōu)勢(shì)

多模態(tài)交互技術(shù)融合了多種輸入方式,包括語(yǔ)音、手勢(shì)、觸摸和眼動(dòng)等,使用戶可以根據(jù)自己的喜好和習(xí)慣選擇最方便的交互方式。多模態(tài)交互通過(guò)將不同輸入方式的數(shù)據(jù)進(jìn)行融合和處理,實(shí)現(xiàn)更準(zhǔn)確、智能的交互響應(yīng),提高用戶體驗(yàn)。

上周在星宸科技2023開發(fā)者大會(huì)暨產(chǎn)品發(fā)布會(huì)論壇上,科大訊飛企業(yè)數(shù)字化副總裁盧堯談到,人工智能有三個(gè)層次,1、運(yùn)算智能:能存會(huì)算;2、感知智能:能聽會(huì)說(shuō),能看會(huì)認(rèn);3、認(rèn)知智能:能理解會(huì)思考。而感知智能典型的進(jìn)展是多模態(tài)交互。

從盧堯的介紹來(lái)看,融合了視覺和語(yǔ)音的多模態(tài)免喚醒系統(tǒng)具有明顯優(yōu)勢(shì)。如下圖:這套多模態(tài)免喚醒交互系統(tǒng),同時(shí)采用視覺檢測(cè)和語(yǔ)音識(shí)別交互,誤喚醒率僅為0.01%,交互響應(yīng)成功率相較于僅基于語(yǔ)音識(shí)別交互系統(tǒng)大幅提升。

wKgaomWMymCACWUdAAZDJDahffk724.jpg

早在今年5月,科大訊飛AI研究院副院長(zhǎng)高建清博士就在某論壇上介紹過(guò)公司在多模態(tài)語(yǔ)音交互技術(shù)方面的最新進(jìn)展。據(jù)高建清介紹,科大訊飛依托語(yǔ)音與視覺方面的多年積累,打造了一套語(yǔ)音、視覺多模態(tài)融合的免喚醒多模態(tài)交互系統(tǒng)。

通過(guò)將麥克風(fēng)提供的空間信息和音視頻提供的說(shuō)話人相關(guān)信息進(jìn)行融合綁定,實(shí)現(xiàn)高準(zhǔn)確度的說(shuō)話人分離;通過(guò)多模態(tài)VAD與端到端意圖技術(shù)的結(jié)合,實(shí)現(xiàn)無(wú)喚醒詞的自然人機(jī)交互,具有可靠、自然、魯棒的特點(diǎn)。

具體來(lái)看,基于多模態(tài)多通道的語(yǔ)音分離系統(tǒng),將語(yǔ)音信號(hào)、麥克風(fēng)陣列提供的空間信息以及主說(shuō)話人的唇形輸入分離模型,系統(tǒng)最終輸出視頻說(shuō)話人的語(yǔ)音,抑制背景噪聲及干擾說(shuō)話人語(yǔ)音。在多人同時(shí)講話、車載音樂情況下,語(yǔ)音識(shí)別效果相比單模分離系統(tǒng)有50%以上性能提升。不僅解決了傳統(tǒng)麥克風(fēng)陣列方法無(wú)法有效區(qū)分同向干擾的問(wèn)題,還可提升非同向干擾分離場(chǎng)景的性能。

多模態(tài)交互技術(shù)的應(yīng)用

語(yǔ)音識(shí)別是人工智能技術(shù)的一個(gè)重要分支,近些年來(lái),智能語(yǔ)音也在多項(xiàng)技術(shù)難點(diǎn)上取得突破。業(yè)界普遍認(rèn)為,在語(yǔ)音識(shí)別方面,視聽融合的多模態(tài)交互技術(shù)成為技術(shù)演進(jìn)的主要方向。

科大訊飛是國(guó)內(nèi)主要的智能語(yǔ)音技術(shù)玩家,其多模語(yǔ)音增強(qiáng)技術(shù)融合語(yǔ)音與視覺的多模感知,讓高噪音場(chǎng)景下的語(yǔ)音交互跨過(guò)實(shí)用門檻,目前已經(jīng)在車載、會(huì)議、地鐵購(gòu)票和醫(yī)療掛號(hào)等場(chǎng)景落地。

wKgaomWMymyAGg6TAAa96QItwQ8667.jpg

在車載領(lǐng)域,人機(jī)交互系統(tǒng)需要攻克兩大難題:一是環(huán)境噪音及人聲干擾,尤其是麥克風(fēng)陣列技術(shù)難以解決的同向人聲干擾問(wèn)題(如:駕駛員與左后方乘客同時(shí)說(shuō)話);二是傳統(tǒng)語(yǔ)音交互系統(tǒng)每次啟動(dòng)交互都需要說(shuō)喚醒詞,難以做到像人與人交流一樣自然順暢。

此前就有消息顯示,科大訊飛多模態(tài)免喚醒交互解決方案將率先在廣汽傳祺和威馬等自主品牌車型上部署應(yīng)用。該方案能夠適應(yīng)復(fù)雜光線暗、語(yǔ)音嘈雜等多種工況,并支持主流SOC和DMS攝像頭。

在地鐵購(gòu)票場(chǎng)景中,此前因?yàn)榈罔F站點(diǎn)太多,買票難以找到目的地站點(diǎn),而且這些操作對(duì)于老年人不太友好,而語(yǔ)音購(gòu)票的功能讓這些問(wèn)題迎刃而解。同時(shí),因?yàn)榈罔F站人聲嘈雜,也使得語(yǔ)音交互的體驗(yàn)并不友好。

根據(jù)此前的報(bào)道,深圳地鐵12號(hào)線智能售票機(jī)及智慧客服終端上,率先采用了科大訊飛多模語(yǔ)音增強(qiáng)技術(shù),該技術(shù)通過(guò)識(shí)別人臉唇形等信息,同時(shí)結(jié)合人聲,使得即使在人聲嘈雜的環(huán)境,語(yǔ)音識(shí)別的準(zhǔn)確率也大大提升。

多模態(tài)語(yǔ)音識(shí)別技術(shù)在智能家居場(chǎng)景中也非常實(shí)用。融合語(yǔ)音、手勢(shì)、視覺感知,用戶可以過(guò)簡(jiǎn)單的口頭指令控制智能家居設(shè)備,實(shí)現(xiàn)智能燈光、家居安防等功能,通過(guò)攝像頭和深度學(xué)習(xí)技術(shù),智能家居可以識(shí)別用戶的手勢(shì)動(dòng)作,實(shí)現(xiàn)手勢(shì)控制家居設(shè)備的操作。同時(shí),通過(guò)視覺感知技術(shù),識(shí)別用戶的面部表情和情緒狀態(tài),根據(jù)不同情況提供相應(yīng)的互動(dòng)體驗(yàn)。

總結(jié)

經(jīng)過(guò)多年的發(fā)展,語(yǔ)音識(shí)別技術(shù)已經(jīng)相當(dāng)成熟,并且在車載、智能家居等各種場(chǎng)景中實(shí)現(xiàn)應(yīng)用,并給人們的生活帶來(lái)便利。然而同時(shí),一直以來(lái)語(yǔ)音識(shí)別也存在諸多難點(diǎn),比如環(huán)境噪聲、多人同時(shí)發(fā)出聲音等情況,都會(huì)影響語(yǔ)音識(shí)別的準(zhǔn)確率。而視聽融合的多模態(tài)技術(shù),將視覺和語(yǔ)音結(jié)合,能夠很好的解決這些問(wèn)題,使得語(yǔ)音識(shí)別的準(zhǔn)確率大幅提升。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    FF將發(fā)布FX品牌最新進(jìn)展

    "、"FF"或 "公司")今天宣布,將于2025年1月8日盤后公布其自2024年9月19日FX品牌發(fā)布以來(lái)的最新進(jìn)展,包括最新項(xiàng)目進(jìn)展、重大里程碑、新產(chǎn)品品類戰(zhàn)略及下一步計(jì)劃。
    的頭像 發(fā)表于 01-03 15:58 ?89次閱讀

    上海交大團(tuán)隊(duì)發(fā)表MEMS視觸覺融合模態(tài)人機(jī)交互新進(jìn)展

    ? 近日,上海交通大學(xué)電子信息與電氣工程學(xué)院微米納米加工技術(shù)全國(guó)重點(diǎn)實(shí)驗(yàn)室劉景全團(tuán)隊(duì)和上海交通大學(xué)人工智能學(xué)院盧策吾團(tuán)隊(duì)在人機(jī)交互領(lǐng)域取得重要進(jìn)展,相關(guān)成果以“Capturing forceful
    的頭像 發(fā)表于 11-28 10:50 ?875次閱讀
    上海交大團(tuán)隊(duì)發(fā)表MEMS視觸覺<b class='flag-5'>融合</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>人機(jī)<b class='flag-5'>交互</b><b class='flag-5'>新進(jìn)展</b>

    揭秘超以太網(wǎng)聯(lián)盟(UEC)1.0 規(guī)范最新進(jìn)展(2024Q4)

    近期,由博通、思科、Arista、微軟、Meta等國(guó)際頂級(jí)半導(dǎo)體、設(shè)備和云廠商牽頭成立的超以太網(wǎng)聯(lián)盟(UEC)在OCP Global Summit上對(duì)外公布其最新進(jìn)展——UEC規(guī)范1.0的預(yù)覽版本。讓我們一睹為快吧!
    的頭像 發(fā)表于 11-18 16:53 ?451次閱讀
    揭秘超以太網(wǎng)聯(lián)盟(UEC)1.0 規(guī)范<b class='flag-5'>最新進(jìn)展</b>(2024Q4)

    Qorvo在射頻和電源管理領(lǐng)域的最新進(jìn)展

    了半導(dǎo)體行業(yè)的重大變革,還成功引領(lǐng)Qorvo成為射頻技術(shù)的領(lǐng)導(dǎo)者。在本次專訪中,Philip將為大家分享Qorvo在射頻和電源管理領(lǐng)域的最新進(jìn)展,并探討HPA事業(yè)部如何通過(guò)技術(shù)創(chuàng)新應(yīng)對(duì)
    的頭像 發(fā)表于 11-17 10:57 ?490次閱讀

    智能優(yōu)化的自動(dòng)點(diǎn)焊控制系統(tǒng):電源技術(shù)新進(jìn)展與應(yīng)用實(shí)踐

    優(yōu)化的自動(dòng)點(diǎn)焊控制系統(tǒng)以其高效、精確的優(yōu)勢(shì),成為了提升焊接質(zhì)量及生產(chǎn)效率的關(guān)鍵所在,尤其在電源技術(shù)上的新進(jìn)展為其發(fā)展提供了強(qiáng)大動(dòng)力。 首先,智能優(yōu)化的自動(dòng)點(diǎn)焊控制系?
    的頭像 發(fā)表于 11-16 09:10 ?284次閱讀

    芯片和封裝級(jí)互連技術(shù)最新進(jìn)展

    近年來(lái),計(jì)算領(lǐng)域發(fā)生了巨大變化,通信已成為系統(tǒng)性能的主要瓶頸,而非計(jì)算本身。這一轉(zhuǎn)變使互連技術(shù) - 即實(shí)現(xiàn)計(jì)算系統(tǒng)各組件之間數(shù)據(jù)交換的通道 - 成為計(jì)算機(jī)架構(gòu)創(chuàng)新的焦點(diǎn)。本文探討了通用
    的頭像 發(fā)表于 10-28 09:50 ?452次閱讀

    AI大模型的最新研究進(jìn)展

    AI大模型的最新研究進(jìn)展體現(xiàn)在多個(gè)方面,以下是對(duì)其最新進(jìn)展的介紹: 一、技術(shù)創(chuàng)新與突破 生成式AI技術(shù)的爆發(fā) : 生成式AI技術(shù)正在迅速發(fā)展
    的頭像 發(fā)表于 10-23 15:19 ?461次閱讀

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)大模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進(jìn)行融合,通過(guò)學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),實(shí)現(xiàn)更加智能化的信息處理。簡(jiǎn)單來(lái)說(shuō),
    的頭像 發(fā)表于 10-18 09:39 ?458次閱讀

    高燃回顧|第三屆OpenHarmony技術(shù)大會(huì)精彩瞬間

    第三屆OpenHarmony技術(shù)大會(huì)圓滿落幕 全球開源精英齊聚 共同展示OpenHarmony技術(shù)、生態(tài)、人才的最新進(jìn)展 見證OpenHarmony南北向生態(tài)繁榮 共繪開源生態(tài)發(fā)展藍(lán)圖 星光璀璨致謝
    發(fā)表于 10-16 18:47

    5G新通話技術(shù)取得新進(jìn)展

    在探討5G新通話這一話題時(shí),我們需首先明確其背景與重要性。自2022年4月國(guó)內(nèi)運(yùn)營(yíng)商正式推出以來(lái),5G新通話作為傳統(tǒng)語(yǔ)音通話的升級(jí)版,迅速吸引了公眾的目光,并引起了社會(huì)的廣泛關(guān)注。它基于5G網(wǎng)絡(luò),代表了通信技術(shù)新進(jìn)展。
    的頭像 發(fā)表于 10-12 16:02 ?619次閱讀

    聆思CSK6視覺語(yǔ)音大模型AI開發(fā)板入門資源合集(硬件資料、大模型語(yǔ)音/模態(tài)交互/英語(yǔ)評(píng)測(cè)SDK合集)

    豐富外設(shè)配件 配套模態(tài)應(yīng)用示例,支持快速上手體驗(yàn)大模型語(yǔ)音交互、智能視覺等 AI 應(yīng)用 板載 DAPLINK 調(diào)試器,外接一條USB 線即可實(shí)現(xiàn)燒錄、調(diào)試、串口日志查看 板載網(wǎng)絡(luò)模組
    發(fā)表于 06-18 17:33

    李未可科技正式推出WAKE-AI模態(tài)AI大模型

    文本生成、語(yǔ)言理解、圖像識(shí)別及視頻生成等模態(tài)交互能力。 ? 該大模型圍繞 GPS 軌跡+視覺+語(yǔ)音打造新一代 LLM-Based的自然
    發(fā)表于 04-18 17:01 ?613次閱讀
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>AI大模型

    百度首席技術(shù)官王海峰解讀文心大模型的關(guān)鍵技術(shù)最新進(jìn)展

    4月16日,以“創(chuàng)造未來(lái)”為主題的Create 2024百度AI開發(fā)者大會(huì)在深圳國(guó)際會(huì)展中心成功舉辦。百度首席技術(shù)官王海峰以“技術(shù)筑基,星河璀璨”為題,發(fā)表演講,解讀了智能體、代碼、
    的頭像 發(fā)表于 04-18 09:20 ?704次閱讀
    百度首席<b class='flag-5'>技術(shù)</b>官王海峰解讀文心大模型的關(guān)鍵<b class='flag-5'>技術(shù)</b>和<b class='flag-5'>最新進(jìn)展</b>

    清華大學(xué)在電子鼻傳感器仿生嗅聞方向取得新進(jìn)展

    近日,清華大學(xué)機(jī)械系在電子鼻仿生嗅聞研究中取得新進(jìn)展,相關(guān)研究成果以“Sniffing Like a Wine Taster: Multiple Overlapping Sniffs (MOSS
    的頭像 發(fā)表于 02-20 10:57 ?1039次閱讀
    清華大學(xué)在電子鼻傳感器仿生嗅聞<b class='flag-5'>方向</b>取得<b class='flag-5'>新進(jìn)展</b>

    兩家企業(yè)有關(guān)LED項(xiàng)目的最新進(jìn)展

    近日,乾富半導(dǎo)體與英創(chuàng)力兩家企業(yè)有關(guān)LED項(xiàng)目傳來(lái)最新進(jìn)展
    的頭像 發(fā)表于 01-15 13:37 ?694次閱讀