0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

劍橋語音博士俞凱解讀智能語音技術(shù)

思必馳 ? 來源:djl ? 作者:思必馳 ? 2019-08-05 16:02 ? 次閱讀

1 智能語音技術(shù)發(fā)展與siri

智能語音技術(shù)發(fā)展過程可以理解為兩個階段,第一是輸入和輸出階段,即識別與合成,第二是理解和思考階段,即語義理解、對話系統(tǒng)、人工智能反饋。并且每一個細(xì)分領(lǐng)域均為單獨研究,例如語音識別、自然語言處理、聲紋處理,語義解析等等。

siri 目前最大的優(yōu)勢在于語義單項理解的算法,在一個限定的領(lǐng)域下,siri表現(xiàn)確實很好,但在整個語音領(lǐng)域內(nèi),尤其不限定領(lǐng)域和語音識別不穩(wěn)定的情況下,顯得有些后勁不足,這也與目前技術(shù)有關(guān)。而思必馳與siri不同的地方在與交互的理論,目前思必馳以任務(wù)型對話為目標(biāo),并專注于此。

2 一體化綜合解決技術(shù)增強用戶體驗

目前的智能語音基本是單獨模塊定義單獨的功能,例如語義理解、語音識別模塊,彼此之間沒有控制與調(diào)度,這也是造成目前語音延遲現(xiàn)象的部分原因,而造成延遲另外的原因是語音的處理、理解、交互系統(tǒng)設(shè)計方式。

用戶最希望的是智能語音界面能像人與人的交流一樣,語音能夠迅速反饋。但目前,雖然單獨語音識別很多單位都能做的很快,但組裝成交互系統(tǒng)之后就大都無法做到這一點了。目前思必馳推出的一體化解決方案,針對利于用戶體驗方面進(jìn)行優(yōu)化,達(dá)到端到端的用戶體驗,優(yōu)化整個控制流程,在識別的基礎(chǔ)上同時進(jìn)行輸出,達(dá)到一個快速智能反饋的效果。我們是面向終端用戶體驗去做語音交互優(yōu)化,而不僅僅提供一個模塊而已。

3 人性化交互的智能語音方向

未來的智能語音交互發(fā)展方向一定是混合發(fā)展模式,將以用戶為中心,綜合應(yīng)用全面的語音技術(shù),而不僅僅是單純的語音識別。第一,智能語音技術(shù)會與環(huán)境、語境自適應(yīng)的結(jié)合;第二,語音的發(fā)展在自然場景下應(yīng)用會越來越多,例如在高噪聲環(huán)境中的處理是未來的一個方向;第三,結(jié)合上下文的語義理解以及端到端的語音交互解決。目前單獨的識別以不能解決所有問題與滿足用戶需求,將識別、理解、對話的交互控制等融合,提供整套的解決方案才是最終的方向。

人工智能層面的語音技術(shù)中,單純的識別率是以科研指標(biāo)為中心,而人工智能角度與工程科研指標(biāo)在某些方面截然不同。而我們一直以用戶為中心,面向指標(biāo)是令人工智能語音真正人性化,在多類環(huán)境下準(zhǔn)確識別并反饋,以個性化色彩進(jìn)行交流。語音交互的未來應(yīng)當(dāng)是面向用戶,人性化的智能交互,而非過去模塊化的交互。

俞凱博士背景:擁有劍橋大學(xué)語音識別專業(yè)的學(xué)術(shù)背景,也是國內(nèi)學(xué)術(shù)界“青年***”里唯一一位來自智能語音技術(shù)行業(yè)領(lǐng)域的語音專家,曾多次獲得美國國家標(biāo)準(zhǔn)局和美國國防部語音識別評測冠軍,是國際最早的認(rèn)知型人機口語對話系統(tǒng)原型的主要實現(xiàn)者,在上海交通大學(xué)創(chuàng)建了智能語音實驗室。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1793

    文章

    47588

    瀏覽量

    239465
  • 智能語音
    +關(guān)注

    關(guān)注

    10

    文章

    789

    瀏覽量

    48837
  • 思必馳
    +關(guān)注

    關(guān)注

    4

    文章

    289

    瀏覽量

    14299
收藏 人收藏

    評論

    相關(guān)推薦

    解鎖個性化語音交互新時代:九芯智能語音云平臺,讓創(chuàng)意聲音觸手可及!

    九芯智能語音云平臺提供全面高效安全的智能語音服務(wù),支持自定義語音內(nèi)容,簡化燒錄流程,依托AI技術(shù)
    的頭像 發(fā)表于 01-02 16:51 ?141次閱讀
    解鎖個性化<b class='flag-5'>語音</b>交互新時代:九芯<b class='flag-5'>智能</b><b class='flag-5'>語音</b>云平臺,讓創(chuàng)意聲音觸手可及!

    基于語音識別的智能會議系統(tǒng)具備哪些交互功能

    標(biāo)貝科技專注智能語音交互領(lǐng)域多年,在語音識別和語音合成領(lǐng)域有著多項大型企業(yè)合作案例,標(biāo)貝與多個智能會議系統(tǒng)廠商合作,成功將
    的頭像 發(fā)表于 12-20 10:35 ?168次閱讀

    基于智能語音交互的智能呼叫中心工作機制

    作為實現(xiàn)智能呼叫中心的關(guān)鍵技術(shù)之一的智能語音交互技術(shù),它通過集成自然語言處理(NLP)、語音識別
    的頭像 發(fā)表于 12-03 16:44 ?354次閱讀
    基于<b class='flag-5'>智能</b><b class='flag-5'>語音</b>交互的<b class='flag-5'>智能</b>呼叫中心工作機制

    智能語音的驅(qū)動力:揭秘8腳語音芯片在智能設(shè)備中的非凡角色

    語音技術(shù)滲透生活,8腳語音芯片以微縮體積、低功耗、卓越性能成智能設(shè)備語音功能核心,集成識別、合成、壓縮解碼等功能,實現(xiàn)精準(zhǔn)
    的頭像 發(fā)表于 12-02 14:23 ?194次閱讀

    ASR語音識別技術(shù)應(yīng)用

    ASR(Automatic Speech Recognition)語音識別技術(shù),是計算機科學(xué)與人工智能領(lǐng)域的重要突破,能將人類語音轉(zhuǎn)換為文本,廣泛應(yīng)用于
    的頭像 發(fā)表于 11-18 15:12 ?936次閱讀

    智能語音交互技術(shù)如何助力設(shè)備實現(xiàn)人機自然對話

    智能語音交互技術(shù)是指通過語音識別、語音合成和自然語言理解等技術(shù),實現(xiàn)人與機器之間自然語言的交流和
    的頭像 發(fā)表于 05-23 15:14 ?410次閱讀

    車內(nèi)語音識別技術(shù)智能駕駛中的應(yīng)用與前景

    一、引言 隨著智能駕駛技術(shù)的快速發(fā)展,車內(nèi)語音識別技術(shù)逐漸成為智能駕駛領(lǐng)域的研究熱點。語音識別
    的頭像 發(fā)表于 02-19 11:46 ?888次閱讀

    車內(nèi)語音識別技術(shù)智能駕駛的核心要素

    一、引言 隨著科技的飛速發(fā)展,智能駕駛已經(jīng)成為未來出行的趨勢。作為智能駕駛的關(guān)鍵技術(shù)之一,車內(nèi)語音識別技術(shù)發(fā)揮著越來越重要的作用。它不僅提升
    的頭像 發(fā)表于 02-19 11:42 ?834次閱讀

    車內(nèi)語音識別技術(shù)智能駕駛的革新之源

    一、引言 隨著科技的飛速發(fā)展,智能駕駛已經(jīng)成為現(xiàn)代交通領(lǐng)域的熱門話題。作為智能駕駛的關(guān)鍵技術(shù)之一,車內(nèi)語音識別技術(shù)正在改變我們對駕駛的認(rèn)知。
    的頭像 發(fā)表于 02-19 10:10 ?503次閱讀

    車內(nèi)語音識別技術(shù):重塑智能駕駛的未來

    一、引言 隨著科技的飛速發(fā)展,智能駕駛已經(jīng)成為未來交通的必然趨勢。作為智能駕駛的關(guān)鍵技術(shù)之一,車內(nèi)語音識別技術(shù)正逐漸成為研究的熱點。它不僅提
    的頭像 發(fā)表于 02-19 10:09 ?699次閱讀

    語音合成技術(shù)智能駕駛中的創(chuàng)新與應(yīng)用

    一、引言 隨著智能駕駛技術(shù)的不斷發(fā)展,人機交互變得越來越重要。語音合成技術(shù)作為人機交互的重要手段,在智能駕駛中發(fā)揮著越來越重要的作用。本文將
    的頭像 發(fā)表于 02-01 18:09 ?694次閱讀

    語音合成技術(shù)智能駕駛中的應(yīng)用與展望

    一、引言 隨著科技的飛速發(fā)展,語音合成技術(shù)逐漸成為人機交互領(lǐng)域的重要分支。在智能駕駛環(huán)境中,語音合成技術(shù)更是發(fā)揮著不可或缺的作用。它不僅簡化
    的頭像 發(fā)表于 02-01 17:50 ?564次閱讀

    語音數(shù)據(jù)集在智能駕駛中的關(guān)鍵作用與應(yīng)用

    一、引言 隨著智能駕駛技術(shù)的快速發(fā)展,語音識別技術(shù)在其中扮演著越來越重要的角色。而語音數(shù)據(jù)集作為語音
    的頭像 發(fā)表于 01-31 16:22 ?525次閱讀

    語音數(shù)據(jù)集:智能駕駛中車內(nèi)語音識別技術(shù)的基石

    一、引言 在智能駕駛中,車內(nèi)語音識別技術(shù)發(fā)揮著越來越重要的作用。語音數(shù)據(jù)集作為這一技術(shù)的基石,其質(zhì)量和規(guī)模對
    的頭像 發(fā)表于 01-31 16:07 ?578次閱讀

    恩智浦發(fā)布新一代智能語音技術(shù)組合的語音識別引擎

    恩智浦發(fā)布新一代智能語音技術(shù)組合的語音識別引擎。本文將探討開發(fā)人員在嵌入式語音控制設(shè)計中面臨的挑戰(zhàn)、恩智浦新的Speech to Inten
    的頭像 發(fā)表于 01-26 09:15 ?794次閱讀
    恩智浦發(fā)布新一代<b class='flag-5'>智能</b><b class='flag-5'>語音</b><b class='flag-5'>技術(shù)</b>組合的<b class='flag-5'>語音</b>識別引擎