1 智能語音技術(shù)發(fā)展與siri
智能語音技術(shù)發(fā)展過程可以理解為兩個階段,第一是輸入和輸出階段,即識別與合成,第二是理解和思考階段,即語義理解、對話系統(tǒng)、人工智能反饋。并且每一個細(xì)分領(lǐng)域均為單獨研究,例如語音識別、自然語言處理、聲紋處理,語義解析等等。
siri 目前最大的優(yōu)勢在于語義單項理解的算法,在一個限定的領(lǐng)域下,siri表現(xiàn)確實很好,但在整個語音領(lǐng)域內(nèi),尤其不限定領(lǐng)域和語音識別不穩(wěn)定的情況下,顯得有些后勁不足,這也與目前技術(shù)有關(guān)。而思必馳與siri不同的地方在與交互的理論,目前思必馳以任務(wù)型對話為目標(biāo),并專注于此。
2 一體化綜合解決技術(shù)增強用戶體驗
目前的智能語音基本是單獨模塊定義單獨的功能,例如語義理解、語音識別模塊,彼此之間沒有控制與調(diào)度,這也是造成目前語音延遲現(xiàn)象的部分原因,而造成延遲另外的原因是語音的處理、理解、交互系統(tǒng)設(shè)計方式。
用戶最希望的是智能語音界面能像人與人的交流一樣,語音能夠迅速反饋。但目前,雖然單獨語音識別很多單位都能做的很快,但組裝成交互系統(tǒng)之后就大都無法做到這一點了。目前思必馳推出的一體化解決方案,針對利于用戶體驗方面進(jìn)行優(yōu)化,達(dá)到端到端的用戶體驗,優(yōu)化整個控制流程,在識別的基礎(chǔ)上同時進(jìn)行輸出,達(dá)到一個快速智能反饋的效果。我們是面向終端用戶體驗去做語音交互優(yōu)化,而不僅僅提供一個模塊而已。
3 人性化交互的智能語音方向
未來的智能語音交互發(fā)展方向一定是混合發(fā)展模式,將以用戶為中心,綜合應(yīng)用全面的語音技術(shù),而不僅僅是單純的語音識別。第一,智能語音技術(shù)會與環(huán)境、語境自適應(yīng)的結(jié)合;第二,語音的發(fā)展在自然場景下應(yīng)用會越來越多,例如在高噪聲環(huán)境中的處理是未來的一個方向;第三,結(jié)合上下文的語義理解以及端到端的語音交互解決。目前單獨的識別以不能解決所有問題與滿足用戶需求,將識別、理解、對話的交互控制等融合,提供整套的解決方案才是最終的方向。
人工智能層面的語音技術(shù)中,單純的識別率是以科研指標(biāo)為中心,而人工智能角度與工程科研指標(biāo)在某些方面截然不同。而我們一直以用戶為中心,面向指標(biāo)是令人工智能語音真正人性化,在多類環(huán)境下準(zhǔn)確識別并反饋,以個性化色彩進(jìn)行交流。語音交互的未來應(yīng)當(dāng)是面向用戶,人性化的智能交互,而非過去模塊化的交互。
俞凱博士背景:擁有劍橋大學(xué)語音識別專業(yè)的學(xué)術(shù)背景,也是國內(nèi)學(xué)術(shù)界“青年***”里唯一一位來自智能語音技術(shù)行業(yè)領(lǐng)域的語音專家,曾多次獲得美國國家標(biāo)準(zhǔn)局和美國國防部語音識別評測冠軍,是國際最早的認(rèn)知型人機口語對話系統(tǒng)原型的主要實現(xiàn)者,在上海交通大學(xué)創(chuàng)建了智能語音實驗室。
-
人工智能
+關(guān)注
關(guān)注
1793文章
47588瀏覽量
239465 -
智能語音
+關(guān)注
關(guān)注
10文章
789瀏覽量
48837 -
思必馳
+關(guān)注
關(guān)注
4文章
289瀏覽量
14299
發(fā)布評論請先 登錄
相關(guān)推薦
評論