0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種基于端到端基于語音的對話代理

倩倩 ? 來源:互聯(lián)網(wǎng)分析沙龍 ? 2020-09-09 14:14 ? 次閱讀

美國專利商標局(USPTO)授予Microsoft的一項新專利表明,該公司正在開發(fā)能夠反映用戶對話風格和/或面部表情的對話代理。專利- 語言風格匹配代理 -于2020年9月3日授予Microsoft,并以發(fā)明者Daniel J McDuff,Kael R. Rowan,Mary P Czerwinski,Deepali Aneja和Rens Hoegen稱號。

隨著語音識別和生成對話模型的發(fā)展,諸如聊天機器人和虛擬代理之類的對話界面正變得越來越流行。盡管這種自然語言的交互導致了人機交互的發(fā)展,但這種交流大多是單調的且受約束的。因此,這些對話最終只是事務性的,并不是很自然。

這項新的專利技術旨在帶來一種基于端到端基于語音的對話代理,該對話代理可以進行更自然,多輪回的對話,從而與用戶的對話風格和面部表情保持一致。

被實現(xiàn)為僅語音的代理或用臉部體現(xiàn)的會話代理可以與用戶的語音和面部表情匹配??梢酝ㄟ^識別用戶語音的韻律特征并為具有相同或相似特征的虛擬代理合成語音來實現(xiàn)會話代理的語言樣式匹配。用戶的面部表情可以通過具體化的對話代理的臉部來識別和模仿。虛擬代理的發(fā)言可以基于預定的腳本響應和由機器學習技術生成的開放式響應的組合。與用戶的會話風格和面部表情保持一致的會話代理可能會被認為更值得信賴,更容易理解,

對話代理可以是純音頻的,也可以是體現(xiàn)的,這意味著它具有看起來像在說話的“臉”。在這兩種實現(xiàn)方式中,代理可以使用機器學習技術,并以自然且可理解的方式響應用戶的話語,從而整體上改善人機交互。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人機交互
    +關注

    關注

    12

    文章

    1211

    瀏覽量

    55447
  • 語音識別
    +關注

    關注

    38

    文章

    1742

    瀏覽量

    112750
  • 聊天機器人
    +關注

    關注

    0

    文章

    339

    瀏覽量

    12339
收藏 人收藏

    評論

    相關推薦

    自動駕駛技術研究與分析

    編者語:「智駕最前沿」微信公眾號后臺回復:C-0450,獲取本文參考報告:《自動駕駛行業(yè)研究報告》pdf下載方式。 自動駕駛進入2024年,
    的頭像 發(fā)表于 12-19 13:07 ?260次閱讀

    在自動泊車的應用

    要做到15Hz以上。這樣就對存儲和算力需求降低很多。 上海交通大學的五位學生發(fā)表了自動泊車的論文:《ParkingE2E: Camera-based End-to-end P
    的頭像 發(fā)表于 12-18 11:38 ?422次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>在自動泊車的應用

    階躍星辰發(fā)布國內首個千億參數(shù)語音大模型

    近日,階躍星辰在官方公眾號上宣布了項重大突破——推出Step-1o千億參數(shù)語音大模型。該模型被譽為“國內首個千億參數(shù)
    的頭像 發(fā)表于 12-17 13:43 ?245次閱讀

    準確性超Moshi和GLM-4-Voice,語音雙工模型Freeze-Omni

    GPT-4o 提供的全雙工語音對話帶來了股研究熱潮,目前諸多工作開始研究如何利用 LLM 來實現(xiàn)
    的頭像 發(fā)表于 12-17 10:21 ?228次閱讀
    準確性超Moshi和GLM-4-Voice,<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>語音</b>雙工模型Freeze-Omni

    已來,智駕仿真測試該怎么做?

    智駕方案因強泛化能力、可持續(xù)學習與升級等優(yōu)勢備受矚目,但這對仿真測試帶來了巨大挑戰(zhàn)??抵\探索了一種有效的
    的頭像 發(fā)表于 12-04 09:59 ?2696次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>已來,智駕仿真測試該怎么做?

    爆火的如何加速智駕落地?

    編者語:「智駕最前沿」微信公眾號后臺回復:C-0551,獲取本文參考報告:《智能汽車技術研究報告》pdf下載方式。 “
    的頭像 發(fā)表于 11-26 13:17 ?343次閱讀
    爆火的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>如何加速智駕落地?

    連接視覺語言大模型與自動駕駛

    自動駕駛在大規(guī)模駕駛數(shù)據(jù)上訓練,展現(xiàn)出很強的決策規(guī)劃能力,但是面對復雜罕見的駕駛場景,依然存在局限性,這是因為
    的頭像 發(fā)表于 11-07 15:15 ?297次閱讀
    連接視覺語言大模型與<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自動駕駛

    Mobileye自動駕駛解決方案的深度解析

    強大的技術優(yōu)勢。 Mobileye的解決方案概述 1.1 什么是自動駕駛?
    的頭像 發(fā)表于 10-17 09:35 ?411次閱讀
    Mobileye<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自動駕駛解決方案的深度解析

    測試用例怎么寫

    編寫測試用例是確保軟件系統(tǒng)從頭到尾能夠正常工作的關鍵步驟。以下是個詳細的指南,介紹如何編寫
    的頭像 發(fā)表于 09-20 10:29 ?519次閱讀

    測試不正常如何處理

    測試(End-to-End Testing)是一種測試方法,它模擬用戶與系統(tǒng)的實際交互,從用戶界面開始,通過應用程序的所有層,直到數(shù)據(jù)庫。這種測試的目的是確保系統(tǒng)的各個組件在實際
    的頭像 發(fā)表于 09-20 10:25 ?415次閱讀

    實現(xiàn)自動駕駛,唯有?

    ,去年行業(yè)主流方案還是輕高精地圖城區(qū)智駕,今年大家的目標都瞄到了(End-to-End, E2E)。
    的頭像 發(fā)表于 08-12 09:14 ?788次閱讀
    實現(xiàn)自動駕駛,唯有<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>?

    電阻的電流和電壓是如何區(qū)分的

    電阻,又稱為四測量電阻或凱爾文電阻,是一種特殊的電阻器,主要用于精密測量電路中的電阻值。四電阻的電流和電壓
    的頭像 發(fā)表于 08-05 10:48 ?1392次閱讀

    比較器輸入和輸出的關系

    比較器是一種電子設備,用于比較兩個電壓或電流信號的大小。比較器的輸入和輸出之間的關系是其核心功能之。 比較器的基本原理 比較器是一種
    的頭像 發(fā)表于 07-10 10:39 ?2586次閱讀

    循環(huán)神經網(wǎng)絡在語音識別中的應用

    (Recurrent Neural Networks, RNN)在語音識別領域的應用日益廣泛,特別是在語音識別系統(tǒng)中,RNN及其變體如
    的頭像 發(fā)表于 07-08 11:09 ?635次閱讀

    小鵬汽車發(fā)布大模型

    小鵬汽車近日宣布,其成功研發(fā)并發(fā)布了“國內首個量產上車”的大模型,該模型可直接通過傳感器輸入內容來控制車輛,標志著智能駕駛技術的新突破。
    的頭像 發(fā)表于 05-21 15:09 ?703次閱讀