0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

有關(guān)設(shè)計對語音用戶界面的一些挑戰(zhàn)和最佳做法

星星科技指導(dǎo)員 ? 來源:嵌入式計算設(shè)計 ? 作者:Jeff LeBlanc ? 2022-12-02 11:47 ? 次閱讀

語音交互是21世紀(jì)最具顛覆性的技術(shù)之一。每天都有越來越多的設(shè)備通過語音用戶界面(VUI)組件進(jìn)入市場。雖然語音支持設(shè)備的許多技術(shù)挑戰(zhàn)已經(jīng)得到解決,但讓最終用戶滿意地使用設(shè)備的體驗仍然是一個懸而未決的問題。本文介紹了有關(guān)設(shè)計對用戶有效、自然且引人入勝的 VUI 的一些挑戰(zhàn)和最佳做法,包括設(shè)計置信度閾值、適應(yīng)插入、使用 n 最佳列表,以及如何在實際對話中與用戶交談(而不是在用戶處)。

雖然語音用戶界面(VUI)自1968年以來一直處于公眾心態(tài)的邊緣,當(dāng)時HAL和Dave Bowman存在分歧,但直到Tony Stark在2008年開始與J.A.R.V.I.S.開玩笑,有用的語音控制“智能家居”的概念才開始成為焦點。

這款大獲成功的Amazon Echo設(shè)備于2014年發(fā)布,將最新語音識別技術(shù)與強(qiáng)大的基于云的計算相結(jié)合,提供幾乎可與電影中描繪的相媲美的家庭體驗。打開燈或音響系統(tǒng)從未如此簡單。

從那以后,谷歌、蘋果和其他科技公司加入了這場爭斗,并相互絆倒,為您的家庭、工作場所和汽車提供最佳的交互式語音體驗。

這項技術(shù)已經(jīng)有很長一段時間了。貝爾實驗室和IBM早在1950年代就致力于語音系統(tǒng)。但是,直到 1990 年代后期,Dragon‘s NaturalSpeak 軟件才獲得了足夠的吸引力,將語音識別帶入了消費(fèi)者的集體意識。雖然在當(dāng)時是革命性的,但NaturalPeaks需要最終用戶進(jìn)行相當(dāng)多的“培訓(xùn)”才能達(dá)到90%的準(zhǔn)確率,這使得語音識別作為一種人機(jī)交互形式可行。因此,這項技術(shù)并不像它可能的那樣自然。

多年來,開發(fā)人員、設(shè)計師和技術(shù)人員一直在努力工作,試圖“解決語音問題”。然而,我們在識別準(zhǔn)確率方面只增加了5%。

那么,為什么設(shè)計更準(zhǔn)確、更像人類的語音界面如此困難呢?

在設(shè)計VUI時,必須解決兩個關(guān)鍵方面。首先是確保界面能夠?qū)⒙曇糇R別為人類語音。這被稱為自動語音識別 (ASR),是語音轉(zhuǎn)文本軟件引擎的核心。ASR 可以在現(xiàn)代消費(fèi)類硬件上以合理的處理速度執(zhí)行。但是,ASR 通常在云中完成。像Amazon Echo這樣的設(shè)備只做足夠的本地處理來找到它們的“喚醒詞”,而其余的工作則由遠(yuǎn)程計算資源完成。所以,是的,Alexa正在聽你說的一切。但她只在乎你說她的名字。

語音體驗的第二個也是更困難的方面是確保設(shè)備在識別語音后知道如何處理語音。自然語言理解(NLU)結(jié)合了包括語言學(xué),認(rèn)知科學(xué)和人工智能在內(nèi)的各種學(xué)科,多年來一直挑戰(zhàn)著計算機(jī)科學(xué)家。盡管一些專家認(rèn)為ASR是開發(fā)VUI的“困難部分”,但我不同意。多年來,我們一直保持穩(wěn)定在95%左右的準(zhǔn)確率 - 可與人與人之間的交流相媲美。是的,即使是人與人之間的交流也不是100%準(zhǔn)確的。想想你在和另一個人說話時說多少次“嗯?”或“什么?”。然而,這些對話很容易理解。

作為UX設(shè)計師,我們面臨的挑戰(zhàn)是弄清楚如何創(chuàng)建卓越的交互式語音體驗,盡可能接近模仿人與人之間的體驗。

這稱為自然用戶界面或 NUI。讓簡單的命令正常工作很簡單 - 主要是從話語中提取正確的關(guān)鍵字。例如,讓您的智能家居正確響應(yīng)“打開餐廳燈”并不太復(fù)雜。它只涉及創(chuàng)建一個界面,該界面可以識別所需的操作(“打開”)以及執(zhí)行該操作的內(nèi)容(“餐廳燈”)。

但仍然存在挑戰(zhàn)。由于我們的語音識別準(zhǔn)確度略低于 100%,因此設(shè)備可能無法理解你的確切話語。也許語音助手聽到你說“打開餐廳的燈”。雖然人類可以輕松地從餐廳跳到餐廳,但在計算機(jī)的二進(jìn)制世界中并非如此。“用餐”不等于“用餐”,因此您的語音助手無法理解您在問什么。你最終會感到沮喪,在黑暗中進(jìn)食。

幸運(yùn)的是,我們可以圍繞這一點進(jìn)行設(shè)計。解決方案在于超越簡單的話語和命令,讓我們的用戶參與對話。

在我們的例子中,智能家居理解你的意圖——你想打開餐廳的燈——但它沒有得到足夠的信息來執(zhí)行任務(wù)。因此,我們對VUI進(jìn)行編程,以執(zhí)行人與人交互中的典型操作:要求澄清。我們的智能家居可以回應(yīng)“對不起,我沒有完全理解。你想打開什么?

這種互動建立在置信度的概念之上——你的智能家居有多確定它真的理解了你的要求?如果智能家居非常確定它理解你的請求 - 比如說超過75%的準(zhǔn)確率 - 它可以執(zhí)行它。如果只是有點確定,設(shè)備可以要求澄清。通過利用置信度和參與對話,您可以澄清您的請求,而無需從喚醒詞重新啟動整個命令交互。

N-最佳名單

下一個設(shè)計技術(shù)建立在這種對話方法的基礎(chǔ)上,試圖根據(jù)先前對話的預(yù)期響應(yīng)來預(yù)測你可能會說什么。您的智能家居聽到“用餐”而不是“用餐”并非不合理。甚至是其他聽起來相似的詞,如“潛水”。

通過將這些險些失誤收集到稱為N-best列表中的東西中,您的智能家居可以捕獲可能的可能性?,F(xiàn)在,您家的VUI可以要求您確認(rèn)列表中的單詞,或者繼續(xù)執(zhí)行該命令。讓你的家回答說:“我想你讓我打開餐廳的燈。是嗎?“表明你的家足夠聰明,(很可能)弄清楚你說了什么,但又足夠禮貌地仔細(xì)檢查,以防萬一它不能100%完全理解這個要求。

流程圖

流程圖允許VUI設(shè)計人員繪制出在簡單交互中發(fā)現(xiàn)的可能分支。繼續(xù)關(guān)于餐廳燈光的對話,為了確保流暢、自然的對話,VUI 設(shè)計師必須考慮您可能的反應(yīng)。您可以用簡單的“是”來回答有關(guān)開燈的澄清請求。在這種情況下,智能家居應(yīng)該打開燈。

但是,如果你聽人與人對話的錄音,它們通常不會那么干涸。如果你回答“是”而不是“是”怎么辦?或者“沒錯”或“讓它這樣”或任何數(shù)量的肯定?如果你的回答是否定的怎么辦?不。不。呃。你的智能房子知道該怎么做嗎?

這種情況正是為什么檢查列表而不是簡單的關(guān)鍵字匹配至關(guān)重要的原因。這是實現(xiàn)最自然交互的最佳方式。

駁船

人與人交流的另一個值得一提的方面是中斷。有時我們是不禮貌的——我們不會等談話中的對方說完才開始說話。其他時候,打斷是及時推進(jìn)對話的唯一方法。在這兩種情況下,中斷的能力使對話更加自然。

下面是一個示例。您進(jìn)入了擋泥板彎曲機(jī)并致電您的保險公司提出索賠。在公司的自動電話系統(tǒng)上收聽一長串選項時,只要聽到“按 3 到達(dá)理賠部門”,您就會打斷。你急切地點擊“3”鍵,不要費(fèi)心去聽列表的其余部分。

這種闖入和中斷對話的能力是VUI設(shè)計人員需要結(jié)合的東西,以便創(chuàng)建類似人類的語音交互。(如果你的服務(wù)員正在閱讀沙拉醬清單,而你說“停下,我想要那個,油醋汁”,而他繼續(xù)列出沙拉醬,事情會變得有點尷尬。亞馬遜Echo在支持闖入方面做得很好,讓用戶隨時說“Alexa,取消”。

外賣

設(shè)計一個引人注目的、聽起來像人類的語音助手當(dāng)然是可能的。例如,谷歌的新Duplex電話機(jī)器人配備了大多數(shù)人常見的會話抽搐,包括貫穿整個對話的“ahs”和“ums”。有些人甚至對人工智能和人類語音之間的界限變得越來越模糊表示擔(dān)憂。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語音識別
    +關(guān)注

    關(guān)注

    38

    文章

    1742

    瀏覽量

    112692
  • 語音交互
    +關(guān)注

    關(guān)注

    3

    文章

    286

    瀏覽量

    28026
收藏 人收藏

    評論

    相關(guān)推薦

    分享一些常見的電路

    理解模電和數(shù)電的電路原理對于初學(xué)者來說可能比較困難,但通過一些生動的教學(xué)方法和資源,可以有效地提高學(xué)習(xí)興趣和理解能力。 下面整理了一些常見的電路,以動態(tài)圖形的方式展示。 整流電路 單相橋式整流
    的頭像 發(fā)表于 11-13 09:28 ?325次閱讀
    分享<b class='flag-5'>一些</b>常見的電路

    ADS856x SAR驅(qū)動電路的設(shè)計挑戰(zhàn)和改進(jìn)技術(shù)

    電子發(fā)燒友網(wǎng)站提供《ADS856x SAR驅(qū)動電路的設(shè)計挑戰(zhàn)和改進(jìn)技術(shù).pdf》資料免費(fèi)下載
    發(fā)表于 10-17 09:38 ?0次下載
    ADS856x SAR驅(qū)動電路的設(shè)計<b class='flag-5'>挑戰(zhàn)和</b>改進(jìn)技術(shù)

    MCT8316A-設(shè)計挑戰(zhàn)和解決方案應(yīng)用說明

    電子發(fā)燒友網(wǎng)站提供《MCT8316A-設(shè)計挑戰(zhàn)和解決方案應(yīng)用說明.pdf》資料免費(fèi)下載
    發(fā)表于 09-13 09:52 ?0次下載
    MCT8316A-設(shè)計<b class='flag-5'>挑戰(zhàn)和</b>解決方案應(yīng)用說明

    MCF8316A-設(shè)計挑戰(zhàn)和解決方案應(yīng)用說明

    電子發(fā)燒友網(wǎng)站提供《MCF8316A-設(shè)計挑戰(zhàn)和解決方案應(yīng)用說明.pdf》資料免費(fèi)下載
    發(fā)表于 09-13 09:51 ?1次下載
    MCF8316A-設(shè)計<b class='flag-5'>挑戰(zhàn)和</b>解決方案應(yīng)用說明

    TMCS110x 布局挑戰(zhàn)和最佳實踐

    電子發(fā)燒友網(wǎng)站提供《TMCS110x 布局挑戰(zhàn)和最佳實踐.pdf》資料免費(fèi)下載
    發(fā)表于 09-12 09:23 ?0次下載
    TMCS110x 布局<b class='flag-5'>挑戰(zhàn)和</b><b class='flag-5'>最佳</b>實踐

    人機(jī)界面應(yīng)具備的特性是什么

    應(yīng)具備的特性。 、直觀性 直觀性是人機(jī)界面設(shè)計的基礎(chǔ),它要求界面能夠讓用戶快速理解其功能和操作方法。以下是實現(xiàn)直觀性的一些關(guān)鍵點: 清晰的
    的頭像 發(fā)表于 07-01 14:24 ?763次閱讀

    人機(jī)交互界面是什么_人機(jī)交互界面的功能

    終端(OT),是指人與計算機(jī)系統(tǒng)之間的通信媒體或手段,是人與計算機(jī)之間進(jìn)行各種符號和動作的雙向信息交換的平臺。   人機(jī)交互界面的主要作用是將人類的意圖轉(zhuǎn)化為計算機(jī)能夠理解和處理的形式,同時將計
    的頭像 發(fā)表于 06-22 11:03 ?2602次閱讀

    OpenAI發(fā)布ChatGPT桌面版,優(yōu)化用戶界面,免費(fèi)提供GPT-4o模型

    此外,ChatGPT 集成了優(yōu)化后的用戶界面,支持用戶在同界面下同時運(yùn)行 ChatGPT 及其它程序,并可通過
    的頭像 發(fā)表于 05-14 11:12 ?649次閱讀

    IIoT可以通過多種方式實現(xiàn)智能工廠(還有一些挑戰(zhàn)

    )集成以創(chuàng)建智能工廠,制造商可以實現(xiàn)這種“工業(yè)物聯(lián)網(wǎng)”(IIoT)的全部好處,推動其行業(yè)向前發(fā)展。 IIoT可以通過多種方式實現(xiàn)智能工廠(還有一些挑戰(zhàn))。然而,在探索這些之前,值得回顧下智能工廠與傳統(tǒng)工廠的區(qū)別特征。 智能
    的頭像 發(fā)表于 04-29 11:15 ?631次閱讀

    細(xì)談SolidWorks教育版的一些基礎(chǔ)知識

    SolidWorks教育版是款廣泛應(yīng)用于工程設(shè)計和教育領(lǐng)域的三維建模軟件。它具備直觀易用的操作界面和強(qiáng)大的設(shè)計功能,為學(xué)生提供了個學(xué)習(xí)和實踐的平臺。在本文中,我們將詳細(xì)探討SolidWorks教育版的
    的頭像 發(fā)表于 04-01 14:35 ?346次閱讀

    一些有關(guān)通信電路的資料?

    有關(guān)嵌入式之間DSP、ARM、FPGA三者之間和這三款芯片和外部電路之間通信的一些資料,比如說芯片之間的并行通信和芯片和外部電路之間的串行通信,MODBUS、DP、CAN等,一些一些
    發(fā)表于 03-03 18:53

    汽車網(wǎng)絡(luò)安全-挑戰(zhàn)和實踐指南

    汽車網(wǎng)絡(luò)安全-挑戰(zhàn)和實踐指南
    的頭像 發(fā)表于 02-19 16:37 ?543次閱讀
    汽車網(wǎng)絡(luò)安全-<b class='flag-5'>挑戰(zhàn)和</b>實踐指南

    語音數(shù)據(jù)集在智能語音助手中的應(yīng)用與挑戰(zhàn)

    。本文將詳細(xì)介紹語音數(shù)據(jù)集在智能語音助手中的應(yīng)用、面臨的挑戰(zhàn)以及未來的發(fā)展趨勢。 二、語音數(shù)據(jù)集在智能語音助手中的應(yīng)用
    的頭像 發(fā)表于 01-18 15:46 ?407次閱讀

    語音數(shù)據(jù)集在智能語音搜索中的應(yīng)用與挑戰(zhàn)

    、引言 隨著互聯(lián)網(wǎng)的普及和移動設(shè)備的興起,智能語音搜索已經(jīng)成為人們獲取信息的重要方式之。智能語音搜索通過語音交互的方式,為
    的頭像 發(fā)表于 01-18 15:09 ?565次閱讀

    有關(guān)通信協(xié)議時一些問題?

    工業(yè)上應(yīng)用到許多種協(xié)議,按通信同時刻發(fā)送的數(shù)據(jù)位數(shù)分為串行通信和并行通信,首先我見并行通信多在芯片之間進(jìn)行通信,而串行通信則在外部設(shè)備和芯片之間進(jìn)行的一些通信,對于常見的串行通信,比如
    發(fā)表于 01-14 00:58