對(duì)話式 AI 是一種綜合運(yùn)用多種技術(shù)的復(fù)雜的人工智能形式,能夠使人機(jī)間實(shí)現(xiàn)類似于真人的交互。復(fù)雜系統(tǒng)能夠識(shí)別語(yǔ)音和文本、理解意圖、識(shí)別特定語(yǔ)言的習(xí)語(yǔ)和格言,并且能夠以適當(dāng)?shù)淖匀徽Z(yǔ)言做出回應(yīng)。
什么是對(duì)話式 AI?
對(duì)話式 AI 是應(yīng)用機(jī)器學(xué)習(xí)來(lái)開發(fā)基于語(yǔ)言的應(yīng)用程序,使人們能夠通過(guò)語(yǔ)音與設(shè)備、機(jī)器和計(jì)算機(jī)進(jìn)行自然交互。
無(wú)論是虛擬助手在早上喚醒您,還是您詢問(wèn)通勤路線,或者您在網(wǎng)購(gòu)時(shí)與聊天機(jī)器人進(jìn)行交流,這些情況中您均在使用對(duì)話式 AI。您用正常的聲音說(shuō)話,而設(shè)備可以理解并找到適當(dāng)答案,然后用聽起來(lái)自然的聲音回復(fù)您。
對(duì)話式 AI 的應(yīng)用程序有多種形式。最簡(jiǎn)單的是 FAQ 機(jī)器人,它們經(jīng)過(guò)訓(xùn)練,可以從具有預(yù)先格式化答案的定義數(shù)據(jù)庫(kù)中回復(fù)查詢(通常是以書面形式表達(dá))。一種更復(fù)雜的對(duì)話式 AI 形式是虛擬個(gè)人助理,例如 Amazon 的 Alexa、Apple 的 Siri 和 Microsoft 的 Cortana。這些工具設(shè)備經(jīng)過(guò)調(diào)節(jié),可以回應(yīng)簡(jiǎn)單的請(qǐng)求。
虛擬客戶助理是一種更專業(yè)的個(gè)人助理版本,它能夠理解上下文,從一個(gè)互動(dòng)到下一個(gè)互動(dòng)進(jìn)行對(duì)話。另一種專門的對(duì)話式 AI 形式是虛擬員工助理,它可以了解員工與軟件應(yīng)用程序和工作流程之間的互動(dòng)情況,并提出改進(jìn)建議。虛擬員工助理廣泛用于機(jī)器人流程自動(dòng)化這一熱門的新軟件類別。
為何選擇對(duì)話式 AI?
對(duì)話式 AI 是人類與智能機(jī)器和應(yīng)用程序(從機(jī)器人和汽車到家庭助理和移動(dòng)應(yīng)用)互動(dòng)的基本構(gòu)建塊。讓計(jì)算機(jī)理解人類語(yǔ)言及所有細(xì)微差別,并做出適當(dāng)?shù)姆磻?yīng),這是 AI 研究人員長(zhǎng)期以來(lái)的追求。但是,在采用加速計(jì)算的現(xiàn)代 AI 技術(shù)出現(xiàn)之前,構(gòu)建具有真正自然語(yǔ)言處理 (NLP) 功能的系統(tǒng)是無(wú)法實(shí)現(xiàn)的。
在過(guò)去幾年中,深度學(xué)習(xí)改進(jìn)了對(duì)話式 AI 的技術(shù)水平,并且在某些任務(wù)上提供了超人的準(zhǔn)確性。深度學(xué)習(xí)還降低了構(gòu)建語(yǔ)言服務(wù)時(shí),對(duì)語(yǔ)言學(xué)和基于規(guī)則的技術(shù)的深度知識(shí)的需求,從而在零售、醫(yī)療健康和金融等行業(yè)中得到了廣泛采用。
現(xiàn)如今,人們對(duì)高級(jí)對(duì)話式 AI 工具的需求日益增加。預(yù)計(jì)到 2020 年,50% 的搜索結(jié)果將由語(yǔ)音執(zhí)行,且到 2023 年,將有 80 億個(gè)數(shù)字語(yǔ)音助手投入使用。
對(duì)話式 AI 的工作原理是什么?
回答問(wèn)題的步驟如下:將用戶語(yǔ)音轉(zhuǎn)換為文本,理解文本含義,搜索符合上下文的適當(dāng)應(yīng)答,最后使用文本轉(zhuǎn)語(yǔ)音工具提供應(yīng)答。對(duì)話式 AI 流程通常由三個(gè)階段組成:
自動(dòng)語(yǔ)音識(shí)別 (ASR)
自然語(yǔ)言處理 (NLP) 或自然語(yǔ)言理解 (NLU)
帶有語(yǔ)音合成的文本轉(zhuǎn)語(yǔ)音 (TTS)
每一步都需要運(yùn)行多個(gè) AI 模型,因此每個(gè)單獨(dú)網(wǎng)絡(luò)的可用執(zhí)行時(shí)間約為 10 毫秒或更短。
自動(dòng)語(yǔ)音識(shí)別 (ASR) 會(huì)收錄人類語(yǔ)音,然后將其轉(zhuǎn)換為可讀文本。深度學(xué)習(xí)在識(shí)別音素時(shí)具有更高的準(zhǔn)確性,已經(jīng)取代了傳統(tǒng)的統(tǒng)計(jì)方法,如隱馬爾可夫模型和高斯混合模型。
自然語(yǔ)言理解 (NLU) 會(huì)錄入文本,理解上下文和意圖,然后生成智能回復(fù)。深度學(xué)習(xí)模型能對(duì)眾多上下文和語(yǔ)言準(zhǔn)確進(jìn)行泛化處理,因此應(yīng)用于 NLU。Transformer 深度學(xué)習(xí)模型,如 BERT(Transformer 雙向編碼器表征模型),是時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)的一個(gè)替代方案,它應(yīng)用了一種注意力技術(shù)—通過(guò)將注意力集中在前后最相關(guān)的詞上來(lái)解析一個(gè)句子。BERT 通過(guò)在問(wèn)答 (QA)、實(shí)體識(shí)別、意圖識(shí)別、情感分析等基準(zhǔn)上提供與人類基準(zhǔn)相媲美的準(zhǔn)確性,徹底改變了 NLU 的進(jìn)展。
對(duì)話式 AI 流程的最后一個(gè)階段是將 NLU 階段生成的文本響應(yīng)改為自然發(fā)音的語(yǔ)音。聲清晰度是通過(guò)使用深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的,生成類似人類的語(yǔ)調(diào)和清晰的單詞發(fā)音。此步驟是通過(guò)兩個(gè)網(wǎng)絡(luò)完成的:一個(gè)根據(jù)文本生成頻譜圖的合成網(wǎng)絡(luò),一個(gè)從頻譜圖生成波形的聲碼器網(wǎng)絡(luò)。
GPU:對(duì)話式 AI 的關(guān)鍵
對(duì)話式 AI 背后的技術(shù)十分復(fù)雜,涉及多步驟過(guò)程,需要大量的功耗計(jì)算,并要在 300 毫秒內(nèi)完成大量計(jì)算,才能提供優(yōu)質(zhì)的用戶體驗(yàn)。
一個(gè)由數(shù)百個(gè)核心組成的 GPU,可以并行處理數(shù)千個(gè)線程。這使得 GPU 成為訓(xùn)練深度學(xué)習(xí)模型和執(zhí)行推理的首選平臺(tái),因?yàn)樗鼈兊男阅鼙燃?CPU 平臺(tái)高 10 倍。
借助 NVIDIA GPU 和 NVIDIA? CUDA-X AI? 庫(kù),可快速訓(xùn)練和優(yōu)化大量的先進(jìn)語(yǔ)言模型,從而在幾毫秒或幾千分之一秒內(nèi)運(yùn)行推理。這是一項(xiàng)重大進(jìn)步,可以結(jié)束快速 AI 模型與大型復(fù)雜 AI 模型之間的權(quán)衡。
此外,像 BERT 這樣的基于 Transformer 深度學(xué)習(xí)模型不需要按順序處理連續(xù)數(shù)據(jù),與遞歸神經(jīng)網(wǎng)絡(luò)相比,可以在 GPU 上實(shí)現(xiàn)更多的并行化,并減少訓(xùn)練時(shí)間。
NVIDIA GPU 助力加速先進(jìn)的對(duì)話式 AI 技術(shù):
自動(dòng)語(yǔ)音識(shí)別 (ASR):Kaldi 是一種 C++ 工具包,支持傳統(tǒng)方法以及用于 ASR 的熱門深度學(xué)習(xí)模型。GPU 加速的 Kaldi 解決方案的執(zhí)行速度比實(shí)時(shí)音頻快 3500 倍,比只用 CPU 的方案快 10 倍。
自然語(yǔ)言理解 (NLU):在與復(fù)雜語(yǔ)言模型協(xié)作時(shí),NVIDIA GPU 的并行處理能力和 Tensor Core 架構(gòu)可實(shí)現(xiàn)更高的吞吐量和可擴(kuò)展性,從而為 BERT 的訓(xùn)練和推理提供突破性的性能。利用 NVIDIA T4,GPU 加速的 BERT-base 進(jìn)行推理的速度比單純的 CPU 解決方案快 17 倍。BERT 使用無(wú)監(jiān)督式學(xué)習(xí)方法的能力、使用預(yù)訓(xùn)練模型進(jìn)行遷移學(xué)習(xí)的能力,以及使用 GPU 進(jìn)行加速的能力,均使其在行業(yè)中得到廣泛應(yīng)用。為實(shí)現(xiàn)真正的對(duì)話式 AI,語(yǔ)言模型變得越來(lái)越大。未來(lái)的模型將比現(xiàn)在使用的大很多倍,因此 NVIDIA 構(gòu)建并開源了迄今為止最大的基于 Transformer 的 AI:GPT-2 8B,這是一種內(nèi)含 83 億參數(shù)的語(yǔ)言處理模型,比 BERT 大 24 倍。
文字轉(zhuǎn)語(yǔ)音 (TTS):熱門文本轉(zhuǎn)語(yǔ)音深度學(xué)習(xí)模型(GPU 加速的 Tacotron2 和 Waveglow)使用 NVIDIA T4 GPU 執(zhí)行推理的速度比僅使用 CPU 的 解決方案快 9 倍。
對(duì)話式 AI 用例
GPU 優(yōu)化的語(yǔ)言理解模型可集成到醫(yī)療健康、零售和金融服務(wù)等行業(yè)的 AI 應(yīng)用程序中,為智能揚(yáng)聲器和客戶服務(wù)領(lǐng)域中的高級(jí)數(shù)字語(yǔ)音助手提供支持。通過(guò)使用這些高質(zhì)量的對(duì)話式 AI 工具,各個(gè)領(lǐng)域的企業(yè)在與客戶交流時(shí),均可實(shí)現(xiàn)前所未有的個(gè)性化服務(wù)標(biāo)準(zhǔn)。
醫(yī)療健康
醫(yī)療健康面臨的困難之一是難以獲得。打醫(yī)生辦公室電話并一直等待的情況十分常見,與索賠代表聯(lián)系可能同樣困難。通過(guò)實(shí)施自然語(yǔ)言處理 (NLP) 來(lái)訓(xùn)練聊天機(jī)器人是醫(yī)療健康行業(yè)的一項(xiàng)新興技術(shù),可以解決醫(yī)療專業(yè)人員的短缺問(wèn)題,并開創(chuàng)與患者的溝通渠道。
NLP 的另一個(gè)重要的醫(yī)療健康應(yīng)用程序是生物醫(yī)學(xué)文本挖掘(或 BioNLP)。鑒于生物文獻(xiàn)數(shù)量眾多,以及生物醫(yī)學(xué)出版速度不斷提高,自然語(yǔ)言處理是一個(gè)關(guān)鍵的工具,可以在已發(fā)表的研究中提取信息,推動(dòng)生物醫(yī)學(xué)領(lǐng)域的知識(shí)進(jìn)步,協(xié)助藥物研發(fā)和疾病診斷。
金融服務(wù)
自然語(yǔ)言處理 (NLP) 是為金融服務(wù)公司構(gòu)建更好的聊天機(jī)器人和 AI 助理的關(guān)鍵組成部分。在眾多用于基于 NLP 的應(yīng)用程序的語(yǔ)言模型中,BERT 已成為機(jī)器學(xué)習(xí)領(lǐng)域 NLP 的領(lǐng)軍者及語(yǔ)言模型。借助 AI,NVIDIA 近期打破了 BERT 訓(xùn)練速度的記錄,有助于釋放未來(lái)幾年內(nèi)在線提供的數(shù)十億預(yù)期對(duì)話式 AI 服務(wù)的潛力,使其達(dá)到人類水平的理解能力。例如,銀行可以使用 NLP 來(lái)評(píng)估信用記錄很少或沒(méi)有信用記錄的客戶信譽(yù)。
零售
聊天機(jī)器人技術(shù)還常用于零售應(yīng)用程序,能夠準(zhǔn)確分析客戶查詢,并生成回復(fù)或建議。這可簡(jiǎn)化客戶流程,并提高商店運(yùn)營(yíng)效率。NLP 還用于文本挖掘客戶反饋和情感分析。
對(duì)話式 AI 的優(yōu)勢(shì)
對(duì)此有許多答案。其中一點(diǎn)是人力成本很高。雖然成本差異很大,但根據(jù) F.Curtis Barry 公司的數(shù)據(jù),一個(gè)客服電話的全部成本介于 2.70 美元到 5.60 美元之間,其他公司估算的平均價(jià)格也要達(dá)到每分鐘一美元左右。將人工操作員替換為機(jī)器人,這具有顯著節(jié)約成本的優(yōu)勢(shì)。研究還表明,相較于銷售或客戶服務(wù)智能體,許多人更喜歡與電腦對(duì)話,這使得對(duì)話式 AI 成為客戶自助服務(wù)的實(shí)現(xiàn)者。
在許多場(chǎng)景中,比如一個(gè)人正在開車或忙于其他事情,又或者在電梯中無(wú)法使用鍵盤時(shí),對(duì)話式 AI 比鍵盤交互更加合適。
核心技術(shù)還可用于解釋或完善模糊查詢,或解釋使用不同語(yǔ)言的人的查詢。
Gartner 認(rèn)為,85% 的客戶與企業(yè)的關(guān)系無(wú)需人工交互即可處理,McKinsey 公司估計(jì),全球約 60% 的職業(yè)中的有三分之一的活動(dòng)可以使用這項(xiàng)技術(shù)。
NVIDIA GPU 加速的對(duì)話式 AI 工具
借助對(duì)話式 AI 部署服務(wù)似乎令人生畏,但 NVIDIA 擁有可以簡(jiǎn)化這一過(guò)程的工具,包括神經(jīng)模組(簡(jiǎn)稱 NeMo)和一項(xiàng)名為 NVIDIA Riva 的新技術(shù)。為節(jié)省時(shí)間,預(yù)訓(xùn)練模型、訓(xùn)練腳本和性能結(jié)果可在 NVIDIA GPU Cloud (NGC) 軟件中心獲得。
NVIDIA Riva 是一種 GPU 加速應(yīng)用程序框架,允許公司使用視頻和語(yǔ)音數(shù)據(jù),為自己的行業(yè)、產(chǎn)品和客戶定制最先進(jìn)的對(duì)話式 AI 服務(wù)。
Riva 提供用于對(duì)話式 AI 的端到端深度學(xué)習(xí)流程。它包含先進(jìn)的深度學(xué)習(xí)模型,例如用于自然語(yǔ)言理解的 NVIDIA Megatron BERT。企業(yè)可以利用 NVIDIA NeMo 進(jìn)一步在數(shù)據(jù)上調(diào)優(yōu)這些模型,利用 NVIDIA TensorRT? 優(yōu)化推理,并利用 NGC(NVIDIA 的 GPU 優(yōu)化軟件目錄)上提供的 Helm 圖表在云端和邊緣進(jìn)行部署。
使用 Riva 構(gòu)建的應(yīng)用程序可以利用新款 NVIDIA A100 Tensor Core GPU 中的創(chuàng)新技術(shù)進(jìn)行 AI 計(jì)算,并利用 NVIDIA TensorRT 的新型優(yōu)化技術(shù)進(jìn)行推理。這使得使用功能強(qiáng)大的視覺和語(yǔ)音模型能夠運(yùn)行整個(gè)多模態(tài)應(yīng)用程序,并且速度比實(shí)時(shí)交互的 300 毫秒閾值還要快。
NVIDIA GPU 加速的端到端數(shù)據(jù)科學(xué)
基于 CUDA 構(gòu)建的 RAPIDS? 開源軟件庫(kù)套件使您能夠完全在 GPU 上執(zhí)行端到端數(shù)據(jù)科學(xué)和分析流程,同時(shí)仍然使用 Pandas 和 Scikit-Learn API 等熟悉的界面。
NVIDIA GPU 加速的深度學(xué)習(xí)框架
GPU 加速深度學(xué)習(xí)框架為設(shè)計(jì)和訓(xùn)練自定義深度神經(jīng)網(wǎng)絡(luò)帶來(lái)靈活性,并為 Python 和 C/C++ 等常用編程語(yǔ)言提供編程接口。MXNet、PyTorch、TensorFlow 等廣泛使用的深度學(xué)習(xí)框架依賴于 NVIDIA GPU 加速庫(kù),能夠提供高性能的多 GPU 加速訓(xùn)練。
對(duì)話式 AI 在 NVIDIA 平臺(tái)的未來(lái)
推動(dòng)基于 Transformer 語(yǔ)言網(wǎng)絡(luò)(如 BERT 和 GPT-2 8B)的大規(guī)模性能的要求,即其純粹的復(fù)雜性以及對(duì)龐大數(shù)據(jù)集的預(yù)訓(xùn)練。這種組合需要一個(gè)可靠的計(jì)算平臺(tái)來(lái)處理所有必要的計(jì)算,以推動(dòng)快速執(zhí)行和準(zhǔn)確性。這些模型可以在大量無(wú)標(biāo)記數(shù)據(jù)集上工作,這使得它們成為現(xiàn)代 NLP 的創(chuàng)新中心,而且,對(duì)于即將在眾多用例中采用對(duì)話式 AI 應(yīng)用程序的新一波智能助手來(lái)說(shuō),這是一個(gè)強(qiáng)有力的選擇。
帶有 Tensor Core 體系架構(gòu)的 NVIDIA 平臺(tái)提供可編程性,以加速各種不同的現(xiàn)代 AI,包括基于 Transformer 的模型。此外,數(shù)據(jù)中心規(guī)模設(shè)計(jì)和 DGX SuperPOD? 的最優(yōu)化,與軟件庫(kù)和先進(jìn) AI 框架的直接支持相結(jié)合,為開發(fā)者提供了無(wú)縫的端到端平臺(tái),以承擔(dān)艱巨的 NLP 任務(wù)。
NGC(NVIDIA 加速軟件中心)免費(fèi)提供持續(xù)優(yōu)化,以便加速 BERT 和 Transformer 在多個(gè)框架上的 GPU 訓(xùn)練。
NVIDIA TensorRT 包括對(duì) BERT 和基于 Transformer 的大型模型運(yùn)行實(shí)時(shí)推理的優(yōu)化。如需了解更多信息,請(qǐng)查看我們的“對(duì)話式 AI 實(shí)時(shí) BERT 推理”博客。NVIDIA 的 BERT GitHub 倉(cāng)庫(kù)今天也有代碼,可以重現(xiàn)本博客中引用的單節(jié)點(diǎn)訓(xùn)練性能,在不久的將來(lái),該倉(cāng)庫(kù)將更新必要的腳本,以重現(xiàn)大規(guī)模訓(xùn)練性能的數(shù)字。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
4986瀏覽量
103055 -
gpu
+關(guān)注
關(guān)注
28文章
4740瀏覽量
128945 -
AI
+關(guān)注
關(guān)注
87文章
30894瀏覽量
269083 -
軟件庫(kù)
+關(guān)注
關(guān)注
0文章
15瀏覽量
7765
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論