0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Build 2024發(fā)布多項Azure AI Speech全新多模態(tài)功能

微軟科技 ? 來源:微軟科技 ? 2024-05-28 09:08 ? 次閱讀

客戶們持續(xù)使用 Azure OpenAI 和 Azure AI Speech 進行創(chuàng)新,為企業(yè)引入新的效率,并構(gòu)建新的多模態(tài)體驗。Azure AI,我們持續(xù)與客戶合作,并將新的創(chuàng)新推向市場——我們看到了各種用例,包括通話分析、醫(yī)療轉(zhuǎn)錄、字幕、聊天機器人等。

以下是我們在今年 Microsoft Build 大會上宣布的所有多模態(tài)創(chuàng)新,特別是包括語音和文本的創(chuàng)新。

語音分析

今天我們宣布預覽版的語音分析服務(wù)。語音分析是 Azure AI Studio 中的一項新服務(wù),它結(jié)合了 Azure AI 服務(wù)和 PromptFlow,只需將音頻數(shù)據(jù)上傳到云存儲,就可以自動處理和分析。

通過語音分析,可以輕松獲取呼叫中心對話的見解,或使用 Azure OpenAI 和 Azure AI Language 的 AI 模型從 Azure AI Speech 生成的準確轉(zhuǎn)錄中提取對話摘要。從呼叫中心對話中獲取見解可以幫助企業(yè)更好地理解客戶需求、產(chǎn)品反饋和支持趨勢,從而改善客戶體驗。

使用我們的post-call 分析模板,客戶可以快速設(shè)置提取常見的見解,如呼叫摘要、客戶情緒和關(guān)鍵主題??蛻暨€可以輕松修改默認提示,以提取更多見解,甚至修改完整的提示流程,以全面定制分析,提取廣泛的信息,如討論要點,甚至預測可能的對話流程。語音分析還可以輕松支持多種語言、口音、領(lǐng)域和場景,并擴展到大規(guī)模生產(chǎn)使用。語音分析幫助我們的客戶獲取客戶對話的見解,改善客戶體驗、銷售和營銷策略。這也是多模態(tài)數(shù)據(jù)分析的一個基礎(chǔ),未來將能夠從不同類型的數(shù)據(jù)中獲得更豐富和更深入的見解。

以下是Speech Processing Solutions(飛利浦聽寫)使用 Azure AI 服務(wù)(包括語音分析)構(gòu)建的一套示例技術(shù):

634be6cc-1c86-11ef-b74b-92fbcf53809c.png

語音分析將于 6 月供開發(fā)者試用。想了解更多信息,請在Azure AI Studio中試用。

快速轉(zhuǎn)錄

今天我們還宣布預覽版的快速轉(zhuǎn)錄API。該 API 是 Azure AI Speech 系列的一部分,通過簡單的 REST 調(diào)用,可以在幾秒鐘內(nèi)轉(zhuǎn)錄大小達 200MB 的音頻文件。

客戶希望在獲取轉(zhuǎn)錄結(jié)果的速度至關(guān)重要的場景中使用該 API,例如在面試結(jié)束或電話結(jié)束后立即獲得轉(zhuǎn)錄結(jié)果。該 API 是轉(zhuǎn)錄領(lǐng)域的一次變革,可以以高達實時 40 倍的速度轉(zhuǎn)錄音頻文件,例如在 15 秒內(nèi)轉(zhuǎn)錄 10 分鐘的音頻文件,而不會犧牲準確性。API 提供了一種簡單而強大的轉(zhuǎn)錄音頻的方式,并打開了一組新的場景,其中之一是呼叫中心內(nèi)的“代理筆記記錄”。

高效筆記記錄

一個典型的呼叫中心代理在每次通話后花費 3 到 5 分鐘創(chuàng)建筆記??焖俎D(zhuǎn)錄 API 結(jié)合 Azure OpenAI 服務(wù)可以自動執(zhí)行此任務(wù),為呼叫中心節(jié)省數(shù)千小時的工作時間。醫(yī)療從業(yè)者記錄與患者的對話后,可以在幾秒鐘內(nèi)分析這些記錄。類似地,媒體和內(nèi)容創(chuàng)作者可以在播客或采訪完成后立即分析并提取見解。

IntelePeer通過高級 AI 驅(qū)動的解決方案簡化通信自動化,幫助企業(yè)和聯(lián)系中心降低成本并豐富客戶體驗。

微軟的快速 API 在離線轉(zhuǎn)錄方面的性能遠遠超過了競爭對手。在比較相同的樣本語料庫時,快速 API 在低質(zhì)量音頻轉(zhuǎn)錄方面表現(xiàn)最好,結(jié)果比其他供應(yīng)商好70%

Parloa是一家為企業(yè)下一代客戶服務(wù)構(gòu)建聯(lián)系中心 AI 平臺的軟件開發(fā)公司,一直在預覽版中使用快速轉(zhuǎn)錄API。

快讀轉(zhuǎn)錄 API 提供了市場上最快、最準確和最具成本效益的轉(zhuǎn)錄選項。

OPPO是一家全球技術(shù)品牌,以其創(chuàng)新的智能手機智能設(shè)備聞名,正在使用 Azure AI 語音轉(zhuǎn)文本快速轉(zhuǎn)錄和 Azure AI 文本轉(zhuǎn)語音來試驗其新 AI 手機上的新客戶體驗。

快速轉(zhuǎn)錄 API將于 2024 年 6 月供開發(fā)者使用,敬請期待更多信息。

視頻翻譯服務(wù)

視頻翻譯服務(wù)已經(jīng)推出預覽版,這是一項開創(chuàng)性的服務(wù),旨在改變企業(yè)本地化視頻內(nèi)容的方式。這項新服務(wù)為開發(fā)人員提供了一種高效而無縫的解決方案,以滿足對翻譯視頻內(nèi)容和克服語言障礙不斷增長的需求,讓內(nèi)容所有者能夠觸達更廣泛的受眾。無論是用于教育視頻、營銷活動還是娛樂內(nèi)容,視頻翻譯都能確保您的信息以任何支持的語言被傳達出去。

該服務(wù)使開發(fā)者能夠使用預構(gòu)建的神經(jīng)語音和內(nèi)容編輯功能,或通過個人語音功能(一種限制訪問功能)將內(nèi)容翻譯成 10 種語言。您可以在Speech Studio中了解更多關(guān)于視頻翻譯服務(wù)的信息,并試用您自己的視頻。

Vimeo 致力于簡化制作、管理和分享視頻所需的一切——所有這些都在一個易于使用的平臺中。

Vimeo 正在與微軟視頻翻譯服務(wù)密切合作,對其為全球客戶解鎖的用例感到興奮。

多語言語音翻譯

我們宣布對我們的多語言語音翻譯能力進行了新的增強。我們引入了多語言檢測功能,能夠在同一音頻流中檢測語言切換,并自動語言檢測,消除了開發(fā)者指定輸入語言的需求,以及集成的自定義翻譯功能,以適應(yīng)您的領(lǐng)域特定詞匯。

有了這些功能,開發(fā)者不再需要指定輸入語言,可以在同一會話中處理語言切換,并支持實時流翻譯到目標語言。

此功能對于字幕使用場景特別有幫助。字幕是為音頻或視頻內(nèi)容添加文本,以便讓聽力困難或說不同語言的人更容易訪問和理解。在許多國家,字幕不僅是法律義務(wù),也是社會責任和包容的良好實踐。內(nèi)容創(chuàng)作者現(xiàn)在可以吸引更廣泛和更多樣化的受眾,并輕松提高用戶體驗和參與度。

宣布個人語音的全面可用性

我們的語音服務(wù)還提供了自然語音的功能??蛻艨梢岳迷撈脚_為頭像、聊天機器人和 IVR 創(chuàng)建逼真且自然的語音。通過 Azure AI 語音,您可以選擇使用現(xiàn)有的語音模型,選擇多種不同的語音和風格,也可以使用您自己的數(shù)據(jù)和錄音創(chuàng)建自定義的語音。

我們還宣布 Azure AI 語音推出了新的個人化語音功能。該功能目前以有限的訪問權(quán)限推出,以確保適當?shù)谋U洗胧┎⒈苊鉃E用。該功能允許用戶僅通過提供簡短的語音樣本作為音頻提示,在幾秒鐘內(nèi)創(chuàng)建 AI 語音。該功能可用于各種用例,例如為聊天機器人個性化語音體驗,或者利用演員的母語聲音將視頻內(nèi)容翻譯成不同的語言。

總之,我們強大而多功能的平臺幫助客戶將語音輸入和輸出與其他 AI 功能結(jié)合起來。這使得開發(fā)者能夠為新場景創(chuàng)建高質(zhì)量的工作負載。無論您是需要人類對話的見解、實時或錄制的字幕,還是為您的虛擬形象、聊天機器人或 IVR 創(chuàng)建逼真和自然的語音,Azure AI 都能幫助客戶提供快速、可靠和可定制的解決方案。



審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 智能手機
    +關(guān)注

    關(guān)注

    66

    文章

    18493

    瀏覽量

    180209
  • 機器人
    +關(guān)注

    關(guān)注

    211

    文章

    28418

    瀏覽量

    207095
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1089

    瀏覽量

    6512

原文標題:Build 2024發(fā)布多項 Azure AI Speech 全新多模態(tài)功能

文章出處:【微信號:mstech2014,微信公眾號:微軟科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    亥步模態(tài)醫(yī)療大模型發(fā)布:人工智能引領(lǐng)醫(yī)療新紀元

    當下,人工智能(AI)正以不可阻擋之勢滲透到各行各業(yè),包括醫(yī)療行業(yè)。12月14日,2024中國醫(yī)學人工智能大會的召開。會上,一款名為“亥步”的模態(tài)醫(yī)療大模型的正式
    的頭像 發(fā)表于 12-19 17:56 ?147次閱讀

    蘋果發(fā)布300億參數(shù)模態(tài)AI大模型MM1.5

    蘋果近日推出了全新模態(tài)AI大模型MM1.5,該模型擁有高達300億的參數(shù)規(guī)模,是在前代MM1架構(gòu)的基礎(chǔ)上進一步發(fā)展而來的。
    的頭像 發(fā)表于 10-14 15:50 ?273次閱讀

    HPMicro Arduino支持包v0.1.0發(fā)布,適配功能揭曉!

    HPMicro Arduino支持包v0.1.0發(fā)布,適配功能揭曉!
    的頭像 發(fā)表于 07-11 08:18 ?514次閱讀
    HPMicro Arduino支持包v0.1.0<b class='flag-5'>發(fā)布</b>,適配<b class='flag-5'>功能</b>揭曉!

    商湯“日日新”大模型全面賦能2024 WAIC

    7月6日,WAIC 2024迎來第三天。 商湯科技全新升級的「日日新SenseNova 5.5」備受熱議,作為國內(nèi)首個具備流式原生模態(tài)交互能力的大模型,交互效果和
    的頭像 發(fā)表于 07-08 15:54 ?629次閱讀

    智譜AI發(fā)布全新模態(tài)開源模型GLM-4-9B

    近日,智譜AI在人工智能領(lǐng)域取得重大突破,成功推出全新開源模型GLM-4-9B。這款模型以其卓越的模態(tài)能力,再次刷新了業(yè)界對于大型語言模型的認識。
    的頭像 發(fā)表于 06-07 09:17 ?743次閱讀

    微軟Build 2024:宣布開放AI GPT-40及Phi-3-visio

    5 月 22 日,微軟Build 2024大會在美正式開幕。薩提亞·納德拉CEO、董事長宣布,OpenAI新款旗艦模型GPT-4o已經(jīng)在Azure AI Studio上線,并開放API
    的頭像 發(fā)表于 05-22 11:18 ?506次閱讀

    谷歌發(fā)布模態(tài)AI新品,加劇AI巨頭競爭

    在全球AI競技場上,谷歌與OpenAI一直穩(wěn)居領(lǐng)先地位。近日,谷歌在I/O開發(fā)者大會上掀起了一股新的技術(shù)浪潮,發(fā)布了多款全新升級的模態(tài)
    的頭像 發(fā)表于 05-16 09:28 ?453次閱讀

    李未可科技正式推出WAKE-AI模態(tài)AI大模型

    李未可科技模態(tài) AI 大模型正式發(fā)布,積極推進 AI 在終端的場景應(yīng)用 ? 4月18日,2024
    發(fā)表于 04-18 17:01 ?601次閱讀
    李未可科技正式推出WAKE-<b class='flag-5'>AI</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>AI</b>大模型

    微軟Build 2024 大會5月21日舉行,將帶來全新Windows AI功能

     WindowsCentral已提前獲取Build 2024各分會場主題和概要。盡管微軟尚未公開詳情,但仍可據(jù)此瞥見其今年Build大會的核心焦點,如以“推介下一代Windows on Arm”為題的分會場,預計將揭示W(wǎng)indo
    的頭像 發(fā)表于 04-12 14:42 ?1102次閱讀

    谷歌推出模態(tài)VLOGGER AI

    谷歌最新推出的VLOGGER AI技術(shù)引起了廣泛關(guān)注,這項創(chuàng)新的模態(tài)模型能夠讓靜態(tài)肖像圖“活”起來并“說話”。用戶只需提供一張人物肖像照片和一段音頻內(nèi)容,VLOGGER AI就能讓圖
    的頭像 發(fā)表于 03-22 10:45 ?840次閱讀

    MWC2024:高通推出全新AI Hub及前沿模態(tài)大模型

    2024年世界移動通信大會(MWC)上,高通再次展現(xiàn)其技術(shù)領(lǐng)導力,通過發(fā)布全新的高通AI Hub和展示前沿的
    的頭像 發(fā)表于 02-26 16:59 ?1272次閱讀

    RZ/V2L DRP-AI支持包版本.7.41發(fā)布說明

    電子發(fā)燒友網(wǎng)站提供《RZ/V2L DRP-AI支持包版本.7.41發(fā)布說明.pdf》資料免費下載
    發(fā)表于 02-01 10:07 ?0次下載
    RZ/V2L DRP-<b class='flag-5'>AI</b>支持包版本.7.41<b class='flag-5'>發(fā)布</b>說明

    RZ/V操作系統(tǒng)包V1.12發(fā)布說明

    電子發(fā)燒友網(wǎng)站提供《RZ/V操作系統(tǒng)包V1.12發(fā)布說明.pdf》資料免費下載
    發(fā)表于 02-01 09:47 ?0次下載
    RZ/V<b class='flag-5'>多</b>操作系統(tǒng)包V1.12<b class='flag-5'>發(fā)布</b>說明

    e2 studio 2024-01發(fā)布說明

    電子發(fā)燒友網(wǎng)站提供《e2 studio 2024-01發(fā)布說明.pdf》資料免費下載
    發(fā)表于 01-30 09:47 ?1次下載
    e2 studio <b class='flag-5'>2024</b>-01<b class='flag-5'>發(fā)布</b>說明

    安霸發(fā)布全新N1系列生成式AI芯片

    安霸在CES 2024發(fā)布全新的N1系列生成式AI芯片,這是一款專門為前端設(shè)備設(shè)計的芯片,支持本地運行大型語言模型(LLM)應(yīng)用。其單顆SoC能夠支持1至340億參數(shù)的
    的頭像 發(fā)表于 01-09 15:32 ?1377次閱讀