0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Arm與Stability AI攜手合作加快文本轉(zhuǎn)音頻的響應(yīng)速度

Arm社區(qū) ? 來(lái)源:Arm社區(qū) ? 2025-03-25 15:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:Arm 終端事業(yè)部產(chǎn)品管理總監(jiān) Ronan Naughton

想象一下,你正在智能手機(jī)上編輯視頻,需要為其添加合適的音效;或是你想要生成自定義聲音,用于設(shè)置鈴聲、鬧鐘或發(fā)布社交媒體帖子。你無(wú)需在網(wǎng)上搜索或購(gòu)買(mǎi)音頻片段,只需輸入一段描述,例如“日落時(shí)的輕柔海浪聲”,幾秒鐘后,你的設(shè)備就會(huì)為你生成合適的聲音,甚至無(wú)需聯(lián)網(wǎng)就可實(shí)現(xiàn)。得益于 Arm 和 Stability AI 的新合作,這種完全在端側(cè)直接生成音頻的技術(shù)已變?yōu)楝F(xiàn)實(shí)。

Arm 與 Stability AI 攜手合作,加快文本轉(zhuǎn)音頻的響應(yīng)速度

Stability AI 是一家專注于圖像、視頻、3D 和音頻領(lǐng)域人工智能 (AI) 模型開(kāi)發(fā)的公司。而 Arm KleidiAI 能夠提供專門(mén)針對(duì) Arm CPU 的經(jīng)優(yōu)化的性能關(guān)鍵例程(即微內(nèi)核)。通過(guò) KleidiAI 與 XNNPack 庫(kù)和 ExecuTorch 框架的集成,以及 Stability AI 自身的優(yōu)化,為 Stability AI 的文本轉(zhuǎn)音頻開(kāi)放模型“Stable Audio Open”帶來(lái)了顯著的 AI 性能提升。

令人驚嘆的結(jié)果包括文本轉(zhuǎn)音頻的 AI 生成時(shí)間從幾分鐘大幅縮短至幾秒鐘,響應(yīng)速度提高了 30 倍。Stable Audio Open 模型完全在基于 Arm CPU 的智能手機(jī)上運(yùn)行,且無(wú)需聯(lián)網(wǎng),對(duì)于文本轉(zhuǎn)音頻 AI 來(lái)說(shuō)是首創(chuàng)之舉。

Stability AI 利用 KleidiAI 自動(dòng)加速功能,加快模型的響應(yīng)速度,從而在不影響質(zhì)量的情況下提升了端側(cè) AI 性能。KleidiAI 帶來(lái)的性能提升,無(wú)需 Stable Audio Open 模型用戶額外投入開(kāi)發(fā)精力,節(jié)省了時(shí)間和成本。Arm 和 Stability AI 將繼續(xù)合作,以實(shí)現(xiàn)更多性能的躍升,帶來(lái)更為出色的 AI 用戶體驗(yàn)。

顯著的性能提升表明,具有針對(duì)性的硬件和軟件集成,使過(guò)往無(wú)法實(shí)現(xiàn)的 AI 應(yīng)用在移動(dòng)端變得可行,從而推動(dòng)了未來(lái)的創(chuàng)新機(jī)遇。Arm 技術(shù)驅(qū)動(dòng)了全球 99% 的智能手機(jī),這也意味著數(shù)十億智能手機(jī)用戶現(xiàn)可取得先進(jìn)的 AI 音頻功能。

共同應(yīng)對(duì)復(fù)雜的 AI 挑戰(zhàn)

Stable Audio Open 模型具備出色的效率,但在智能手機(jī)的 CPU 上直接由端側(cè)運(yùn)行該模型仍非易事。在初期嘗試時(shí),單個(gè)音頻樣本的生成時(shí)間超過(guò)四分鐘,這對(duì)終端用戶而言不太能接受。

通過(guò)與 Arm 合作,Stability AI 將模型的訓(xùn)練參數(shù)量蒸餾到適合移動(dòng)端的規(guī)模。然后,通過(guò)新的蒸餾模型,并利用 XNNPack 與 ExecuTorch 集成帶來(lái)的 KleidiAI 性能加速,實(shí)現(xiàn)了在移動(dòng)端 Arm CPU 上幾秒內(nèi)就生成音頻片段。

Stability AI 首席執(zhí)行官 Prem Akkaraju 表示:隨著越來(lái)越多的專業(yè)創(chuàng)意工作者和企業(yè)采用生成式 AI 來(lái)幫助提升其生產(chǎn)流程,我們的模型和工作流必須隨處可得,以供構(gòu)建者和創(chuàng)作者使用,這一點(diǎn)至關(guān)重要。我們很高興能就此與 Arm 合作。從服務(wù)器到智能手機(jī),Arm 平臺(tái)在整個(gè)生態(tài)系統(tǒng)中應(yīng)用普及,并且 Arm 通過(guò)將 Arm Kleidi 集成到軟件棧中,致力于加速各類(lèi)主流框架中的 AI 模型,因此 Arm 是我們的不二之選。

文本轉(zhuǎn)音頻 AI 的興起

自 2022 年以來(lái),Stability AI 始終立于生成式 AI 發(fā)展的前沿,曾憑借行業(yè)領(lǐng)先的圖像模型 Stable Diffusion 引起轟動(dòng)。依托 Stable Diffusion 的成功,該公司隨后推出了 Stable Audio,這是首個(gè)完全獲得授權(quán)的音頻模型之一,專為通過(guò)文本提示詞生成高質(zhì)量的音樂(lè)和音效而設(shè)計(jì)。這些 AI 模型在 Hugging Face 等主要平臺(tái)上均排名前茅,擁有多達(dá)數(shù)百萬(wàn)規(guī)模的用戶數(shù),構(gòu)成了一個(gè)活躍的技術(shù)社區(qū)。

人人皆可享先進(jìn)的音頻 AI 體驗(yàn)

這一成果僅僅只是雙方合作的開(kāi)始,Arm 和 Stability AI 已規(guī)劃了更多的性能優(yōu)化舉措,旨在為用戶帶來(lái)更加出色的使用體驗(yàn)。通過(guò)攜手合作,Arm 正在為音頻、圖像、視頻和 3D 領(lǐng)域的端側(cè) AI 打好基礎(chǔ),重塑每個(gè)人創(chuàng)作內(nèi)容和與數(shù)字媒體互動(dòng)的方式。通過(guò)蒸餾先進(jìn)的模型并利用經(jīng)過(guò)優(yōu)化的軟件,部署到人們常用的硬件設(shè)備上,從而為未來(lái)鋪平道路,實(shí)現(xiàn)人人都能通過(guò)口袋里的設(shè)備直接享受先進(jìn)的 AI 應(yīng)用、模型和體驗(yàn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • ARM
    ARM
    +關(guān)注

    關(guān)注

    134

    文章

    9336

    瀏覽量

    376048
  • 音頻
    +關(guān)注

    關(guān)注

    29

    文章

    3030

    瀏覽量

    83213
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    34747

    瀏覽量

    276849
  • 人工智能
    +關(guān)注

    關(guān)注

    1805

    文章

    48893

    瀏覽量

    247804

原文標(biāo)題:加快 30 倍!Arm Kleidi 賦能端側(cè)音頻生成提速

文章出處:【微信號(hào):Arm社區(qū),微信公眾號(hào):Arm社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Arm 與微軟合作,為基于 Arm 架構(gòu)的 PC 和移動(dòng)設(shè)備應(yīng)用提供超強(qiáng) AI 體驗(yàn)

    ArmKleidiAI與ONNXRuntime的集成,為Windows和安卓操作系統(tǒng)帶來(lái)了顯著的AI性能優(yōu)化,實(shí)現(xiàn)高達(dá)2.6倍的AI推理速度提升,從而加速應(yīng)用體驗(yàn)。聯(lián)合作者:
    的頭像 發(fā)表于 06-03 16:47 ?353次閱讀
    <b class='flag-5'>Arm</b> 與微軟<b class='flag-5'>合作</b>,為基于 <b class='flag-5'>Arm</b> 架構(gòu)的 PC 和移動(dòng)設(shè)備應(yīng)用提供超強(qiáng) <b class='flag-5'>AI</b> 體驗(yàn)

    Arm與微軟合作加速邊緣設(shè)備上的AI體驗(yàn)

    隨著人工智能 (AI) 成為當(dāng)今個(gè)人電腦 (PC) 和移動(dòng)設(shè)備使用體驗(yàn)(從聊天機(jī)器人到生產(chǎn)力提升)中不可或缺的一部分,這些設(shè)備對(duì) CPU 高效、可擴(kuò)展的推理需求也在持續(xù)增長(zhǎng)。Arm 與微軟正攜手
    的頭像 發(fā)表于 05-28 13:54 ?255次閱讀

    WT588F語(yǔ)音芯片響應(yīng)時(shí)間深度解析:從指令觸發(fā)到音頻播放的技術(shù)全貌

    在智能語(yǔ)音交互設(shè)備開(kāi)發(fā)中,系統(tǒng)響應(yīng)速度直接影響用戶體驗(yàn)。廣州唯創(chuàng)電子WT588F系列語(yǔ)音芯片憑借其靈活的架構(gòu)設(shè)計(jì),在響應(yīng)效率方面表現(xiàn)出色。本文將深入解析該芯片從接收指令到音頻輸出的全過(guò)程,并揭示
    的頭像 發(fā)表于 03-31 09:24 ?343次閱讀
    WT588F語(yǔ)音芯片<b class='flag-5'>響應(yīng)</b>時(shí)間深度解析:從指令觸發(fā)到<b class='flag-5'>音頻</b>播放的技術(shù)全貌

    Banana Pi 與瑞薩電子攜手共同推動(dòng)開(kāi)源創(chuàng)新:BPI-AI2N

    與嵌入式系統(tǒng)的優(yōu)勢(shì),該聯(lián)合解決方案旨在打造更開(kāi)放、更靈活的軟硬件平臺(tái)。 “此次合作將提升瑞薩在開(kāi)源社區(qū)的知名度?;?RZ/V2N 的突破性 BPI-AI2N SOM 有望對(duì)多個(gè)行業(yè)產(chǎn)生重大影響,為工程師
    發(fā)表于 03-12 09:43

    AI Agent 應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》閱讀心得3——RAG架構(gòu)與部署本地知識(shí)庫(kù)

    分析模型在不同類(lèi)型數(shù)據(jù)上的表現(xiàn),來(lái)優(yōu)化文本分割策略和檢索參數(shù),使系統(tǒng)在保持響應(yīng)速度的同時(shí),能夠提供更準(zhǔn)確的查詢結(jié)果。 經(jīng)過(guò)對(duì)第6-7章的深入學(xué)習(xí),我對(duì)RAG技術(shù)在工程實(shí)踐中的應(yīng)用有了更系統(tǒng)的認(rèn)識(shí)。這一
    發(fā)表于 03-07 19:49

    Arm成功將Arm KleidiAI軟件庫(kù)集成到騰訊自研的Angel 機(jī)器學(xué)習(xí)框架

    Arm 與騰訊攜手合作,成功將 Arm KleidiAI 軟件庫(kù)集成到騰訊自研的 Angel 機(jī)器學(xué)習(xí)框架。 ? 借助 KleidiAI 解鎖卓越性能、能效和可移植性,騰訊混元大模型能
    的頭像 發(fā)表于 11-24 15:33 ?1228次閱讀

    Arm 年度技術(shù)大會(huì): 預(yù)計(jì)2025 年底,全球?qū)⒂谐^(guò) 1,000 億臺(tái)具備 AI 能力的 Arm 設(shè)備

    。值得一提的是,在生態(tài)伙伴的攜手合作下,Arm預(yù)計(jì)到2025年底,全球?qū)⒂谐^(guò)1,000億臺(tái)具備AI能力的Arm設(shè)備。
    的頭像 發(fā)表于 11-22 12:41 ?663次閱讀
    <b class='flag-5'>Arm</b> 年度技術(shù)大會(huì): 預(yù)計(jì)2025 年底,全球?qū)⒂谐^(guò) 1,000 億臺(tái)具備 <b class='flag-5'>AI</b> 能力的 <b class='flag-5'>Arm</b> 設(shè)備

    Arm與ExecuTorch合作加速端側(cè)生成式AI實(shí)現(xiàn)

    Arm 正在與 Meta 公司的 PyTorch 團(tuán)隊(duì)攜手合作,共同推進(jìn)新的 ExecuTorch 測(cè)試版 (Beta) 上線,旨在為全球數(shù)十億邊緣側(cè)設(shè)備和數(shù)百萬(wàn)開(kāi)發(fā)者提供人工智能 (AI
    的頭像 發(fā)表于 11-15 11:30 ?748次閱讀

    ADS1246輸出Data的響應(yīng)速度可以達(dá)到100ms嗎?

    你好,請(qǐng)問(wèn)當(dāng)采樣率設(shè)置為20SPS,PGA=1時(shí),輸入電流從4mA跳變到20mA,輸出Data的響應(yīng)速度可以達(dá)到100ms嗎?謝謝
    發(fā)表于 11-15 07:22

    如何提升 ChatGPT 的響應(yīng)速度

    提升 ChatGPT 的響應(yīng)速度是一個(gè)涉及多個(gè)層面的復(fù)雜問(wèn)題。以下是一些可能的方法和策略,可以幫助提高 ChatGPT 的響應(yīng)速度: 優(yōu)化算法 : 并行處理 :通過(guò)并行處理技術(shù),可以讓多個(gè)計(jì)算任務(wù)
    的頭像 發(fā)表于 10-25 17:39 ?1521次閱讀

    神盾集團(tuán)與Arm達(dá)成合作,推動(dòng)AI HPC晶片創(chuàng)新

    近日,神盾集團(tuán)在美國(guó)宣布了一項(xiàng)重要策略合作。旗下神盾公司與安國(guó)國(guó)際科技正式加入Arm? Total Design計(jì)劃,與全球領(lǐng)先的半導(dǎo)體公司安謀(Arm)攜手
    的頭像 發(fā)表于 10-21 15:52 ?833次閱讀

    usb轉(zhuǎn)音頻線是怎么連接的

    USB轉(zhuǎn)音頻線是一種將USB接口轉(zhuǎn)換為音頻接口的設(shè)備,它通常用于將電腦或其他USB設(shè)備的聲音輸出到音響系統(tǒng)、耳機(jī)或其他音頻設(shè)備。這種轉(zhuǎn)換線可以幫助用戶在沒(méi)有傳統(tǒng)音頻輸出接口的情況下,實(shí)
    的頭像 發(fā)表于 10-08 14:26 ?5315次閱讀

    Arm如何賦能無(wú)處不在的AI

    作為人工智能 (AI) 的創(chuàng)新基礎(chǔ),眾多企業(yè)都在使用通用且應(yīng)用廣泛的 Arm 計(jì)算平臺(tái)。迄今為止,合作伙伴基于 Arm 架構(gòu)的芯片出貨量已逾 2,800 億顆。如今,
    的頭像 發(fā)表于 09-14 09:38 ?874次閱讀

    谷歌Gemini 1.5 Flash模型升級(jí),AI聊天速度飆升50%

    谷歌近期對(duì)其Gemini AI系列進(jìn)行了重大更新,推出了Gemini 1.5 Flash模型。此次升級(jí)的核心亮點(diǎn)在于顯著提升了AI聊天的響應(yīng)速度,官方宣稱最高可達(dá)50%的增速,為用戶帶來(lái)前所未有的流暢體驗(yàn)。
    的頭像 發(fā)表于 09-06 18:06 ?1222次閱讀

    NVIDIA 攜手全球合作伙伴推出 NIM Agent Blueprints,助力企業(yè)打造屬于自己的 AI

    可定制工作流目錄加快核心生成式 AI 用例的部署速度。首批用例包括客戶服務(wù)、藥物研發(fā)和 PDF 數(shù)據(jù)提取,未來(lái)將加入更多用例 企業(yè)可以使用 NIM Agent Blueprints 以及
    發(fā)表于 08-28 10:10 ?356次閱讀
    NVIDIA <b class='flag-5'>攜手</b>全球<b class='flag-5'>合作</b>伙伴推出 NIM Agent Blueprints,助力企業(yè)打造屬于自己的 <b class='flag-5'>AI</b>

    電子發(fā)燒友

    中國(guó)電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品