0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

昆侖芯重磅打造xHuggingface開源推理套件

昆侖芯科技 ? 來源:昆侖芯科技 ? 2023-07-23 09:42 ? 次閱讀

新一輪人工智能熱潮下,國內(nèi)大模型群雄逐鹿,目前已有超過80個大模型公開測試。而相關(guān)數(shù)據(jù)顯示,ChatGPT自發(fā)布以來,全球訪問量環(huán)比增幅持續(xù)下降,6月首次出現(xiàn)環(huán)比下滑9.7%。泡沫退去,如何在大模型時代保持市場競爭力?

針對大模型場景,昆侖芯早已在產(chǎn)品定義上作出布局,相較第一代產(chǎn)品,昆侖芯2代AI芯片可大幅優(yōu)化算力、互聯(lián)和高性能,而在研的下一代產(chǎn)品則將提供更佳的性能體驗。

在近日落幕的XceedCon2023人工智能芯片生態(tài)大會上,昆侖芯大模型端到端解決方案正式發(fā)布,該解決方案隨即入選2023世界人工智能大會卓越人工智能引領(lǐng)者獎(Super AI Leader,簡稱SAIL獎)TOP30榜單。

昆侖芯副總裁王勇、昆侖芯互聯(lián)網(wǎng)行業(yè)總經(jīng)理王志鵬先后在XceedCon2023人工智能芯片生態(tài)大會、2023世界人工智能大會對昆侖芯大模型端到端解決方案進(jìn)行發(fā)布與推介。本篇以下內(nèi)容整理自現(xiàn)場實錄。

軟硬協(xié)同、技術(shù)創(chuàng)新

打造高性能產(chǎn)品矩陣

集十余年AI加速領(lǐng)域研發(fā)積累,昆侖芯核心團(tuán)隊于2017年在Hot Chips上發(fā)布自研、面向通用人工智能計算的芯片核心架構(gòu)——昆侖芯XPU。目前,已有兩代昆侖芯AI芯片基于該架構(gòu)實現(xiàn)量產(chǎn)和規(guī)模部署。

昆侖芯XPU專為密集型計算而設(shè)計,相比GPU可提供更多AI加速單元,同時支持C/C++、類CUDA語法編程,兼具高性能和可編程性,適配幾乎所有主流AI場景,滿足不同行業(yè)的大模型訓(xùn)推需求。

大模型的演進(jìn)必將伴隨參數(shù)量的增加,更加依賴于分布式訓(xùn)練與推理能力。昆侖芯2代系列產(chǎn)品搭載新一代核心架構(gòu)XPU-R,性能相較一代提升2-3倍,在分布式場景中優(yōu)勢明顯。

01.

大顯存

昆侖芯2代產(chǎn)品擁有32GB顯存容量,在同價位產(chǎn)品中內(nèi)存優(yōu)勢突出。

02.

高互聯(lián)

昆侖芯通過領(lǐng)先技術(shù),可實現(xiàn)單機八卡高速互聯(lián),帶寬達(dá)到200GB/s;支持Direct RDMA,可實現(xiàn)跨機間低延時、高速通訊。

昆侖芯推出針對不同參數(shù)級別的大模型產(chǎn)品矩陣,兼具顯存和算力成本優(yōu)勢。

昆侖芯AI加速卡R200-8F面向百億以內(nèi)參數(shù)量級,相比同類型產(chǎn)品性能提升20%;

昆侖芯AI加速器組R480-X8面向百億至千億參數(shù)量級,性能達(dá)到同類型產(chǎn)品的1.3倍以上;

昆侖芯AI加速器組R480-X8集群針對千億以上參數(shù)量級,可實現(xiàn)多機多卡分布式推理。

昆侖芯大模型解決方案軟件棧

軟件生態(tài)層面,昆侖芯提供了針對大模型場景的專用加速庫、豐富的云原生插件,支持文心一言、LLaMA、Bloom、ChatGLM、GPT等行業(yè)主流大模型。

昆侖芯XFT(XPU Fast Transformer)推理加速庫,較原生框架小算子版本性能提升5倍以上。目前,XFT加速庫已與百度飛槳、PyTorch等主流深度學(xué)習(xí)框架完成適配;

昆侖芯云原生插件可幫助用戶快速完成和大模型平臺的適配;同時提供昆侖芯SDK,幫助用戶快速完成適配和實時自定義開發(fā)。

昆侖芯xHuggingface開源推理套件

此外,昆侖芯全面擁抱開源社區(qū),積極攜手生態(tài)伙伴構(gòu)建軟硬一體的AI芯片生態(tài)。

昆侖芯打造了xHuggingface開源推理套件,僅修改1-2行代碼,即可快速搭建基于XPU的智能客服APP。同時,昆侖芯與飛槳PaddlePaddle的AI Studio社區(qū)緊密合作,基于xHuggingface開源推理套件向廣大開發(fā)者提供更快、更強、更省的算力產(chǎn)品;

昆侖芯與飛槳深入?yún)f(xié)同適配行業(yè)主流大模型,可支持超大規(guī)模分布式訓(xùn)練與推理。針對稠密大模型,昆侖芯支持飛槳的Sharding并行、數(shù)據(jù)并行、模型并行、流水線并行四種并行方式;針對稀疏大模型,昆侖芯與飛槳共同打造大規(guī)模參數(shù)服務(wù)器架構(gòu),實現(xiàn)了萬億參數(shù)的大模型訓(xùn)練。

深入場景、真實歷練

打磨端到端解決方案

昆侖芯深入了解不同應(yīng)用場景下客戶的真實需求,憑借軟硬協(xié)同技術(shù)與高性能產(chǎn)品矩陣,為千行百業(yè)提供開箱即用的產(chǎn)品和全棧式AI服務(wù)。

大語言模型場景

昆侖芯推理加速方案

目前,昆侖芯已與業(yè)界主流開源大模型完成適配,向客戶開放開源軟件庫,供客戶進(jìn)行二次修改、微調(diào),滿足不同推理場景下的個性化定制需求。

GPT百億參數(shù)大模型場景:昆侖芯產(chǎn)品的QPS相比主流165W產(chǎn)品提高30%以上,同時首字時延更低。

文心一格:目前已大規(guī)模應(yīng)用昆侖芯產(chǎn)品,成本降低的同時,可實現(xiàn)2秒快速出圖。

昆侖芯訓(xùn)練產(chǎn)品總覽

針對大語言模型訓(xùn)練場景,昆侖芯也可提供一整套精調(diào)的訓(xùn)練策略。目前,昆侖芯已適配pretrain、post-pretrain、SFT、LoRA等模型,可根據(jù)客戶的數(shù)據(jù)量與計算資源情況,靈活推薦不同的訓(xùn)練模式。

能源行業(yè):昆侖芯解決方案通過SFT訓(xùn)練模式,客戶僅使用少量數(shù)據(jù)即可2天打造專屬行業(yè)大模型。

智源研究院:昆侖芯和智源研究院在大模型方面已有深入合作。昆侖芯已完成和Aquila大語言模型推理任務(wù)的適配、精度調(diào)試和性能優(yōu)化,并實現(xiàn)大規(guī)模分布式推理上線,訓(xùn)練任務(wù)適配優(yōu)化中;同時也適配了智源eva視覺大模型,初步驗證了大規(guī)模分布式預(yù)訓(xùn)練能力。

稀疏大模型推薦場景

稀疏大模型存在訓(xùn)練門檻高、算力消耗大等技術(shù)挑戰(zhàn)。對于算法和模型持續(xù)高頻迭代的推薦場景,昆侖芯始終將“安全可信”、“從GPU零成本無縫遷移”作為目標(biāo),實現(xiàn)訓(xùn)練與推理系統(tǒng)的緊密耦合,為客戶降本增效。目前,昆侖芯已與互聯(lián)網(wǎng)頭部客戶完成了訓(xùn)練場景的端到端聯(lián)合開發(fā),并在TB級以上稀疏大模型上完成了“替換主流GPU的全量上線”。

大模型的持續(xù)迭代加速了我國AI技術(shù)及AI產(chǎn)業(yè)的演進(jìn),利好政策的相繼出臺同時開啟了我國大模型商用浪潮。面向未來,昆侖芯將始終堅持軟硬協(xié)同創(chuàng)新,夯實AI領(lǐng)域綜合優(yōu)勢,加速大模型產(chǎn)業(yè)落地,勇立大模型時代潮頭。

責(zé)任編輯:彭菁

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4743

    瀏覽量

    128997
  • 開源
    +關(guān)注

    關(guān)注

    3

    文章

    3363

    瀏覽量

    42537
  • 昆侖芯科技
    +關(guān)注

    關(guān)注

    0

    文章

    27

    瀏覽量

    623

原文標(biāo)題:來了!一文讀懂昆侖芯大模型端到端解決方案

文章出處:【微信號:昆侖芯科技,微信公眾號:昆侖芯科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    開源鴻蒙應(yīng)用案例重磅發(fā)布

    開源賦能千行百業(yè),有效推動產(chǎn)業(yè)創(chuàng)新升級。隨著開放原子開源基金會的開源鴻蒙(OpenHarmony)5.0 Release版本正式發(fā)布,項目生態(tài)逐步走向成熟,眾多開源應(yīng)用案例應(yīng)運而生。近
    的頭像 發(fā)表于 12-23 11:32 ?297次閱讀

    阿里云開源推理大模型QwQ

    近日,阿里云通義團(tuán)隊宣布推出全新AI推理模型QwQ-32B-Preview,并同步實現(xiàn)了開源。這一舉措標(biāo)志著阿里云在AI推理領(lǐng)域邁出了重要一步。 據(jù)評測數(shù)據(jù)顯示,QwQ預(yù)覽版本已具備研究生水平的科學(xué)
    的頭像 發(fā)表于 11-29 11:30 ?568次閱讀

    昆侖萬維推出“天工大模型4.0”o1版(Skywork o1)邀請測試

    近日,昆侖萬維正式向外界推出了其最新研發(fā)的“天工大模型4.0”o1版(Skywork o1)。該系列模型以其獨特的復(fù)雜思考推理能力,吸引了眾多業(yè)內(nèi)人士的關(guān)注。 據(jù)悉,Skywork o1是昆侖萬維
    的頭像 發(fā)表于 11-28 10:33 ?308次閱讀

    昆侖萬維天工大模型4.0 O1版即將邀測

    昆侖萬維公司近日宣布,其自主研發(fā)的天工大模型4.0 O1版(英文名:Skywork O1)將于11月27日正式啟動邀請測試。這款模型是國內(nèi)首款具備中文邏輯推理能力的o1模型,具有里程碑式的意義。
    的頭像 發(fā)表于 11-19 17:24 ?538次閱讀

    李開復(fù):中國擅長打造經(jīng)濟(jì)實惠的AI推理引擎

    10月22日上午,零一萬物公司的創(chuàng)始人兼首席執(zhí)行官李開復(fù)在與外媒的交流中透露,其公司旗下的Yi-Lightning(閃電模型)在推理成本上已實現(xiàn)了顯著優(yōu)勢,比OpenAI的GPT-4o模型低了31倍。他強調(diào),中國擅長打造經(jīng)濟(jì)實惠的AI
    的頭像 發(fā)表于 10-22 16:54 ?365次閱讀

    國產(chǎn)上運行TinyMaxi輕量級的神經(jīng)網(wǎng)絡(luò)推理庫-米爾基于馳D9國產(chǎn)商顯板

    本篇測評由優(yōu)秀測評者“短笛君”提供。本文將介紹基于米爾電子MYD-YD9360商顯板(米爾基于馳D9360國產(chǎn)開發(fā)板)的TinyMaxi輕量級的神經(jīng)網(wǎng)絡(luò)推理庫方案測試。 算力測試TinyMaix
    發(fā)表于 08-09 18:26

    國產(chǎn)上運行TinyMaxi輕量級的神經(jīng)網(wǎng)絡(luò)推理庫-米爾基于馳D9國產(chǎn)商顯板

    本帖最后由 blingbling111 于 2024-8-8 09:23 編輯 本篇測評由與非網(wǎng)的優(yōu)秀測評者“短笛君”提供。本文將介紹基于米爾電子MYD-YD9360商顯板(米爾基于
    發(fā)表于 08-07 18:06

    迅為RK3568手冊上新 | RK3568開發(fā)板NPU例程測試

    是幫助學(xué)習(xí)和開發(fā)用戶快速上手使用RKNPU。本手冊先介紹梳理瑞開源NPU資料,然后著手搭建環(huán)境和工具的使用,最后以瑞開源demo為例,體驗和使用RKNPU。 更新內(nèi)容●教程更新
    發(fā)表于 07-12 14:44

    國產(chǎn)上運行TinyMaxi輕量級的神經(jīng)網(wǎng)絡(luò)推理庫-米爾基于馳D9國產(chǎn)商顯板

    本篇測評由與非網(wǎng)的優(yōu)秀測評者“短笛君”提供。本文將介紹基于米爾電子MYD-YD9360商顯板(米爾基于馳D9360國產(chǎn)開發(fā)板)的TinyMaxi輕量級的神經(jīng)網(wǎng)絡(luò)推理庫方案測試。算力測試
    的頭像 發(fā)表于 07-05 08:02 ?1894次閱讀
    國產(chǎn)<b class='flag-5'>芯</b>上運行TinyMaxi輕量級的神經(jīng)網(wǎng)絡(luò)<b class='flag-5'>推理</b>庫-米爾基于<b class='flag-5'>芯</b>馳D9國產(chǎn)商顯板

    JH-7110 RISC-V開發(fā)套件正式開源

    近日,賽昉科技在RVspace生態(tài)社區(qū)正式開源昉·驚鴻-7110(JH-7110)DevKit開發(fā)套件,同時提供其原理圖和PCB參考設(shè)計源文件,旨在為客戶提供全面的RISC-V芯片平臺
    的頭像 發(fā)表于 06-15 08:19 ?536次閱讀
    JH-7110 RISC-V開發(fā)<b class='flag-5'>套件</b>正式<b class='flag-5'>開源</b>

    昆侖萬維開源2千億稀疏大模型Skywork-MoE

    近日,昆侖萬維公司宣布開源一款名為Skywork-MoE的稀疏大模型,該模型擁有高達(dá)2千億參數(shù),不僅性能強勁,而且推理成本更低,為人工智能領(lǐng)域帶來了新的突破。
    的頭像 發(fā)表于 06-04 14:44 ?583次閱讀

    AI推理框架軟件ONNX Runtime正式支持龍架構(gòu)

    近日,知名AI推理框架開源社區(qū)ONNX Runtime正式發(fā)布支持龍架構(gòu)的版本1.17.0。
    的頭像 發(fā)表于 03-12 12:23 ?594次閱讀
    AI<b class='flag-5'>推理</b>框架軟件ONNX Runtime正式支持龍架構(gòu)

    昆侖聯(lián)通終止上交所主板IPO

    上海證券交易所(上交所)近日宣布,已終止對北京昆侖聯(lián)通科技發(fā)展股份有限公司(以下簡稱“昆侖聯(lián)通”)首次公開發(fā)行股票并在主板上市的審核。這一決定意味著昆侖聯(lián)通的上市計劃暫時受挫。
    的頭像 發(fā)表于 03-05 13:55 ?665次閱讀

    昆侖聯(lián)通主板IPO撤單

    北京昆侖聯(lián)通科技發(fā)展股份有限公司(以下簡稱“昆侖聯(lián)通”),一家專業(yè)的IT基礎(chǔ)架構(gòu)解決方案提供商,近日因其及保薦人主動撤回發(fā)行上市申請,上海證券交易所(上交所)決定終止其發(fā)行上市審核。
    的頭像 發(fā)表于 03-04 17:05 ?849次閱讀

    昆侖聯(lián)通IPO申請被終止

    北京昆侖聯(lián)通科技發(fā)展股份有限公司(簡稱“昆侖聯(lián)通”)的IPO申請已被終止,這是因為公司及其保薦人撤回了發(fā)行上市申請。
    的頭像 發(fā)表于 03-04 09:33 ?561次閱讀