0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

昆侖芯科技資深架構師侯玨:昆侖芯×飛槳——AI產業(yè)實踐與“芯”生態(tài)

昆侖芯科技 ? 來源:昆侖芯科技 ? 2023-03-10 16:21 ? 次閱讀

近日,“算網(wǎng)筑基、開源啟智、AI賦能”第四屆OpenI/O啟智開發(fā)者大會于深圳成功舉行。大會圍繞中國算力網(wǎng)資源基座、開源社區(qū)服務支撐環(huán)境、國家級開放創(chuàng)新應用平臺三大部分,探討如何高效建設適合我國的人工智能開源生態(tài)體系。

會上,百度飛槳聯(lián)合大會,圍繞“引領前沿技術,推動產業(yè)升級”的主題,舉辦“深度學習與大模型產業(yè)應用專場”論壇

作為飛槳的生態(tài)合作伙伴,昆侖芯科技受邀參與該論壇并進行主題演講,與多位人工智能技術專家和資深工程師,從算法、硬件及大模型等不同視角進行深入探討,介紹各領域深度學習及大模型在產業(yè)應用的最新進展與技術突破。

b7c0a5ec-bc30-11ed-bfe3-dac502259ad0.jpg

昆侖芯科技資深架構師 侯玨

本篇以下內容整理于昆侖芯科技資深架構師侯玨題為《昆侖芯×飛槳——AI產業(yè)實踐與“芯”生態(tài)》演講實錄。

大家好,我是來自昆侖芯科技的侯玨。很高興有這個機會跟大家交流和分享。我分享的題目是《昆侖芯×飛槳——AI產業(yè)實踐與“芯”生態(tài)》。本次主題演講分為四個方面:

1. 關于昆侖芯科技

2. 昆侖芯x飛槳生態(tài)

3. 大模型:訓練和推理

4. AI產業(yè)實踐

01

關于昆侖芯科技

昆侖芯科技前身是百度智能芯片及架構部,2011年開始研發(fā)基于FPGA的加速器,截止2017年,F(xiàn)PGA系列的加速器部署數(shù)量超過12000片。2018年,我們正式啟動了昆侖芯AI芯片產品的研發(fā),發(fā)布第一代產品,2020年成功進行了大規(guī)模部署。緊接著,第二代系列產品于2021年8月成功量產,到了2022年,昆侖芯二代產品就開始啟動互聯(lián)網(wǎng)及相關行業(yè)的交付,不斷有項目在落地中。

從我們十幾年來的AI芯片及其相關行業(yè)的經(jīng)驗來看,AI芯片產業(yè)化要重點解決三個問題。我們內部一致認為,可以把三個問題稱為三道窄門:一定要過的門,而且門還挺窄。

首先芯片要量產,量產是前提。只有把芯片做到量產、規(guī)?;?,才能平攤前期流片、研發(fā)、設計等一系列成本。并且,一個芯片是不是能夠成功量產,也是衡量芯片本身是否成熟的一個標志。

其次,有配套的軟件生態(tài)。這個軟件生態(tài)指的是芯片自己的軟件以及周邊的一些軟件。顯而易見,如果我們只做了一個芯片給客戶,客戶不知道如何使用芯片,或者說不知道芯片能夠給其業(yè)務帶來怎樣的幫助,在市場上就沒有什么競爭力。所以,我們在做軟件生態(tài)時,除了做昆侖芯自己的一套軟件棧,包括編譯器、SDK、算子庫、模型庫等,還為開發(fā)者社區(qū)以及一定量的用戶構建了整個的軟件生態(tài)。

最后,做產品化。雖然我們說一定要成就客戶,要完成具體的項目來實現(xiàn)我們的業(yè)務落地,但實際上更重要的是投入長期努力,把一款芯片做好,把一組芯片做好,長期地做出產品來,才能夠保證我們的商業(yè)模式是可持續(xù)發(fā)展的狀態(tài)。

b824be6a-bc30-11ed-bfe3-dac502259ad0.jpg

然后介紹一下昆侖芯科技的產品。首先向大家展示的是昆侖芯二代產品系列中的R200加速卡,是一個全高全長雙槽位的卡,可以進行INT8、INT16、FP16、FP32多種精度的計算。算力、內存、訪存帶寬等細節(jié)可參見上圖表格。R200可以搭配昆侖芯軟件棧,也可以搭配飛槳上層的軟件棧。例如,昆侖芯可支持飛槳的深度學習框架,同時支持飛槳框架的各種相關周邊套件,進行推理、訓練。

b83a154e-bc30-11ed-bfe3-dac502259ad0.jpg

大家會想,只有一張卡也許干不了什么事。因此,針對多卡并行計算的需求,我們又做了一個加速器組。大家可以買一些R200加速卡自己拼,但應該沒有我們拼的好,因為我們在做加速器組時,專門做了卡片間的互聯(lián),可達200GB/s。當然,8張卡在一起,算力和顯存也達到了原來的8倍。單機多卡的形式基本上可以滿足最常見的單機的推理或者并行訓練的需求。

b84f86ea-bc30-11ed-bfe3-dac502259ad0.jpg

有的朋友可能仍覺得不方便,為此,我們聯(lián)合飛槳以及百度的全功能AI開發(fā)平臺BML,做了一個開箱即用的昆侖芯軟硬集成一體機。圖上是一個2U的服務器,里面有面板、CPU、內存、開發(fā)平臺等所有東西。此外,還集成了飛槳的穩(wěn)定發(fā)布版本,以及內置了100多個各行各業(yè)的模型,真正做到了開箱即用。也就是說,從我們這買了一臺2U或4U的服務器,只需要插個電線和網(wǎng)線,就可以用了。

02

昆侖芯×飛槳生態(tài)

b861e11e-bc30-11ed-bfe3-dac502259ad0.jpg

首先,我們說深度學習框架是AI時代的操作系統(tǒng),AI芯片是AI時代的核心算力支撐??蚣芎托酒年P系大概就如圖所示:框架在中間,上面是應用和服務編排,底下是芯片。大家的業(yè)務應用都需要通過業(yè)務模型和服務編排,再跑到框架,框架負責把用戶的腳本、組網(wǎng)代碼、參數(shù)、優(yōu)化器等拿到。更準確的說,框架把各種神經(jīng)網(wǎng)絡層、優(yōu)化算法、學習率衰減等數(shù)據(jù)拿到之后,會把實際的計算過程翻譯成各個算子,下發(fā)到AI芯片上進行真正的計算,算好了之后再把結果拿回框架里,繼續(xù)調下一個算子。

b87de512-bc30-11ed-bfe3-dac502259ad0.jpg

我們按照這個邏輯做了昆侖芯和飛槳的適配,原則是你要什么,我就有什么。接下來為大家介紹下重點。

首先從下往上說,最底下是設備管理層。飛槳的框架有一個設備管理模塊,對接著我們提供的驅動和運行時模塊,也就是昆侖芯的runtime,這樣框架就能識別到我們的設備,并且往我們的設備上下發(fā)指令,包括申請內存等。

再往上是計算執(zhí)行層。這一層是以飛槳的算子庫為主,飛槳的算子庫有大量的算子,其中很多是昆侖芯提供的,也有很多是昆侖芯與飛槳一起提供的。在昆侖芯軟件棧中,有XDNN算子庫和XTDK編程接口。從飛槳角度看,可以像調用其它異構計算硬件一樣,把要執(zhí)行的操作,通過算子調用的方式下發(fā)到設備上,也就是大家所說的:我們要launch一個kennel,然后去拿結果,在host上發(fā)起操作,在device上執(zhí)行,設備內部算好了再返回給框架。有了這兩件事,單機單卡所有的事都能搞定。

但大家會發(fā)現(xiàn)單機單卡越來越不夠用,所以上面還有一個分布式通信層。昆侖芯有集合通信庫(Communication library),把它和飛槳的分布式通信(fleet)模塊結合起來,就可以做到通信所需要的send、receive、all_reduce等,也就可以實現(xiàn)單機多卡、多機多卡的訓練和推理。

b89bcdc0-bc30-11ed-bfe3-dac502259ad0.jpg

從時間軸上來看,我們跟飛槳的合作從2018開始,合作經(jīng)歷了從簡單到困難、從推理到訓練、從相對單一的場景擴展到了更復雜的場景的不同階段。我們一共支持了大概300多個算子,還有大規(guī)模驗證的50多個模型。(沒準兒我正在做主題演講的同時,昆侖芯和飛槳的QA同學又測試通過了模型,這個數(shù)兒還得往上加。)對應的流水線和單元測試我們也都有,這是穩(wěn)定、正式的發(fā)布情況。此外,還有200多個小模型跑通了飛槳TIPC認證的全流程。

需要注意的是,并不是只有50多個模型可以跑,而是因為飛槳框架已經(jīng)有了這個機制,萬一遇到了個別很奇怪的算子,沒法放在device上算,就可以自動fallback到CPU上,速度也許會慢點,但也能算。并且我們也在不斷更新中,將業(yè)界最新的論文、百度各種自研的模型加入到我們的支持列表中來。

b8bc807e-bc30-11ed-bfe3-dac502259ad0.jpg

上圖列出了一些我們已經(jīng)適配好的模型,有圖像分類、檢測、分割、OCR、自然語言處理(NLP)等。其中有一些是飛槳特色的模型,例如PPYOLO、PPOCR等“PP”開頭的模型。在飛槳的官方網(wǎng)站上也可以看到,如何使用昆侖芯進行編譯、安裝,運行飛槳的各種操作,可供大家參考。

03

大模型:訓練和推理

b8d775e6-bc30-11ed-bfe3-dac502259ad0.jpg

下一部分是介紹我們在大模型上專門進行的一些工作,包括訓練和推理兩部分。

訓練部分,昆侖芯可全部支持飛槳的四種數(shù)據(jù)并行方式:數(shù)據(jù)并行(DP)、分組切分并行(Sharding)、張量模型并行(MP)、流水線并行(PP)。如果大家用飛槳運行這四種并行方式時很順利,在用昆侖芯計算時應該也不會有什么問題,只需要把大家熟悉的set_device操作,在昆侖芯的設備上執(zhí)行。原理很簡單,所有飛槳需要的操作我們都可以支持,有kennel、通信算子,那么這些支持就都不是難事。

此外,我們也支持飛槳的各種套件,例如PaddleClass、PaddleDetection等。大家在用PaddleClass、PaddleDetection時,把模型配置中的yaml文件中的項目use_xpu=true打開一下即可。

b8efa77e-bc30-11ed-bfe3-dac502259ad0.jpg

推理部分,針對Transformer,我們專門開發(fā)了XPU Faster Transformer工具,可以對算子進行fusion,在針對這些Transformer類型的網(wǎng)絡結構時進行加速,并且可以節(jié)約很多顯存。我們在上面進行了很多針對性的性能優(yōu)化,使它可以在昆侖芯硬件上充分發(fā)揮優(yōu)勢。

04

AI產業(yè)實踐

首先來看一個典型的工業(yè)質監(jiān)場景。一個工業(yè)攝像機拍攝一組零件的健康狀況,通過機械臂把不合格的產品踢掉。

b9304d10-bc30-11ed-bfe3-dac502259ad0.jpg

這個原理看似是圖片上那么簡單,但需要做到推理、訓練兩件事才能實現(xiàn)。例如要有機構硬件、深度學習平臺、推理引擎、Serving、模型訓練等等,這些事情做完后就可以拿到一個高效率、高速度的工業(yè)質檢流水線。

b941ef98-bc30-11ed-bfe3-dac502259ad0.jpg

還有一個文檔相關的案例。可能有法律界或相關行業(yè)的朋友知道“三書一函”。首先需要對文檔進行分析、導入,包括文字識別、語義分析、語義理解,做成一個知識圖譜并保存,就可以進行完整的檢測和語義分析,最后拿到結果排序,實現(xiàn)了業(yè)務全流程的數(shù)字化,同時支持用戶的自定義模型。

b95327cc-bc30-11ed-bfe3-dac502259ad0.jpg

昆侖芯落地案例豐富,前面兩個案例是選擇的比較通俗易懂的進行講解。上圖是一個全棧的技術生態(tài)圖景,從底層的芯片、服務器,到中間的昆侖芯SDK,再到飛槳框架,我們就可以幫助大家把業(yè)務目標落地。

本次主題分享的題目是“芯”生態(tài),“芯”是“芯片”的“芯”,也是“昆侖芯”的“芯”。我希望昆侖芯和飛槳,以及一系列上層應用,可以在各行各業(yè)發(fā)揮出力量,從芯片、框架到算法,從軟件到硬件,持續(xù)做大做強,和各位開發(fā)者、客戶一起互相促進、互相成就、共同進步。

最后,非常感謝大家的聆聽,歡迎大家訪問昆侖芯科技的官網(wǎng)。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    30998

    瀏覽量

    269312
  • 開發(fā)者
    +關注

    關注

    1

    文章

    577

    瀏覽量

    17029
  • 深度學習
    +關注

    關注

    73

    文章

    5504

    瀏覽量

    121232
  • 飛槳
    +關注

    關注

    0

    文章

    33

    瀏覽量

    2310
  • 昆侖芯科技
    +關注

    關注

    0

    文章

    27

    瀏覽量

    623

原文標題:分享|昆侖芯科技資深架構師侯玨:昆侖芯×飛槳——AI產業(yè)實踐與“芯”生態(tài)

文章出處:【微信號:昆侖芯科技,微信公眾號:昆侖芯科技】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    中移昇獲第十九屆“中國”優(yōu)秀“生態(tài)”企業(yè)獎

    為推動國家集成電路產業(yè)高質量發(fā)展,11月7日,由中國電子信息產業(yè)發(fā)展研究院主辦的2024中國微電子產業(yè)促進大會暨第十九屆“中國”優(yōu)秀產品征集結果發(fā)布儀式在橫琴粵澳深度合作區(qū)隆重舉行。
    的頭像 發(fā)表于 11-12 01:04 ?389次閱讀
    中移<b class='flag-5'>芯</b>昇獲第十九屆“中國<b class='flag-5'>芯</b>”優(yōu)秀“<b class='flag-5'>芯</b><b class='flag-5'>生態(tài)</b>”企業(yè)獎

    微科技榮獲ICCE聯(lián)盟“產業(yè)創(chuàng)新實踐獎”

    近日,由中國汽車工業(yè)協(xié)會主辦的2024中國汽車軟件大會在上海嘉定舉行。潤微科技榮獲智慧車聯(lián)產業(yè)生態(tài)聯(lián)盟(ICCE)“產業(yè)創(chuàng)新實踐獎”,這標
    的頭像 發(fā)表于 11-08 18:08 ?429次閱讀

    “從此出發(fā)” 此科技發(fā)布AI PC戰(zhàn)略暨首款芯片

    7月30日,以“從此出發(fā)”為主題,此科技AI PC戰(zhàn)略暨首款芯片發(fā)布會在上海舉行。面對已到來的端側生成式AI時代,以及第三次PC產業(yè)革命
    的頭像 發(fā)表于 07-31 10:17 ?825次閱讀
    “從此<b class='flag-5'>芯</b>出發(fā)” 此<b class='flag-5'>芯</b>科技發(fā)布<b class='flag-5'>AI</b> PC戰(zhàn)略暨首款芯片

    ”動余杭:地科技引領產業(yè)新篇

    的協(xié)同創(chuàng)新,促進產業(yè)融合與資本高效對接,為半導體產業(yè)的未來發(fā)展注入強勁動力。此次會議吸引了眾多行業(yè)領袖、專家學者、金融機構及地生態(tài)圈的合作伙伴前來參加,上百位嘉賓齊聚一堂,共建余杭區(qū)
    發(fā)表于 07-29 11:37 ?214次閱讀
    “<b class='flag-5'>芯</b>”動余杭:地<b class='flag-5'>芯</b>科技引領<b class='flag-5'>產業(yè)</b>新篇

    云知聲出席昆侖巢首期人工智能應用實踐討論專場

    近日,昆侖巢攜手眾多AI領域的專家和組織機構,成功舉辦了首期人工智能應用實踐討論專場。這場線上思辨對談聚焦AI應用的前沿問題,旨在推動AI
    的頭像 發(fā)表于 06-15 15:22 ?619次閱讀

    四大企業(yè)聯(lián)手共建昆侖大模型

    中石油、移動、華為以及科大訊共同簽署協(xié)議,合力構建昆侖大模型,以推進人工智能在能源化工領域的廣泛應用與深化研究。
    的頭像 發(fā)表于 05-30 14:20 ?624次閱讀

    中國石油、中國移動、華為、科大訊將共建昆侖大模型

    近日,一場備受矚目的昆侖大模型建設研討會暨合作共建簽約儀式在北京盛大舉行。在這一歷史性的時刻,中國石油、中國移動、華為、科大訊四家企業(yè)共同簽署了昆侖大模型合作共建協(xié)議,標志著昆侖大模
    的頭像 發(fā)表于 05-30 09:18 ?858次閱讀

    來到“香山”,華章助力國產RISC-V生態(tài)做了哪些事?

    架構的特點講起,再到由此帶來的驗證挑戰(zhàn),以及針對這些挑戰(zhàn),華章驗證工具做了哪些不一樣的技術設計,獲得了客戶什么樣的部署效果。 RISC-V生態(tài):大家好才是真的好 2018年,ARM以“設計系統(tǒng)芯片之前需要考慮的五件事”為主題,
    發(fā)表于 04-22 13:40 ?594次閱讀
    從<b class='flag-5'>芯</b>來到“香山”,<b class='flag-5'>芯</b>華章助力國產RISC-V<b class='flag-5'>生態(tài)</b>做了哪些事?

    為什么選擇將AMBA CHI用于粒呢?

    Arm 執(zhí)行副總裁兼首席架構師 Richard Grisenthwaite 曾在一篇博客中表示,Arm 正攜手生態(tài)系統(tǒng)的合作伙伴就粒的標準化展開協(xié)作,從而推動該市場的蓬勃發(fā)展。
    的頭像 發(fā)表于 04-08 10:43 ?927次閱讀
    為什么選擇將AMBA CHI用于<b class='flag-5'>芯</b>粒呢?

    上交所終止昆侖聯(lián)通主板上市審核

    近日,上海證券交易所公開的信息顯示,北京昆侖聯(lián)通科技發(fā)展股份有限公司(以下簡稱“昆侖聯(lián)通”)及其保薦機構東方證券已經(jīng)撤回了發(fā)行上市申請。基于這一決定,上海證券交易所終止了對昆侖聯(lián)通發(fā)行上市的審核。
    的頭像 發(fā)表于 03-11 14:59 ?672次閱讀

    昆侖聯(lián)通終止上交所主板IPO

    上海證券交易所(上交所)近日宣布,已終止對北京昆侖聯(lián)通科技發(fā)展股份有限公司(以下簡稱“昆侖聯(lián)通”)首次公開發(fā)行股票并在主板上市的審核。這一決定意味著昆侖聯(lián)通的上市計劃暫時受挫。
    的頭像 發(fā)表于 03-05 13:55 ?665次閱讀

    昆侖聯(lián)通主板IPO撤單

    北京昆侖聯(lián)通科技發(fā)展股份有限公司(以下簡稱“昆侖聯(lián)通”),一家專業(yè)的IT基礎架構解決方案提供商,近日因其及保薦人主動撤回發(fā)行上市申請,上海證券交易所(上交所)決定終止其發(fā)行上市審核。
    的頭像 發(fā)表于 03-04 17:05 ?849次閱讀

    昆侖聯(lián)通IPO申請被終止

    北京昆侖聯(lián)通科技發(fā)展股份有限公司(簡稱“昆侖聯(lián)通”)的IPO申請已被終止,這是因為公司及其保薦人撤回了發(fā)行上市申請。
    的頭像 發(fā)表于 03-04 09:33 ?561次閱讀

    邁來資深現(xiàn)場應用工程王銳獲得“優(yōu)秀中國講師”稱號

    在中電網(wǎng)主辦的“中國講師評選-暨2023中電網(wǎng)《在線座談》優(yōu)秀演講人網(wǎng)絡評選”活動中,邁來資深現(xiàn)場應用工程王銳,憑借其精湛的專業(yè)知識和出色的演講技巧,成功獲得了“優(yōu)秀中國
    的頭像 發(fā)表于 03-01 13:39 ?439次閱讀

    荷蘭AI芯片設計公司Axelera計劃推出新型汽車AI架構

    荷蘭邊緣人工智能(AI)芯片設計領域的領軍企業(yè)Axelera AI Solutions正在積極開發(fā)一款新型的汽車粒(chiplet)內存計算AI
    的頭像 發(fā)表于 01-18 18:24 ?1854次閱讀