0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NADP+Triton搭建穩(wěn)定高效的推理平臺(tái)

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來(lái)源:NVIDIA 郭城 ? 作者:NVIDIA 郭城 ? 2022-10-18 09:24 ? 次閱讀

業(yè)務(wù)背景

蔚來(lái)自動(dòng)駕駛研發(fā)平臺(tái)(NADP)是著力服務(wù)于自動(dòng)駕駛核心業(yè)務(wù)方向的研發(fā)平臺(tái)。平臺(tái)化的推理能力作為常規(guī)機(jī)器學(xué)習(xí)平臺(tái)的重要組成部分,也是 NADP 所重點(diǎn)建設(shè)和支持的能力之一。NADP 所支持的推理業(yè)務(wù),整體上有以下幾個(gè)特性:

10% 的業(yè)務(wù)產(chǎn)生 90% 的流量(優(yōu)化重點(diǎn)業(yè)務(wù)收益大);

追求引擎層的高性能;

要求在算法框架,量化加速維度盡可能強(qiáng)的擴(kuò)展性,為算法業(yè)務(wù)的框架選型, 與后續(xù)可能的加速方案都提供盡可能的兼容;

多個(gè)模型有業(yè)務(wù)關(guān)聯(lián),希望能夠滿足多個(gè)模型之間串行/或者并行的調(diào)度。

經(jīng)過(guò)對(duì)眾多方案的對(duì)比和篩選,NVIDIA Triton 在上述每一個(gè)方面都能滿足蔚來(lái)的需求。比如,Triton 支持多個(gè)模型或模塊進(jìn)行 DAG 式的編排。其云原生友好的部署方式,能夠很輕松的做到多 GPU、多節(jié)點(diǎn)的擴(kuò)展。從生產(chǎn)級(jí)別實(shí)踐的穩(wěn)定性角度來(lái)看,即便是一個(gè)優(yōu)秀的開(kāi)源方案,作為平臺(tái)級(jí)的核心組件,也是需要長(zhǎng)時(shí)間、高強(qiáng)度的驗(yàn)證,才能放心的推廣到最核心業(yè)務(wù)上。經(jīng)過(guò)半年的使用,Triton 證明了自己,在保證強(qiáng)大功能的前提下,也提供了很好的穩(wěn)定性。另外,NVIDIA 有著優(yōu)秀的生態(tài)建設(shè)與社區(qū)支持,提供了優(yōu)質(zhì)的 Triton 社區(qū)內(nèi)容和文檔共享,保障了 NADP 的核心推理業(yè)務(wù)遷移到 Triton 方案上,并平穩(wěn)運(yùn)行至今。

8c09e28e-4e20-11ed-a3b6-dac502259ad0.png

引入 Triton 之后的推理平臺(tái)架構(gòu)

8c47e610-4e20-11ed-a3b6-dac502259ad0.png

Triton 在設(shè)計(jì)之初,就融入了云原生的設(shè)計(jì)思路,為后面逐步圍繞 Triton 搭建完整的云原生平臺(tái)性推理解決方案提供了相當(dāng)大的便利。作為 NADP 推理平臺(tái)的核心組件,Triton 與 NADP 的各個(gè)組件形成了一套完整的推理一站式解決方案。接下來(lái),將集中在以下 4 個(gè)方面具體敘述 Triton 如何在 NADP 推理平臺(tái)中提供助力:

集成效率

高性能

易用性

高可用

01

集成效率

Triton + 模型倉(cāng)庫(kù) + Argo

Triton 與自建模型倉(cāng)庫(kù)深度結(jié)合,配合 workflow 方案 Argo,完成全自動(dòng)化的生產(chǎn)、量化、準(zhǔn)入、云端部署、壓測(cè)和上線的 CICD 流程。

具體來(lái)講:

模型上傳,模型倉(cāng)庫(kù)自動(dòng)觸發(fā)配置好的 workflow;

創(chuàng)建與部署環(huán)境硬件環(huán)境一致容器,自動(dòng)量化加速;

得益于 Triton 生態(tài)中提供的 perf analyzer,可以像使用 jMeter 一樣方便的按照模型的 Input Tensor Shape 自動(dòng)生成請(qǐng)求與指定的負(fù)載。其壓測(cè)出的服務(wù)化之后模型的最大吞吐,很接近真實(shí)部署場(chǎng)景。

Triton + Jupyter

在 Triton 鏡像中集成了 Jupyter 組件之后,提供開(kāi)箱即用的開(kāi)發(fā)調(diào)試環(huán)境,在遇到復(fù)雜問(wèn)題需要進(jìn)行線上 debug 或者再線下復(fù)現(xiàn)問(wèn)題時(shí),Jupyter 能夠提供一個(gè)方便的開(kāi)發(fā)環(huán)境供用戶進(jìn)行調(diào)試。

02

高性能

Triton + Istio

當(dāng)前 NADP 服務(wù)的業(yè)務(wù)場(chǎng)景,服務(wù)流量大,主要傳輸 cv 場(chǎng)景視頻文件+高分辨率圖片,必須使用高性能 rpc 協(xié)議進(jìn)行加速,而且推理服務(wù)引擎必須對(duì)現(xiàn)有的 L4 Load Balancer 和服務(wù)發(fā)現(xiàn)方案有比較好的支持性。

而 Triton 原生支持 gRPC 的方案進(jìn)行訪問(wèn),并且能夠很方便的部署為 k8s 容器。但因?yàn)?k8s 原生 service 不能夠很好的對(duì) gRPC 進(jìn)行請(qǐng)求級(jí)別的負(fù)載均衡(僅支持長(zhǎng)連接的負(fù)載均衡),故在引入了 isito 之后,Triton 就能夠在傳輸協(xié)議上滿足我們的需求。

具體來(lái)講:

集群內(nèi)容器直接訪問(wèn)只需要一次跨物理機(jī)網(wǎng)絡(luò)轉(zhuǎn)發(fā);

完美復(fù)用 k8s 的 readiness 狀態(tài),通過(guò)和 Triton 節(jié)點(diǎn)的 liveness/readniess 探針進(jìn)行服務(wù)的健康監(jiān)控;

后續(xù)結(jié)合模型倉(cāng)庫(kù)/配置中心提供用戶更友好的服務(wù)發(fā)現(xiàn)方式:基于域名的服務(wù)發(fā)現(xiàn)方案切換為基于模型的服務(wù)發(fā)現(xiàn)方案。

03

易用性

Triton + Apollo 配置中心

使用 Apollo 配置中心,可以極大程度提供更多的便利性。將基于域名的服務(wù)發(fā)現(xiàn)提升為基于模型名的服務(wù)發(fā)現(xiàn)。用戶將不需要了解模型所部署的具體的域名即可訪問(wèn)模型。結(jié)合模型倉(cāng)庫(kù),用戶可以直接觸發(fā)模型的部署。

具體來(lái)講:

用戶在模型倉(cāng)庫(kù)操作上線之后,將會(huì)將模型的真實(shí)域名寫(xiě)入配置中心;

用戶使用 NADP 提供的客戶端可以從配置中心獲取到服務(wù)的真實(shí)域名,并直接訪問(wèn)服務(wù);

作為下一步規(guī)劃,當(dāng)前的方案正在逐步遷移到基于開(kāi)源的 model mesh 方案的版本上。

04

高可用

Triton + k8s CRD

8ca520fa-4e20-11ed-a3b6-dac502259ad0.png

圍繞 Triton 蔚來(lái)搭建了服務(wù) NIO 推理場(chǎng)景的 K8s CRD。它是以下幾個(gè) K8s 原生 CRD 或其他自研 CRD 的組合。而這每一個(gè)組件都在一定程度上保障了服務(wù)的高可用。

自動(dòng)擴(kuò)縮容規(guī)則(HPA Rule):進(jìn)行基于流量的自動(dòng)擴(kuò)縮容,在服務(wù)流量上升時(shí)自動(dòng)擴(kuò)容;

Istio service:可靠的 side car 機(jī)制,保障 gRPC 流量的服務(wù)發(fā)現(xiàn)和負(fù)載均衡;

Ingress:多實(shí)例部署,動(dòng)態(tài)擴(kuò)容的 Ingress 節(jié)點(diǎn),保障跨集群流量的訪問(wèn);

k8s deploy:在一個(gè)推理實(shí)例內(nèi)管理至少 3 個(gè) Triton Pod,消除了服務(wù)的單點(diǎn)問(wèn)題,并且通過(guò) Triton server 加載多個(gè)模型的功能,實(shí)現(xiàn)多模型混布共享 GPU 算力,而且消除單點(diǎn)的同時(shí)不引入額外的 GPU 資源浪費(fèi);

Service Monitor:用于 prometheus 指標(biāo)的收集,隨時(shí)監(jiān)控服務(wù)狀態(tài),上報(bào)異常信息;

Service Heartbeat Probe:集成了 Triton Perf Analyzer 的 Pod。Triton 生態(tài)中的 Perf Analyzer 工具能夠根據(jù)部署的模型 meta 信息生成真實(shí)請(qǐng)求并部署為主動(dòng)請(qǐng)求探針,在沒(méi)有流量的時(shí)候監(jiān)控服務(wù)的健康狀態(tài)并主動(dòng)重啟異常實(shí)例,同時(shí)上報(bào)異常信息。

Triton + Promethus/Grafana

Triton 提供了一套完整的,基于模型維度的模型服務(wù)指標(biāo)。打點(diǎn)幾乎包括了整個(gè)服務(wù)端推理鏈路的每個(gè)關(guān)鍵節(jié)點(diǎn),甚至能夠區(qū)分執(zhí)行推理的排隊(duì)時(shí)間和計(jì)算時(shí)間,使得能夠在不需要進(jìn)入 debug 模式的情況下進(jìn)行細(xì)致的線上模型服務(wù)性能診斷和分析。另外,因?yàn)橹笜?biāo)的格式支持了云原生主流的 Promethus/Grafana, 用戶能夠非常方便的配置看板和各維度的報(bào)警, 為服務(wù)的高可用提供指標(biāo)支持。

模型的級(jí)別時(shí)延監(jiān)控

8ccf7eea-4e20-11ed-a3b6-dac502259ad0.png

模型的級(jí)別的 qps 監(jiān)控

8d38cf94-4e20-11ed-a3b6-dac502259ad0.jpg

服務(wù)業(yè)務(wù)場(chǎng)景:數(shù)據(jù)挖掘

目前,NADP 數(shù)據(jù)挖掘業(yè)務(wù)下的相關(guān)模型預(yù)測(cè)服務(wù)已經(jīng)全部遷移至 Triton Inference Server,為上百個(gè)模型提供了高吞吐預(yù)測(cè)能力。同時(shí)在某些任務(wù)基礎(chǔ)上,通過(guò)自實(shí)現(xiàn)前處理算子、前后處理服務(wù)化、BLS 串聯(lián)模型等手段,將一些模型任務(wù)合并起來(lái),極大的提升了處理效率。

服務(wù)端模型前處理

通過(guò)將服務(wù)的前后處理從客戶端移動(dòng)到服務(wù)端,不僅能夠在網(wǎng)絡(luò)傳輸上節(jié)省大量的時(shí)間,而且 GPU 服務(wù)端(Triton)可以用 Nvjpeg 進(jìn)行 GPU 解碼,并在 GPU 上做 resize、transpose 等處理。能夠大幅加速前處理,明顯減輕 client 端 CPU 計(jì)算壓力。

01

業(yè)務(wù)流程

8d7c6632-4e20-11ed-a3b6-dac502259ad0.png

8daf066e-4e20-11ed-a3b6-dac502259ad0.png

02

收益

傳壓縮圖片,而非 input tensor,只需要幾百 KB 就能將一張 2K 原圖 bytes 傳輸過(guò)去,以當(dāng)前 onemodel 2k 輸入圖片為例,模型輸入必須為 1920*1080*3*8 byte 大小,而且必須走網(wǎng)絡(luò),而在加入服務(wù)端后處理之后,在精度損失允許的范圍內(nèi),可以將原圖改為傳壓縮過(guò)的三通道 720P jpg 圖片(1280*720*3),在服務(wù)端在 resize 成 1920*1080*3*8 byte,節(jié)約大量帶寬;

服務(wù)端前處理完成后將 GPU 顯存指針直接送入模型預(yù)測(cè),還能省去 Host2Device 的拷貝;

服務(wù)端可以封裝模型的后處理,使得每次模型升級(jí)的時(shí)候,client 端不用感知到服務(wù)后處理的變化,從而不需要修改處理邏輯代碼;

使用 nvJpeg,DALI 等使用 GPU 算力的組件來(lái)進(jìn)行前后處理,加速整體的數(shù)據(jù)處理速度。

多模型 DAG 式編排

一個(gè)統(tǒng)一的前處理模型,一份輸入復(fù)制多份到多個(gè)后端識(shí)別模型,該流程在服務(wù)端單 GPU 節(jié)點(diǎn)內(nèi)完成,不需要走網(wǎng)絡(luò),在 Triton + bls/ensemble 的支持下,甚至可以節(jié)約 H2D、D2H 拷貝。

01

業(yè)務(wù)流程

8e660dbe-4e20-11ed-a3b6-dac502259ad0.png

02

收益

當(dāng)業(yè)務(wù)邏輯強(qiáng)制使用多模型 DAG 式編排多個(gè)模型之后,每次產(chǎn)生模型的輸入/輸出都可以疊加服務(wù)端前后處理改造的收益,當(dāng)前部署的 triton 服務(wù)最多使用 BLS 串聯(lián)了 9 個(gè)模型;

對(duì)于 2k 分辨率的輸入來(lái)講,每幀圖片的大小為 1920 * 1080 * 3 * 8 = 47Mb, 假設(shè)全幀率為 60fps,則每秒輸入數(shù)據(jù)量為 1920 * 1080 * 3 * 8 * 60 = 2847 Mb。如果使用 bls 串聯(lián)了 9 個(gè)模型,則每秒需要產(chǎn)生的數(shù)據(jù)傳輸量為 1920 * 1080 * 3 * 8 * 60 * 9 = 25 Gb = 3GB;

如果使用 PCIe 傳輸,假設(shè) PCIe 帶寬為 160Gb = 20GB 每秒, 則理論上每秒產(chǎn)生的數(shù)據(jù)可以節(jié)約 150ms 在數(shù)據(jù)傳輸上;

如果使用網(wǎng)絡(luò)傳輸,假設(shè)可用帶寬為 16Gb=2Gb 每秒,則理論上每秒產(chǎn)生的數(shù)據(jù)可以節(jié)約 1500ms 在數(shù)據(jù)傳輸上。

總結(jié)和展望

NIO 基于 NVIDIA Triton 搭建的推理服務(wù)平臺(tái),在數(shù)據(jù)挖掘業(yè)務(wù)場(chǎng)景下,通過(guò)上文詳細(xì)介紹的“服務(wù)器端模型前處理”和“多模型 DAG 式編排”,GPU 資源平均節(jié)省 24%;在部分核心 pipeline 上,吞吐能力提升為原來(lái)的 5 倍,整體時(shí)延降低為原來(lái)的 1/6。

另外,NIO 當(dāng)前已經(jīng)實(shí)現(xiàn)了輸入為原始視頻而非抽幀后圖片的預(yù)研版本工作流上線,但只承載了小部分流量。而主要流量還是使用 jpg 壓縮圖片作為輸入的版本。當(dāng)前只是使用本地腳本完成了數(shù)據(jù)加載和模型推理,后續(xù)會(huì)逐步地將當(dāng)前流程遷移到 Triton 的模型編排能力上。

關(guān)于作者 ——郭城

8eaac68e-4e20-11ed-a3b6-dac502259ad0.png

郭城是 NIO 自動(dòng)駕駛研發(fā)平臺(tái)(NADP)的高級(jí)工程師,負(fù)責(zé)為 NIO 自動(dòng)駕駛搭建可靠高效的推理平臺(tái)和深度學(xué)習(xí)模型 CICD 工具鏈。在加入 NIO 之前,他在小米技術(shù)委員會(huì)參與了小米集團(tuán)機(jī)器學(xué)習(xí)平臺(tái)的搭建。他個(gè)人對(duì) ML-ops、以及所有其他深度學(xué)習(xí)工程相關(guān)的主題感興趣。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5162

    瀏覽量

    105092
  • Triton
    +關(guān)注

    關(guān)注

    0

    文章

    28

    瀏覽量

    7095
  • DAG
    DAG
    +關(guān)注

    關(guān)注

    0

    文章

    17

    瀏覽量

    8239
  • 自動(dòng)駕駛
    +關(guān)注

    關(guān)注

    788

    文章

    14060

    瀏覽量

    168297
  • 云原生
    +關(guān)注

    關(guān)注

    0

    文章

    254

    瀏覽量

    8117

原文標(biāo)題:技術(shù)博客:NADP + Triton,搭建穩(wěn)定高效的推理平臺(tái)

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 0人收藏

    評(píng)論

    相關(guān)推薦

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開(kāi)源庫(kù)加速并擴(kuò)展AI推理模型

    DeepSeek-R1 上的吞吐量提高了 30 倍 NVIDIA 發(fā)布了開(kāi)源推理軟件 NVIDIA Dynamo,旨在以高效率、低成本加速并擴(kuò)展 AI 工廠中的 AI 推理模型。 作為 NVIDIA
    的頭像 發(fā)表于 03-20 15:03 ?437次閱讀

    使用NVIDIA推理平臺(tái)提高AI推理性能

    NVIDIA推理平臺(tái)提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬(wàn)美元。
    的頭像 發(fā)表于 02-08 09:59 ?449次閱讀
    使用NVIDIA<b class='flag-5'>推理</b><b class='flag-5'>平臺(tái)</b>提高AI<b class='flag-5'>推理</b>性能

    新品| LLM630 Compute Kit,AI 大語(yǔ)言模型推理開(kāi)發(fā)平臺(tái)

    LLM630LLM推理,視覺(jué)識(shí)別,可開(kāi)發(fā),靈活擴(kuò)展···LLM630ComputeKit是一款A(yù)I大語(yǔ)言模型推理開(kāi)發(fā)平臺(tái),專為邊緣計(jì)算和智能交互應(yīng)用而設(shè)計(jì)。該套件的主板搭載愛(ài)芯AX630CSoC
    的頭像 發(fā)表于 01-17 18:48 ?417次閱讀
    新品| LLM630 Compute Kit,AI 大語(yǔ)言模型<b class='flag-5'>推理</b>開(kāi)發(fā)<b class='flag-5'>平臺(tái)</b>

    搭建家庭云平臺(tái)電腦,搭建家庭云平臺(tái)電腦的操作方法

    在數(shù)字化浪潮的洶涌沖擊下,傳統(tǒng)電腦逐漸顯露出局限性,而云電腦猶如一顆璀璨的新星,在信息技術(shù)的天空中冉冉升起,以其獨(dú)特的魅力吸引著眾多目光。今天就為大家介紹搭建家庭云平臺(tái)電腦的操作方法。 ? ?搭建
    的頭像 發(fā)表于 01-13 14:26 ?492次閱讀
    <b class='flag-5'>搭建</b>家庭云<b class='flag-5'>平臺(tái)</b>電腦,<b class='flag-5'>搭建</b>家庭云<b class='flag-5'>平臺(tái)</b>電腦的操作方法

    Triton編譯器與GPU編程的結(jié)合應(yīng)用

    Triton編譯器簡(jiǎn)介 Triton編譯器是一種針對(duì)并行計(jì)算優(yōu)化的編譯器,它能夠自動(dòng)將高級(jí)語(yǔ)言代碼轉(zhuǎn)換為針對(duì)特定硬件優(yōu)化的低級(jí)代碼。Triton編譯器的核心優(yōu)勢(shì)在于其能夠識(shí)別并行模式,自動(dòng)進(jìn)行代碼
    的頭像 發(fā)表于 12-25 09:13 ?568次閱讀

    Triton編譯器如何提升編程效率

    開(kāi)發(fā)者能夠更快地開(kāi)發(fā)出更高效的軟件。 1. 代碼優(yōu)化 1.1 編譯時(shí)優(yōu)化 Triton 編譯器在編譯時(shí)進(jìn)行了大量的代碼優(yōu)化。這些優(yōu)化包括但不限于: 指令選擇 :Triton 編譯器能夠根據(jù)目標(biāo)硬件的特性選擇最合適的指令集,從而提
    的頭像 發(fā)表于 12-25 09:12 ?542次閱讀

    Triton編譯器在高性能計(jì)算中的應(yīng)用

    先進(jìn)的編譯技術(shù),為高性能計(jì)算提供了強(qiáng)大的支持。 Triton編譯器簡(jiǎn)介 Triton編譯器是一種開(kāi)源的編譯器框架,旨在為異構(gòu)計(jì)算環(huán)境提供高效的編譯支持。它通過(guò)優(yōu)化代碼生成、內(nèi)存管理和并行執(zhí)行等方面,顯著提高了程序在異構(gòu)硬件上的性
    的頭像 發(fā)表于 12-25 09:11 ?654次閱讀

    Triton編譯器的優(yōu)化技巧

    在現(xiàn)代計(jì)算環(huán)境中,編譯器的性能對(duì)于軟件的運(yùn)行效率至關(guān)重要。Triton 編譯器作為一個(gè)先進(jìn)的編譯器框架,提供了一系列的優(yōu)化技術(shù),以確保生成的代碼既高效又適應(yīng)不同的硬件架構(gòu)。 1. 指令選擇
    的頭像 發(fā)表于 12-25 09:09 ?569次閱讀

    Triton編譯器的優(yōu)勢(shì)與劣勢(shì)分析

    Triton編譯器作為一種新興的深度學(xué)習(xí)編譯器,具有一系列顯著的優(yōu)勢(shì),同時(shí)也存在一些潛在的劣勢(shì)。以下是對(duì)Triton編譯器優(yōu)勢(shì)與劣勢(shì)的分析: 優(yōu)勢(shì) 高效性能優(yōu)化 : Triton編譯器
    的頭像 發(fā)表于 12-25 09:07 ?775次閱讀

    Triton編譯器在機(jī)器學(xué)習(xí)中的應(yīng)用

    1. Triton編譯器概述 Triton編譯器是NVIDIA Triton推理服務(wù)平臺(tái)的一部分,它負(fù)責(zé)將深度學(xué)習(xí)模型轉(zhuǎn)換為優(yōu)化的格式,以便
    的頭像 發(fā)表于 12-24 18:13 ?717次閱讀

    Triton編譯器支持的編程語(yǔ)言

    Triton編譯器支持的編程語(yǔ)言主要包括以下幾種: 一、主要編程語(yǔ)言 Python :Triton編譯器通過(guò)Python接口提供了對(duì)Triton語(yǔ)言和編譯器的訪問(wèn),使得用戶可以在Python環(huán)境中
    的頭像 發(fā)表于 12-24 17:33 ?720次閱讀

    Triton編譯器與其他編譯器的比較

    的GPU編程框架,使開(kāi)發(fā)者能夠編寫(xiě)出接近手工優(yōu)化的高性能GPU內(nèi)核。 其他編譯器 (如GCC、Clang、MSVC等): 定位:通用編譯器,支持多種編程語(yǔ)言,廣泛應(yīng)用于各種軟件開(kāi)發(fā)場(chǎng)景。 目標(biāo):提供穩(wěn)定、高效的編譯服務(wù),優(yōu)化代碼性能,支持跨
    的頭像 發(fā)表于 12-24 17:25 ?720次閱讀

    Triton編譯器功能介紹 Triton編譯器使用教程

    Triton 是一個(gè)開(kāi)源的編譯器前端,它支持多種編程語(yǔ)言,包括 C、C++、Fortran 和 Ada。Triton 旨在提供一個(gè)可擴(kuò)展和可定制的編譯器框架,允許開(kāi)發(fā)者添加新的編程語(yǔ)言特性和優(yōu)化技術(shù)
    的頭像 發(fā)表于 12-24 17:23 ?1194次閱讀

    企業(yè)云服務(wù)器平臺(tái)設(shè)計(jì)與搭建

    企業(yè)云服務(wù)器平臺(tái)的設(shè)計(jì)與搭建是一個(gè)復(fù)雜但系統(tǒng)的過(guò)程,涉及多個(gè)環(huán)節(jié)和因素。主機(jī)推薦小編為您整理發(fā)布企業(yè)云服務(wù)器平臺(tái)設(shè)計(jì)與搭建這一過(guò)程的詳細(xì)闡述。
    的頭像 發(fā)表于 12-04 09:51 ?291次閱讀

    高效大模型的推理綜述

    大模型由于其在各種任務(wù)中的出色表現(xiàn)而引起了廣泛的關(guān)注。然而,大模型推理的大量計(jì)算和內(nèi)存需求對(duì)其在資源受限場(chǎng)景的部署提出了挑戰(zhàn)。業(yè)內(nèi)一直在努力開(kāi)發(fā)旨在提高大模型推理效率的技術(shù)。本文對(duì)現(xiàn)有的關(guān)于高效
    的頭像 發(fā)表于 11-15 11:45 ?1064次閱讀
    <b class='flag-5'>高效</b>大模型的<b class='flag-5'>推理</b>綜述

    電子發(fā)燒友

    中國(guó)電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品