0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用CUTLASS實(shí)現(xiàn)高性能矩陣乘法

星星科技指導(dǎo)員 ? 來(lái)源:NVIDIA ? 作者:Matthew Nicely ? 2022-04-15 10:03 ? 次閱讀

CUTLASS 是 CUDA C ++模板抽象的集合,用于在 CUDA 的所有級(jí)別和規(guī)模上實(shí)現(xiàn)高性能矩陣乘法( GEMM )。它結(jié)合了分層分解和數(shù)據(jù)移動(dòng)的策略,類似于用于實(shí)現(xiàn)cuBLAS的策略。

CUTLASS 將這些“運(yùn)動(dòng)部件”分解為 C ++模板類抽象的可重用和模塊化的軟件組件。這些線程范圍、扭曲范圍、塊范圍和設(shè)備范圍的原語(yǔ)可以通過(guò)自定義平鋪大小、數(shù)據(jù)類型和其他算法策略進(jìn)行專門(mén)化和調(diào)優(yōu)。由此產(chǎn)生的靈活性簡(jiǎn)化了它們?cè)诙ㄖ苾?nèi)核和應(yīng)用程序中作為構(gòu)建塊的使用。

為了支持多種應(yīng)用程序, CUTLASS 為混合精度計(jì)算提供了廣泛的支持,提供了專門(mén)的數(shù)據(jù)移動(dòng),并為以下各項(xiàng)提供了多重累積抽象:

半精度浮點(diǎn)(FP16)、 BFloat16 (BF16)和張量浮點(diǎn) 32 (TF32)數(shù)據(jù)類型。

單精度浮點(diǎn)(FP32)數(shù)據(jù)類型。

雙精度浮點(diǎn)(FP64)數(shù)據(jù)類型。

整數(shù)數(shù)據(jù)類型(4b和8b)。

二進(jìn)制數(shù)據(jù)類型(1b)。

此外, CUTLASS 演示了針對(duì) NVIDIA Volta 、 Turing 和 Ampere 體系結(jié)構(gòu)上實(shí)現(xiàn)的可編程高通Tensor 核的扭曲同步矩陣乘法操作。

CUTLASS 實(shí)現(xiàn)了高性能卷積(隱式 GEMM )。隱式 GEMM 是作為 GEMM 的卷積運(yùn)算的公式。這允許 Cutslass 通過(guò)重用高度優(yōu)化的 warp-wide GEMM 組件和以下組件來(lái)構(gòu)建卷積。

關(guān)于作者

Matthew Nicely 于 2019 年 3 月加入 NVIDIA ,之前曾在美國(guó) AL-Huntsville 的美國(guó)陸軍航空和導(dǎo)彈研究開(kāi)發(fā)與工程中心工作。在那里,他專注于 CUDA 算法開(kāi)發(fā)和 Jetson 系列的優(yōu)化。在 NVIDIA ,他曾在聯(lián)邦部門(mén)工作,協(xié)助 CUDA 的開(kāi)發(fā)和優(yōu)化,以及在各種 NVIDIA 工具集上為客戶提供教育和概念驗(yàn)證,最近轉(zhuǎn)為 math libraries 產(chǎn)品經(jīng)理。 2019 年,他獲得了博士學(xué)位。計(jì)算機(jī)工程學(xué)位,專注于 GPU 的算法優(yōu)化。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5019

    瀏覽量

    103250
  • CUDA
    +關(guān)注

    關(guān)注

    0

    文章

    121

    瀏覽量

    13642
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    鴻蒙原生頁(yè)面高性能解決方案上線OpenHarmony社區(qū) 助力打造高性能原生應(yīng)用

    隨著HarmonyOS NEXT的正式推出,鴻蒙原生應(yīng)用開(kāi)發(fā)熱度高漲,數(shù)量激增。但在三方應(yīng)用鴻蒙化進(jìn)程中,性能問(wèn)題頻出。為此,HarmonyOS NEXT推出了一整套原生頁(yè)面高性能解決方案,包括
    發(fā)表于 01-02 18:00

    賽昉聯(lián)合國(guó)芯推出高性能AI MCU芯片,實(shí)現(xiàn)RISC-V+AI新應(yīng)用

    近日,賽昉科技與蘇州國(guó)芯科技有限公司(以下簡(jiǎn)稱“國(guó)芯科技”)合作研發(fā)的高性能AIMCU芯片產(chǎn)品CCR7002已成功通過(guò)了內(nèi)部性能和功能測(cè)試,實(shí)現(xiàn)了RISC-V+AI技術(shù)的新應(yīng)用。賽昉科技將與國(guó)芯
    的頭像 發(fā)表于 11-27 11:46 ?438次閱讀
    賽昉聯(lián)合國(guó)芯推出<b class='flag-5'>高性能</b>AI MCU芯片,<b class='flag-5'>實(shí)現(xiàn)</b>RISC-V+AI新應(yīng)用

    XD08M3232紅外感應(yīng)單片機(jī)擁有哪些配置實(shí)現(xiàn)高性能處理能力

    的應(yīng)用,自帶恒流驅(qū)動(dòng)電路可以避免光衰等問(wèn)題,確保輸入信號(hào)的穩(wěn)定性。穩(wěn)定的輸入信號(hào)有助于后續(xù)的信號(hào)處理,減少因信號(hào)波動(dòng)而帶來(lái)的額外處理負(fù)擔(dān),使得單片機(jī)可以更高效地對(duì)數(shù)據(jù)進(jìn)行處理,從而有助于實(shí)現(xiàn)高性能的處理能力
    發(fā)表于 11-23 15:08

    精密脈沖焊接技術(shù)的革新:探究高性能精密脈沖焊接電源的應(yīng)用與實(shí)現(xiàn)

    隨著科技的發(fā)展和制造業(yè)對(duì)高品質(zhì)、高精度焊接需求的增長(zhǎng),精密脈沖焊接技術(shù)在工業(yè)生產(chǎn)中的地位愈發(fā)重要。本文將深入探討高性能精密脈沖焊接電源的應(yīng)用及其在實(shí)際工程中的實(shí)現(xiàn)路徑。 一、引言 精密
    的頭像 發(fā)表于 11-16 09:27 ?552次閱讀

    AI高性能計(jì)算平臺(tái)是什么

    AI高性能計(jì)算平臺(tái)不僅是AI技術(shù)發(fā)展的基石,更是推動(dòng)AI應(yīng)用落地、加速產(chǎn)業(yè)升級(jí)的重要工具。以下,是對(duì)AI高性能計(jì)算平臺(tái)的介紹,由AI部落小編為您整理分享。
    的頭像 發(fā)表于 11-11 09:56 ?224次閱讀

    XD08M3232紅外感應(yīng)單片機(jī)擁有哪些配置實(shí)現(xiàn)高性能處理能力

    關(guān)于XD08M3232單片機(jī)采用哪些配置實(shí)現(xiàn)高性能處理能力并沒(méi)有直接搜索結(jié)果提及。如下: 一、內(nèi)核方面 增強(qiáng)型1T8051內(nèi)核**** :XD08M3232是一款8位高性能Flash的接近感應(yīng)單片機(jī)
    發(fā)表于 11-07 14:04

    Wolfspeed碳化硅助力實(shí)現(xiàn)高性能功率系統(tǒng)

    Wolfspeed碳化硅助力實(shí)現(xiàn)高性能功率系統(tǒng)
    發(fā)表于 10-24 10:51 ?0次下載

    請(qǐng)問(wèn)如何用VCA810實(shí)現(xiàn)模擬乘法器?

    我在《德州儀器高性能單片機(jī)和模擬器件在高校中的應(yīng)用和選型指南》中看見(jiàn),書(shū)中說(shuō)VCA810可以做為模擬乘法器使用,但是應(yīng)用手冊(cè)里的公式卻不是V0=VC*Vin,而是一個(gè)帶指數(shù)向的公式,所以我很好
    發(fā)表于 09-23 07:11

    克服設(shè)計(jì)難題-實(shí)現(xiàn)高性能接口

    電子發(fā)燒友網(wǎng)站提供《克服設(shè)計(jì)難題-實(shí)現(xiàn)高性能接口.pdf》資料免費(fèi)下載
    發(fā)表于 08-28 09:41 ?0次下載
    克服設(shè)計(jì)難題-<b class='flag-5'>實(shí)現(xiàn)</b><b class='flag-5'>高性能</b>接口

    帶你了解什么是高性能計(jì)算(HPC)

    受益于HPC更高的速度處理大量數(shù)據(jù)的能力,全球正在進(jìn)入HPC大周期,高性能計(jì)算的發(fā)展水平已經(jīng)成為衡量一個(gè)國(guó)家綜合實(shí)力和高科技發(fā)展水平的重要標(biāo)志,美國(guó)、歐盟、日本、英國(guó)都高度重視高性能計(jì)算的發(fā)展,并在
    的頭像 發(fā)表于 07-20 08:28 ?617次閱讀
    帶你了解什么是<b class='flag-5'>高性能</b>計(jì)算(HPC)

    高性能計(jì)算集群的能耗優(yōu)化

    高性能計(jì)算(HighPerformanceComputing,HPC)是指利用大規(guī)模并行計(jì)算機(jī)集群來(lái)解決復(fù)雜的科學(xué)和工程問(wèn)題的技術(shù)。高性能計(jì)算集群的應(yīng)用領(lǐng)域非常廣泛,包括天氣預(yù)報(bào)、生物信息學(xué)
    的頭像 發(fā)表于 05-25 08:27 ?453次閱讀
    <b class='flag-5'>高性能</b>計(jì)算集群的能耗優(yōu)化

    構(gòu)建高性能計(jì)算芯片

    計(jì)算的異構(gòu)多核架構(gòu),對(duì)整個(gè)芯片行業(yè)的高性能 CPU 開(kāi)發(fā)產(chǎn)生了影響。 這些芯片都不太可能進(jìn)行商業(yè)銷售。它們針對(duì)特定的數(shù)據(jù)類型和工作負(fù)載進(jìn)行了優(yōu)化,設(shè)計(jì)預(yù)算龐大,但可以通過(guò)提高性能和降低功耗來(lái)實(shí)現(xiàn)合理化。目標(biāo)是在更小的面積上容納更
    的頭像 發(fā)表于 04-25 10:23 ?1338次閱讀
    構(gòu)建<b class='flag-5'>高性能</b>計(jì)算芯片

    大電流、高性能LED矩陣驅(qū)動(dòng)器LP5866T數(shù)據(jù)表

    電子發(fā)燒友網(wǎng)站提供《大電流、高性能LED矩陣驅(qū)動(dòng)器LP5866T數(shù)據(jù)表.pdf》資料免費(fèi)下載
    發(fā)表于 03-22 16:11 ?0次下載
    大電流、<b class='flag-5'>高性能</b>LED<b class='flag-5'>矩陣</b>驅(qū)動(dòng)器LP5866T數(shù)據(jù)表

    NVMe Host Controller IP實(shí)現(xiàn)高性能存儲(chǔ)解決方案

    電子發(fā)燒友網(wǎng)站提供《NVMe Host Controller IP實(shí)現(xiàn)高性能存儲(chǔ)解決方案.pdf》資料免費(fèi)下載
    發(fā)表于 02-21 14:28 ?2次下載

    了解無(wú)縫高清矩陣切換器的核心優(yōu)勢(shì)與性能

    無(wú)縫高清矩陣切換器的核心優(yōu)勢(shì)與性能主要體現(xiàn)在以下幾個(gè)方面: 高清視頻傳輸:無(wú)縫高清矩陣切換器能夠支持高清視頻信號(hào)的傳輸,包括1080p、4K等分辨率,滿足現(xiàn)代視頻應(yīng)用對(duì)高清晰度的需求。 無(wú)縫切換
    的頭像 發(fā)表于 01-24 14:34 ?497次閱讀