0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA cuSPARSELt v0.2.0提高激活函數(shù)

星星科技指導員 ? 來源:NVIDIA ? 作者:Matthew Nicely ? 2022-04-15 10:08 ? 次閱讀

英偉達推出 cuSPARSELt,版本0 .2.0 ,它提高了激活函數(shù)、偏差向量和批處理稀疏 GEMM 的性能。

NVIDIA CUSPASSELT 是一個高性能 CUDA 庫,專用于一般矩陣運算,其中至少有一個操作數(shù)是稀疏矩陣:

D=\alpha op(A)*op(B)+\beta op(C)

在這個等式中, OP(A) 和 OP(B) 指的是原位操作,例如轉(zhuǎn)置和非轉(zhuǎn)置。

cuSPARSELt API算法/操作選擇、尾聲和矩陣特性(包括內(nèi)存布局、對齊和數(shù)據(jù)類型)方面提供了靈活性。

主要特征

NVIDIA Sparse MMA 張量核支持

混合精度計算支持:

FP16 I / O 、 FP32 張量核累加。

BFLOAT16 I / O , FP32 張量核累積。

INT8 I / O , INT32 張量核計算。

FP32 I / O , TF32 張量核心計算。

TF32 I / O , TF32 張量核心計算。

矩陣修剪和壓縮功能

自動調(diào)諧功能

關于作者

Matthew Nicely 于 2019 年 3 月加入 NVIDIA ,之前曾在美國 AL-Huntsville 的美國陸軍航空和導彈研究開發(fā)與工程中心工作。在那里,他專注于 CUDA 算法開發(fā)和 Jetson 系列的優(yōu)化。在 NVIDIA ,他曾在聯(lián)邦部門工作,協(xié)助 CUDA 的開發(fā)和優(yōu)化,以及在各種 NVIDIA 工具集上為客戶提供教育和概念驗證,最近轉(zhuǎn)為 math libraries 產(chǎn)品經(jīng)理。 2019 年,他獲得了博士學位。計算機工程學位,專注于 GPU 的算法優(yōu)化。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5063

    瀏覽量

    103440
收藏 人收藏

    評論

    相關推薦

    NVIDIA DRIVE Hyperion平臺通過汽車功能安全和網(wǎng)絡安全認證

    NVIDIA 宣布自動駕駛汽車平臺NVIDIA DRIVE AGX Hyperion已通過兩家業(yè)內(nèi)權(quán)威的汽車功能安全和網(wǎng)絡安全認證評估機構(gòu)——TüV SüD 和 TüV Rheinla
    的頭像 發(fā)表于 01-08 10:43 ?141次閱讀

    初創(chuàng)公司借助NVIDIA Metropolis和Jetson提高生產(chǎn)線效率

    初創(chuàng)公司使用 NVIDIA Metropolis 視覺 AI 和 Jetson 邊緣 AI 平臺提高生產(chǎn)線效率。
    的頭像 發(fā)表于 11-19 14:39 ?228次閱讀

    NVIDIA Parabricks v4.3.1版本的新功能

    NVIDIA Parabricks 擴大了 NVIDIA 利用深度學習解決基因組學挑戰(zhàn)的范圍,持續(xù)推動基因組學儀器的發(fā)展。NVIDIA Parabricks v4.3.1 在歐洲人類遺
    的頭像 發(fā)表于 09-10 10:22 ?416次閱讀
    <b class='flag-5'>NVIDIA</b> Parabricks <b class='flag-5'>v</b>4.3.1版本的新功能

    神經(jīng)元模型激活函數(shù)通常有哪幾類

    神經(jīng)元模型激活函數(shù)是神經(jīng)網(wǎng)絡中的關鍵組成部分,它們負責在神經(jīng)元之間引入非線性,使得神經(jīng)網(wǎng)絡能夠?qū)W習和模擬復雜的函數(shù)映射。以下是對神經(jīng)元模型激活函數(shù)
    的頭像 發(fā)表于 07-11 11:33 ?1118次閱讀

    前饋神經(jīng)網(wǎng)絡的基本結(jié)構(gòu)和常見激活函數(shù)

    激活函數(shù)的非線性變換,能夠?qū)W習和模擬復雜的函數(shù)映射,從而解決各種監(jiān)督學習任務。本文將詳細闡述前饋神經(jīng)網(wǎng)絡的基本結(jié)構(gòu),包括其組成層、權(quán)重和偏置、激活
    的頭像 發(fā)表于 07-09 10:31 ?1012次閱讀

    集特麒麟系列激活流程

    本文適用于麒麟V10sp系列桌面和服務器系統(tǒng),文章中使用的服務序列號、二維碼、激活碼都是測試和演示所用,用戶和集成商需要根據(jù)自己的實際授權(quán)去激活系統(tǒng)。 掃碼激活前提條件:
    的頭像 發(fā)表于 07-04 11:48 ?3678次閱讀
    集特麒麟系列<b class='flag-5'>激活</b>流程

    BP神經(jīng)網(wǎng)絡激活函數(shù)怎么選擇

    中,激活函數(shù)起著至關重要的作用,它決定了神經(jīng)元的輸出方式,進而影響整個網(wǎng)絡的性能。 一、激活函數(shù)的作用 激活
    的頭像 發(fā)表于 07-03 10:02 ?760次閱讀

    卷積神經(jīng)網(wǎng)絡激活函數(shù)的作用

    起著至關重要的作用,它們可以增加網(wǎng)絡的非線性,提高網(wǎng)絡的表達能力,使網(wǎng)絡能夠?qū)W習到更加復雜的特征。本文將詳細介紹卷積神經(jīng)網(wǎng)絡中激活函數(shù)的作用、常見激活
    的頭像 發(fā)表于 07-03 09:18 ?1180次閱讀

    神經(jīng)網(wǎng)絡中激活函數(shù)的定義及類型

    引言 神經(jīng)網(wǎng)絡是一種模擬人腦神經(jīng)元結(jié)構(gòu)的計算模型,廣泛應用于圖像識別、自然語言處理、語音識別等領域。在神經(jīng)網(wǎng)絡中,激活函數(shù)起著至關重要的作用,它決定了神經(jīng)元的輸出值,進而影響整個網(wǎng)絡的性能。本文將
    的頭像 發(fā)表于 07-02 10:09 ?616次閱讀

    神經(jīng)網(wǎng)絡中的激活函數(shù)有哪些

    在神經(jīng)網(wǎng)絡中,激活函數(shù)是一個至關重要的組成部分,它決定了神經(jīng)元對于輸入信號的反應方式,為神經(jīng)網(wǎng)絡引入了非線性因素,使得網(wǎng)絡能夠?qū)W習和處理復雜的模式。本文將詳細介紹神經(jīng)網(wǎng)絡中常用的激活函數(shù)
    的頭像 發(fā)表于 07-01 11:52 ?625次閱讀

    PyTorch中激活函數(shù)的全面概覽

    為了更清晰地學習Pytorch中的激活函數(shù),并對比它們之間的不同,這里對最新版本的Pytorch中的激活函數(shù)進行了匯總,主要介紹激活
    的頭像 發(fā)表于 04-30 09:26 ?573次閱讀
    PyTorch中<b class='flag-5'>激活</b><b class='flag-5'>函數(shù)</b>的全面概覽

    先楫半導體HPMicro Nuttx v0.2.0正式發(fā)布!

    各位關注先楫的小伙伴們,基于Nuttx v12.4.0版本和hpm_sdk v1.4.0版本的HPMicro Nuttx v0.2.0正式發(fā)布了。
    的頭像 發(fā)表于 03-12 10:22 ?1391次閱讀

    先楫半導體HPMicro Nuttx v0.2.0 發(fā)布

    各位關注先楫的小伙伴們,基于Nuttxv12.4.0版本和hpm_sdkv1.4.0版本的HPMicroNuttxv0.2.0正式發(fā)布了。提供的主要功能對如下drivers進行了適配:基本通信外設:UART,I
    的頭像 發(fā)表于 03-12 08:16 ?662次閱讀
    先楫半導體HPMicro Nuttx <b class='flag-5'>v0.2.0</b> 發(fā)布

    LLM中的大規(guī)模激活

    篇論文主要研究了大型語言模型(LLMs)中的一個現(xiàn)象,即在模型的隱藏狀態(tài)中存在極少數(shù)激活值(activations)遠大于其他激活值的情況,這些被稱為“massive activations”。
    的頭像 發(fā)表于 03-01 11:38 ?604次閱讀
    LLM中的大規(guī)模<b class='flag-5'>激活</b>

    verilog中函數(shù)和任務對比

    在verilog中,函數(shù)和任務均用來描述共同的代碼段,并且在模式內(nèi)任意位置被調(diào)用,提高代碼效率,讓代碼更加的直觀,提高代碼可讀性。但是在實際使用的過程中,函數(shù)和任務也存在諸多的不同,下
    的頭像 發(fā)表于 02-12 18:43 ?906次閱讀