英偉達推出 cuSPARSELt,版本0 .2.0 ,它提高了激活函數(shù)、偏差向量和批處理稀疏 GEMM 的性能。
NVIDIA CUSPASSELT 是一個高性能 CUDA 庫,專用于一般矩陣運算,其中至少有一個操作數(shù)是稀疏矩陣:
在這個等式中, OP(A) 和 OP(B) 指的是原位操作,例如轉(zhuǎn)置和非轉(zhuǎn)置。
cuSPARSELt API 在算法/操作選擇、尾聲和矩陣特性(包括內(nèi)存布局、對齊和數(shù)據(jù)類型)方面提供了靈活性。
主要特征
NVIDIA Sparse MMA 張量核支持
混合精度計算支持:
FP16 I / O 、 FP32 張量核累加。
BFLOAT16 I / O , FP32 張量核累積。
INT8 I / O , INT32 張量核計算。
FP32 I / O , TF32 張量核心計算。
TF32 I / O , TF32 張量核心計算。
矩陣修剪和壓縮功能
自動調(diào)諧功能
關于作者
Matthew Nicely 于 2019 年 3 月加入 NVIDIA ,之前曾在美國 AL-Huntsville 的美國陸軍航空和導彈研究開發(fā)與工程中心工作。在那里,他專注于 CUDA 算法開發(fā)和 Jetson 系列的優(yōu)化。在 NVIDIA ,他曾在聯(lián)邦部門工作,協(xié)助 CUDA 的開發(fā)和優(yōu)化,以及在各種 NVIDIA 工具集上為客戶提供教育和概念驗證,最近轉(zhuǎn)為 math libraries 產(chǎn)品經(jīng)理。 2019 年,他獲得了博士學位。計算機工程學位,專注于 GPU 的算法優(yōu)化。
審核編輯:郭婷
-
NVIDIA
+關注
關注
14文章
5063瀏覽量
103440
發(fā)布評論請先 登錄
相關推薦
評論