不卡国产视频第一页,便利店店长的教育1

據(jù)Global Market Insights 數(shù)據(jù)，全球 GPU 市場預(yù)計將以 CAGR 25.9%持續(xù)增長，至 2030 年達到 4000 億美元規(guī)模。其中 AI 領(lǐng)域大語言模型的持續(xù)推出以及參數(shù)量的不斷增長有望驅(qū)動模型訓(xùn)練端、推理端 GPU 需求快速增長。

近年來，國產(chǎn) GPU 廠商在圖形渲染 GPU 和高性能計算 GPGPU 領(lǐng)域上均推出了較為成熟的產(chǎn)品，在性能上不斷追趕行業(yè)主流產(chǎn)品，在特定領(lǐng)域達到業(yè)界一流水平。生態(tài)方面國產(chǎn)廠商大多兼容英偉達 CUDA，融入大生態(tài)進而實現(xiàn)客戶端不斷導(dǎo)入。在高端GPU 芯片進口受限的背景下，國產(chǎn) GPU 廠商預(yù)計將乘政策東風(fēng)，抓住國產(chǎn)替代契機快速成長。

GPU（圖形處理器）最初是為了解決 CPU 在圖形處理領(lǐng)域性能不足的問題而誕生。CPU 作為核心控制計算單元，高速緩沖存儲器（Cache）、控制單元（Control）在 CPU 硬件架構(gòu)設(shè)計中所占比例較大，主要為實現(xiàn)低延遲和處理單位內(nèi)核性能要求較高的工作而存在，而計算單元（ALU）所占比例較小，這使得 CPU 的大規(guī)模并行計算表現(xiàn)不佳。GPU 架構(gòu)內(nèi)主要為計算單元，采用極簡的流水線進行設(shè)計，適合處理高度線程化、相對簡單的并行計算，在圖像渲染等涉及大量重復(fù)運算的領(lǐng)域擁有更強運算能力。 GPGPU脫胎于GPU，通用性提升

CPU+GPU 異構(gòu)計算解決多元化計算需求

大語言模型開啟 AI 元年

常見的AI 加速芯片主要為GPU、FPGA 和 ASIC

大語言模型有望拉動 GPU 需求增量

GPU 的微架構(gòu)是用以實現(xiàn)指令執(zhí)行的硬件電路結(jié)構(gòu)設(shè)計以 Nvidia 第一個實現(xiàn)統(tǒng)一著色器模型的 Tesla 微架構(gòu)為例，從頂層 Host Interface 接受來自 CPU 的數(shù)據(jù)，藉由 Vertex（頂點）、Pixel（片元）、Compute（計算著色器）分發(fā)給各 TPC（Texture Processing Clusters 紋理處理集群）進行處理。

流處理器、特殊函數(shù)計算單元構(gòu)成計算核心在單個 TPC 中主要的運算結(jié)構(gòu)為SM（Streaming Multiprocessor 流式多處理器），其內(nèi)在蘊含 I Cache（指令緩存）、C Cache（常量緩存）以及核心的計算單元 SP（Streaming Processor 流處理器）和 SFU（Special Function Unit 特殊函數(shù)計算單元），外加 Texture Unit（紋理單元）。

解耦計算單元，擁抱通用計算由于圖形渲染流管線相對固定，Nvidia 在 Tesla構(gòu)中將部分重要環(huán)節(jié)剝離并實現(xiàn)可編程，解耦出 SM 計算單元用于通用計算，即可實現(xiàn)根據(jù)具體任務(wù)需要分配相應(yīng)線程實現(xiàn)通用計算處理。

計算核心、紋理單元增加， GPC 功能更加完整，Nvidia Fermi 架構(gòu)奠定完整GPU 計算架構(gòu)基礎(chǔ)。

在Tesla 之后，Nvidia 第一個完整的 GPU 計算架構(gòu) Fermi通過制程微縮增加更多計算核心、紋理單元，并且通過增加 PolyMorph Engine（多形體引擎）和 Raster Engine（光柵引擎）使得原來 TPC 升級成為擁有更加完整功能的 GPC（Graphics Processing Clusters 圖形處理器集群）。Fermi 架構(gòu)共包含 4 個 GPC，16 個 SM，512 個CUDA Core。

英偉達GPU從最初 Fermi 架構(gòu)到最新的 Ampere 架構(gòu)和 Hopper 架構(gòu)

每一階段都在性能和能效比方面得到提升，引入了新技術(shù)，如 CUDA、GPUBoost、RT 核心和 Tensor 核心等，在圖形渲染、科學(xué)計算和深度學(xué)習(xí)等領(lǐng)域發(fā)揮重要作用。最新一代 Hopper 架構(gòu)在 2022 年 3 月推出，旨在加速 AI 模型訓(xùn)練，使用 Hopper Tensor Core 進行 FP8 和 FP16 的混合精度計算，以大幅加速Transformer 模型的 AI 計算。與上一代相比，Hopper 還將 TF32、FP64、FP16 和INT8 精度的每秒浮點運算(FLOPS)提高了 3 倍。

AMD 作為全球第二大GPU廠商，亦通過持續(xù)的架構(gòu)演進保持其市場領(lǐng)先地位

從2010年以來，AMD 相繼推出：GCN 架構(gòu)、RDNA 架構(gòu)、RDNA 2 架構(gòu)、RDNA 3 架構(gòu)、CDNA 架構(gòu)和 CDNA 2 架構(gòu)。最新一代面向高性能計算和人工智能 CDNA 2 架構(gòu)于架構(gòu)采用增強型 Matrix Core 技術(shù)，支持更廣泛的數(shù)據(jù)型和應(yīng)用，針對高性能計算工作負載帶來全速率雙精度和全新 FP64 矩陣運算。基于 CDNA2 架構(gòu)的 AMD Instinct MI250X GPU FP64 雙精度運算算力最高可達 95.7 TFLOPs。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

gpu

gpu

+關(guān)注

關(guān)注
28

文章
4742

瀏覽量
128973
微架構(gòu)

微架構(gòu)

+關(guān)注

關(guān)注
0

文章
22

瀏覽量
7045

原文標(biāo)題：GPU競爭壁壘：微架構(gòu)和平臺生態(tài)

文章出處：【微信號：架構(gòu)師技術(shù)聯(lián)盟，微信公眾號：架構(gòu)師技術(shù)聯(lián)盟】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

《算力芯片高性能 CPUGPUNPU 微架構(gòu)分析》第3篇閱讀心得：GPU革命：從圖形引擎到AI加速器的蛻變

在數(shù)據(jù)挖掘工作中，我經(jīng)常需要處理海量數(shù)據(jù)的深度學(xué)習(xí)任務(wù)，這讓我對GPU架構(gòu)和張量運算充滿好奇。閱讀《算力芯片》第7-9章，讓我對這些關(guān)鍵技術(shù)有了全新認(rèn)識。 GPU架構(gòu)從早期的固定功能流

發(fā)表于 11-24 17:12

GPU服務(wù)器AI網(wǎng)絡(luò)架構(gòu)設(shè)計

眾所周知，在大型模型訓(xùn)練中，通常采用每臺服務(wù)器配備多個GPU的集群架構(gòu)。在上一篇文章《高性能GPU服務(wù)器AI網(wǎng)絡(luò)架構(gòu)（上篇）》中，我們對GPU

發(fā)表于 11-05 16:20 ?372次閱讀

【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗】--了解算力芯片GPU

本篇閱讀學(xué)習(xí)第七、八章，了解GPU架構(gòu)演進及CPGPU存儲體系與線程管理 █從圖形到計算的GPU架構(gòu)演進 GPU圖像計算發(fā)展 ●從三角形開始

發(fā)表于 11-03 12:55

GPU加速計算平臺是什么

GPU加速計算平臺，簡而言之，是利用圖形處理器（GPU）的強大并行計算能力來加速科學(xué)計算、數(shù)據(jù)分析、機器學(xué)習(xí)等復(fù)雜計算任務(wù)的軟硬件結(jié)合系統(tǒng)。

發(fā)表于 10-25 09:23 ?253次閱讀

GPU算力租用平臺是什么

GPU算力租用平臺是一種基于云計算的服務(wù)模式，它允許用戶通過互聯(lián)網(wǎng)按需租用高性能GPU資源，而無需自行購買、部署和維護這些硬件。

發(fā)表于 10-16 10:15 ?237次閱讀

【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗】--全書概覽

、GPU、NPU,給我們剖析了算力芯片的微架構(gòu)。書中有對芯片方案商處理器的講解，理論聯(lián)系實際，使讀者能更好理解算力芯片。全書共11章，由淺入深，較系統(tǒng)全面進行講解。下面目錄對全書內(nèi)容有一個整體了解

發(fā)表于 10-15 22:08

【「大模型時代的基礎(chǔ)架構(gòu)」閱讀體驗】+ 未知領(lǐng)域的感受

算法的引擎GPU、GPU硬件架構(gòu)剖析、GPU服務(wù)器的設(shè)計與實現(xiàn)、GPU集群的網(wǎng)絡(luò)設(shè)計與實現(xiàn)、GPU

發(fā)表于 10-08 10:40

名單公布！【書籍評測活動NO.43】算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析

，即大模型專用AI超級計算機的中樞核心。作者介紹：濮元愷，曾就職于中關(guān)村在線核心硬件事業(yè)部，負責(zé)CPU和GPU類產(chǎn)品評測，長期關(guān)注GPGPU并行計算相關(guān)芯片微架構(gòu)。目前在量化金融領(lǐng)域，主要負表

發(fā)表于 09-02 10:09

ALINX FPGA+GPU異架構(gòu)視頻圖像處理開發(fā)平臺介紹

Alinx 最新發(fā)布的新品 Z19-M 是一款創(chuàng)新的 FPGA+GPU 異構(gòu)架構(gòu)視頻圖像處理開發(fā)平臺，它結(jié)合了 AMD Zynq UltraScale+ MPSoC（FPGA）與 NVIDIA Jetson Orin NX（

發(fā)表于 08-29 14:43 ?1207次閱讀

名單公布！【書籍評測活動NO.41】大模型時代的基礎(chǔ)架構(gòu)：大模型算力中心建設(shè)指南

基于TOGAF方法論，剖析業(yè)界知名案例的設(shè)計方案。全書總計13章。第1章講解AI與大模型時代對基礎(chǔ)架構(gòu)的需求；第2章講解軟件程序與專用硬件的結(jié)合，涉及GPU并行運算庫、機器學(xué)習(xí)程序的開發(fā)框架和分布式AI訓(xùn)練

發(fā)表于 08-16 18:33

中科馭數(shù)HADOS 3.0：以四大架構(gòu)革新，全面擁抱敏捷開發(fā)理念，引領(lǐng)DPU應(yīng)用生態(tài)

一家成功的大算力芯片公司，其核心壁壘必須是軟硬兼?zhèn)涞?，既要有芯?b class='flag-5'>架構(gòu)的強大技術(shù)壁壘，更要有持久投入的、生態(tài)兼容完備的軟件護城河。HADOS，就是中科馭數(shù)的軟件護城河。

發(fā)表于 07-09 14:26 ?377次閱讀

微信Linux原生版在龍架構(gòu)平臺終端成功啟動運行

近日，在騰訊微信團隊、龍芯中科與國產(chǎn)操作系統(tǒng)廠商的共同努力下，微信Linux原生版在龍架構(gòu)平臺終端成功啟動運行，并在操作系統(tǒng)廠商應(yīng)用商店上架分發(fā)，為用戶帶來全新的龍

發(fā)表于 03-19 16:32 ?886次閱讀

GPU技術(shù)、生態(tài)及算力分析

對比AMD從2013年開始建設(shè)GPU生態(tài)，近10年時間后用于通用計算的ROCm開放式軟件平臺才逐步有影響力，且還是在兼容CUDA的基礎(chǔ)上。因此我們認(rèn)為國內(nèi)廠商在軟件和生態(tài)層面與英偉達C

發(fā)表于 01-14 10:06 ?1269次閱讀

超微gpu服務(wù)器評測

微GPU服務(wù)器進行評測。一、超微GPU服務(wù)器概述超微GPU服務(wù)器是一種基于超微服務(wù)器

發(fā)表于 01-10 10:37 ?1400次閱讀

深入解讀AMD最新GPU架構(gòu)

GCN 取代了 Terascale，并強調(diào) GPGPU 和圖形應(yīng)用程序的一致性能。然后，AMD 將其 GPU 架構(gòu)開發(fā)分為單獨的 CDNA 和 RDNA 線路，分別專門用于計算和圖形。

發(fā)表于 01-08 10:12 ?1232次閱讀