0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

讀懂極易并行計(jì)算:定義、挑戰(zhàn)與解決方案

穎脈Imgtec ? 2025-04-17 09:11 ? 次閱讀

GPU經(jīng)常與人工智能同時(shí)提及,其中一個(gè)重要原因在于AI與3D圖形處理本質(zhì)上屬于同一類問題——它們都適用極易并行計(jì)算。


什么是極易并行計(jì)算?

極易并行計(jì)算指的是符合以下特征的計(jì)算任務(wù):

任務(wù)獨(dú)立性:

子任務(wù)不依賴于其他任務(wù)的中間結(jié)果。

數(shù)據(jù)耦合需求低:

并行任務(wù)在執(zhí)行過程中幾乎不需要數(shù)據(jù)交換。

可分解性:

處理過程可以拆分為一組許多相同的任務(wù)。

或者…

包含多層任務(wù)結(jié)構(gòu),每個(gè)任務(wù)又包含許多子任務(wù)。

這些計(jì)算任務(wù)通過利用多個(gè)處理器能夠獲得顯著的性能提升,因此非常適合部署在高度并行或分布式計(jì)算平臺(tái)上,如GPU。常見的例子包括:

3D渲染:每一幀或每個(gè)像素都可以獨(dú)立處理,GPU實(shí)現(xiàn)高效渲染。

蒙特卡羅模擬用于統(tǒng)計(jì)建模和風(fēng)險(xiǎn)分析。

密碼學(xué):暴力破解和密碼破解。

圖像處理:對(duì)大規(guī)模圖像數(shù)據(jù)集應(yīng)用濾鏡或調(diào)整大小。

機(jī)器學(xué)習(xí)例如隨機(jī)森林樹的增長(zhǎng)步驟或在GPU上進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)(CNN)推理。


極易并行計(jì)算面臨的挑戰(zhàn)

盡管本質(zhì)上較為簡(jiǎn)單,極易并行計(jì)算在實(shí)際應(yīng)用中仍面臨諸多挑戰(zhàn):

過度并行化:線程創(chuàng)建過多會(huì)帶來額外開銷,導(dǎo)致收益遞減;

資源管理:對(duì)內(nèi)存等資源的競(jìng)爭(zhēng)可能降低整體效率;

負(fù)載均衡:任務(wù)在處理器間分配不均容易造成性能瓶頸;

硬件限制:若忽視平臺(tái)特有的約束條件(如可用核心數(shù)或內(nèi)存帶寬),可能無法充分發(fā)揮硬件潛力;

同步開銷:盡管通常較小,不當(dāng)?shù)耐綑C(jī)制仍可能引入額外延遲。

在應(yīng)對(duì)這類問題時(shí),一個(gè)重要挑戰(zhàn)是保持性能一致性,這對(duì)于確保工作負(fù)載能夠高效運(yùn)行在不同硬件架構(gòu)上而不需大量修改至關(guān)重要。過度優(yōu)化可能會(huì)犧牲性能一致性,導(dǎo)致對(duì)某一特定GPU廠商的依賴。在如NPU這類面向特定領(lǐng)域的加速器時(shí),這一問題尤為突出。

在CUDA、OpenCL和Vulkan等主流API上的實(shí)現(xiàn)提供了一定程度的軟件可移植性,但通常仍需針對(duì)特定平臺(tái)進(jìn)行高度優(yōu)化。由于各類API及其實(shí)現(xiàn)之間在內(nèi)存模型、同步原語和執(zhí)行范式上的差異,在優(yōu)化極易并行的應(yīng)用時(shí)常常會(huì)引入低效問題。因此,急需一個(gè)更高層次的、統(tǒng)一的、與硬件無關(guān)的抽象層,以避免開發(fā)者不得不為不同平臺(tái)編寫多套代碼路徑。此外,SYCL等框架正在逐步彌合這一差距。


極易并行計(jì)算的邊緣處理解決方案

對(duì)設(shè)備端圖形性能和高性能邊緣AI推理的需求,催生了對(duì)高效、可擴(kuò)展的并行處理解決方案的需求。

常見的挑戰(zhàn)來自于邊緣設(shè)備典型的資源限制。有限的功率預(yù)算、有限的內(nèi)存以及對(duì)實(shí)時(shí)性能的需求,都要求進(jìn)行精心優(yōu)化。算法必須簡(jiǎn)化以適應(yīng)邊緣處理系統(tǒng)較低的計(jì)算和較少的內(nèi)存空間。同時(shí),為了支持跨多種硬件的不同推理任務(wù)的增長(zhǎng)陣列,可擴(kuò)展性和靈活性仍然至關(guān)重要。

深度學(xué)習(xí)的進(jìn)展,特別是Transformer架構(gòu)的引入,以及計(jì)算機(jī)視覺技術(shù)的突破,包括零樣本學(xué)習(xí)和自監(jiān)督模型,顯著提升了計(jì)算復(fù)雜性,并推動(dòng)了硬件需求的轉(zhuǎn)變。極易并行的工作負(fù)載算法正快速演進(jìn),在邊緣側(cè)展現(xiàn)出卓越性能,但同時(shí)也為硬件投資帶來了獨(dú)特挑戰(zhàn)。這凸顯了對(duì)具備自適應(yīng)性和多樣化能力的硬件的迫切需求,以跟上算法快速迭代的發(fā)展步伐。

新模型和新方法的出現(xiàn)速度往往快于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)處理單元(NPU)的適應(yīng)能力,使得對(duì)這類硬件的投資天然存在較高風(fēng)險(xiǎn)。NPUs通常針對(duì)特定任務(wù)進(jìn)行了優(yōu)化,在當(dāng)前的推理工作負(fù)載中效率極高,但在面對(duì)計(jì)算需求發(fā)生重大轉(zhuǎn)變(如Transformer模型的興起或新型計(jì)算機(jī)視覺技術(shù)的應(yīng)用)時(shí),其通用性和靈活性則相對(duì)不足。

這種不匹配凸顯了在硬件系統(tǒng)中實(shí)現(xiàn)專用性與通用性平衡的重要性。在此背景下,通用性指的是可編程能力、更廣泛的工作負(fù)載支持能力,以及對(duì)快速演進(jìn)的算法需求的適應(yīng)能力。能夠支持多樣化推理任務(wù)的硬件不僅有助于延長(zhǎng)其生命周期,還能在計(jì)算需求變化時(shí)降低被淘汰的風(fēng)險(xiǎn)。以GPU為例,其具備更高的可編程性,使其能夠靈活應(yīng)對(duì)快速變化的算法發(fā)展。

Imagination在GPU設(shè)計(jì)方面擁有深厚的技術(shù)積累,并在面向極易并行工作負(fù)載的高效、可擴(kuò)展硬件解決方案開發(fā)上具備成熟的實(shí)踐經(jīng)驗(yàn)。我們專注于在效率優(yōu)化、開放生態(tài)系統(tǒng)、先進(jìn)工具鏈,以及極易并行處理方面的持續(xù)創(chuàng)新,不僅使我們的產(chǎn)品具備差異化優(yōu)勢(shì),也賦能開發(fā)者在性能與易用性之間實(shí)現(xiàn)最優(yōu)平衡。


我們的核心技術(shù)包括:


面向邊緣和嵌入式設(shè)備的高性能計(jì)算架構(gòu)

采用更合適顆粒度SIMD執(zhí)行以及高效內(nèi)存層次結(jié)構(gòu),實(shí)現(xiàn)低功耗的并行計(jì)算;

處理器單元間的數(shù)據(jù)傳輸最小化;

針對(duì)不同工作負(fù)載提供高效的專用硬件加速路徑,包括支持混合精度算術(shù)。

開放且跨平臺(tái)的API和軟件生態(tài)系統(tǒng)

對(duì)Vulkan和SYCL的優(yōu)先支持

通過優(yōu)化后端支持主流AI框架

低延遲、實(shí)時(shí)計(jì)算API支持

先進(jìn)的編譯和優(yōu)化工具

跨平臺(tái)編譯器工具鏈

開發(fā)者友好的調(diào)試和分析工具

我們的GPU歷經(jīng)多代發(fā)展,始終致力于高效處理極易并行的工作負(fù)載,并在應(yīng)對(duì)AI實(shí)現(xiàn)中的各類挑戰(zhàn)方面積累了豐富的機(jī)制和經(jīng)驗(yàn)。例如,在應(yīng)對(duì)線程分歧(Thread Divergence)時(shí),我們采用了多種優(yōu)化策略:

控制流簡(jiǎn)化:Imagination的GPU在可行的情況下用算子替代條件語句以簡(jiǎn)化執(zhí)行流。對(duì)于短序列,我們使用預(yù)測(cè)指令執(zhí)行而非分支。

協(xié)調(diào)執(zhí)行:利用增強(qiáng)同步和執(zhí)行線程之間集體決策的原語或API,確保更好的資源利用率。

Warp級(jí)原語:我們?cè)贕PU Warp中使用等效的subgtoup功能來高效地做出集體決策。這些原語增強(qiáng)了同步性,允許執(zhí)行組協(xié)調(diào)任務(wù),確保更好的資源利用并減少低效情況。


結(jié)語

在現(xiàn)代計(jì)算中,特別是在邊緣推理領(lǐng)域,極易并行計(jì)算凸顯了可擴(kuò)展性和資源效率的重要性。通過深入理解這類任務(wù)的獨(dú)特特性,并利用適當(dāng)?shù)挠布軜?gòu),開發(fā)者可以充分釋放這些任務(wù)的潛力。然而,隨著硬件創(chuàng)新因物理限制而放緩,軟件和算法的改進(jìn)將成為突破現(xiàn)有瓶頸、挖掘并行計(jì)算新機(jī)遇的關(guān)鍵。

作者簡(jiǎn)介

Ed Plowman是Imagination的創(chuàng)新副總裁,在GPU架構(gòu)和機(jī)器學(xué)習(xí)加速領(lǐng)域擁有豐富經(jīng)驗(yàn),致力于推動(dòng)圖形、計(jì)算和系統(tǒng)性能方面的創(chuàng)新,已有30多年從業(yè)經(jīng)歷。作為Imagination Technologies的創(chuàng)新副總裁,他領(lǐng)導(dǎo)先進(jìn)GPU流水線的相關(guān)工作,探索新型ALU設(shè)計(jì)、圖神經(jīng)網(wǎng)絡(luò)以及基于機(jī)器學(xué)習(xí)的性能建模,以推動(dòng)AI和圖形領(lǐng)域的可擴(kuò)展計(jì)算發(fā)展。他過去的工作涵蓋移動(dòng)GPU、精準(zhǔn)農(nóng)業(yè)以及虛擬制作,并因此獲得了女王獎(jiǎng)和科技類艾美獎(jiǎng)(Science & Technology Emmy)。Ed還是Khronos Group的創(chuàng)始成員之一,在自適應(yīng)計(jì)算和可編程圖形方面擁有多項(xiàng)專利。

聲明:本文為原創(chuàng)文章,轉(zhuǎn)載需注明作者、出處及原文鏈接。

原文鏈接:https://blog.imaginationtech.com/embarrassingly-parallel-problems


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 處理器
    +關(guān)注

    關(guān)注

    68

    文章

    19813

    瀏覽量

    233615
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4912

    瀏覽量

    130681
  • 人工智能
    +關(guān)注

    關(guān)注

    1804

    文章

    48737

    瀏覽量

    246669
收藏 0人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Concurrent iHawk實(shí)時(shí)并行計(jì)算機(jī)仿真系統(tǒng)

    Concurrent公司的iHawk并行計(jì)算機(jī)仿真系統(tǒng)是具有高實(shí)時(shí)特性的實(shí)時(shí)仿真系統(tǒng),該仿真系統(tǒng)包含對(duì)稱多處理器計(jì)算機(jī)平臺(tái)、實(shí)時(shí)操作系統(tǒng)、實(shí)時(shí)開發(fā)工具以及應(yīng)用軟件。系統(tǒng)以MATLAB
    發(fā)表于 12-29 06:34

    求一種多處理器并行計(jì)算機(jī)系統(tǒng)的設(shè)計(jì)方案

    求一種多處理器并行計(jì)算機(jī)系統(tǒng)的設(shè)計(jì)方案
    發(fā)表于 04-27 06:58

    什么是異構(gòu)并行計(jì)算

    先了解什么是異構(gòu)并行計(jì)算同構(gòu)計(jì)算是使用相同類型指令集和體系架構(gòu)的計(jì)算單元組成系統(tǒng)的計(jì)算方式。而異構(gòu)計(jì)算主要是指使用不同類型指令集和體系架構(gòu)的
    發(fā)表于 07-19 08:27

    可擴(kuò)展并行計(jì)算技術(shù)、結(jié)構(gòu)與編程

    可擴(kuò)展并行計(jì)算技術(shù)、結(jié)構(gòu)與編程
    發(fā)表于 03-25 16:43 ?61次下載

    THE MATHWORKS推出新版并行計(jì)算工具箱

    THE MATHWORKS推出新版并行計(jì)算工具箱 The MathWorks 近日宣布推出新版 Parallel Computing Toolbox(并行計(jì)算工具箱),該版本提供了改進(jìn)的分布式數(shù)組,可以讓 MATLAB 用戶直接訪
    發(fā)表于 11-25 09:17 ?1167次閱讀

    并行計(jì)算和嵌入式系統(tǒng)實(shí)踐教程

    Linux微機(jī)應(yīng)用十分普遍. 高性能并行計(jì)算機(jī)數(shù)量多. 并行計(jì)算,我國(guó)有自己的理論. 對(duì)并行計(jì)算的基本原理,算法,程序設(shè)計(jì)與實(shí)現(xiàn),優(yōu)化,成熟軟件應(yīng)用的推廣不夠. 制約并行計(jì)算在研究和工
    發(fā)表于 05-09 15:54 ?48次下載

    并行計(jì)算和分布式計(jì)算的區(qū)別和聯(lián)系

    并行計(jì)算或稱平行計(jì)算是相對(duì)于串行計(jì)算來說的。所謂并行計(jì)算可分為時(shí)間上的并行和空間上的并行。 時(shí)間
    發(fā)表于 12-08 09:59 ?3.8w次閱讀

    基于Matlab和GPU的BESO方法的全流程并行計(jì)算策略

    針對(duì)傳統(tǒng)并行計(jì)算方法實(shí)現(xiàn)結(jié)構(gòu)拓?fù)鋬?yōu)化快速計(jì)算的硬件成本高、程序開發(fā)效率低的問題,提出了一種基于Matlab和圖形處理器(GPU)的雙向漸進(jìn)結(jié)構(gòu)優(yōu)化(BESO)方法的全流程并行計(jì)算策略。首先,探討
    發(fā)表于 12-21 15:04 ?2次下載
    基于Matlab和GPU的BESO方法的全流程<b class='flag-5'>并行計(jì)算</b>策略

    基于異構(gòu)并行計(jì)算的兩個(gè)子概念異構(gòu)和并行的簡(jiǎn)單分析

    異構(gòu)并行計(jì)算包含兩個(gè)子概念:異構(gòu)和并行。 1異構(gòu)是指異構(gòu)并行計(jì)算需要同時(shí)處理多個(gè)不同架構(gòu)的計(jì)算平臺(tái)的問題。 2并行是指異構(gòu)
    的頭像 發(fā)表于 01-25 16:37 ?6796次閱讀
    基于異構(gòu)<b class='flag-5'>并行計(jì)算</b>的兩個(gè)子概念異構(gòu)和<b class='flag-5'>并行</b>的簡(jiǎn)單分析

    基于云計(jì)算的電磁問題并行計(jì)算方法

    針對(duì)電工裝備性能分析與優(yōu)化所需的易用高性能計(jì)算問題,使用云計(jì)算技術(shù)搭建了彈性集群,實(shí)現(xiàn)了典型電磁問題在彈性集群中的并行計(jì)算。使用虛擬化技術(shù)將計(jì)算機(jī)資源整合為資源池,搭建并部署了可實(shí)現(xiàn)彈
    發(fā)表于 03-20 13:56 ?1次下載
    基于云<b class='flag-5'>計(jì)算</b>的電磁問題<b class='flag-5'>并行計(jì)算</b>方法

    C編程的并行計(jì)算詳細(xì)資料說明

    在過去的幾十年間,人們對(duì)并行計(jì)算產(chǎn)生了越來越多的興趣。并行計(jì)算的主要目標(biāo)是提高運(yùn)算速度。從純粹的計(jì)算視角來看,并行計(jì)算可以被定義
    發(fā)表于 08-02 17:34 ?2次下載
    C編程的<b class='flag-5'>并行計(jì)算</b>詳細(xì)資料說明

    CUDA的異構(gòu)并行計(jì)算詳細(xì)資料介紹

    從程序員的角度來說,一個(gè)很自然的疑問,就是如何將并發(fā)計(jì)算映射到計(jì)算機(jī)上。假設(shè)你有許多計(jì)算資源,并行計(jì)算可以被定義為同時(shí)使用許多
    發(fā)表于 07-04 17:41 ?0次下載
    CUDA的異構(gòu)<b class='flag-5'>并行計(jì)算</b>詳細(xì)資料介紹

    并行計(jì)算的黃金時(shí)代到了?

    “未來幾十年將進(jìn)入并行計(jì)算黃金時(shí)代,并行計(jì)算軟件和算法的開發(fā)將從技術(shù)驅(qū)動(dòng)轉(zhuǎn)向應(yīng)用驅(qū)動(dòng),需要計(jì)算與應(yīng)用等不同領(lǐng)域的專家共同合作開發(fā)?!敝袊?guó)工程院院士李國(guó)杰日前表示。
    的頭像 發(fā)表于 04-03 17:18 ?2473次閱讀

    淺析云計(jì)算并行計(jì)算

    并行計(jì)算可以劃分成時(shí)間并行和空間并行。時(shí)間并行即流水線技術(shù),空間并行使用多個(gè)處理器執(zhí)行并發(fā)計(jì)算,
    的頭像 發(fā)表于 05-03 12:01 ?4921次閱讀
    淺析云<b class='flag-5'>計(jì)算</b>和<b class='flag-5'>并行計(jì)算</b>

    xgboost的并行計(jì)算原理

    在大數(shù)據(jù)時(shí)代,機(jī)器學(xué)習(xí)算法需要處理的數(shù)據(jù)量日益增長(zhǎng)。為了提高數(shù)據(jù)處理的效率,許多算法都開始支持并行計(jì)算。XGBoost作為一種高效的梯度提升樹算法,其并行計(jì)算能力是其受歡迎的原因
    的頭像 發(fā)表于 01-19 11:17 ?888次閱讀

    電子發(fā)燒友

    中國(guó)電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品