資料介紹
并行矩陣乘法是線性代數(shù)中最重要的基本運(yùn)算之一,同時(shí)也是許多科學(xué)應(yīng)用的基石。隨著高性能計(jì)算(HPC)向E級(jí)計(jì)算發(fā)展,并行矩陣乘法的通信開(kāi)銷所占比重越來(lái)越大。如何降低并行矩陣乘法的通信開(kāi)銷,提高并行矩陣乘的可擴(kuò)展性是當(dāng)前研究的熱點(diǎn)之一。本文提出一種新型的分布式并行稠密矩陣乘算法,即2.5D版本的PUMMA( Parallel Universal matrix Multiplication Algorithm)算法,該算法是通過(guò)將初始的進(jìn)程分成c組,利用計(jì)算節(jié)點(diǎn)的額外內(nèi)存,在每個(gè)進(jìn)程組上同時(shí)存儲(chǔ)矩陣A、B和執(zhí)行1/c的 PUMMA算法,最后通過(guò)規(guī)約操作來(lái)得到矩陣乘的最終結(jié)果。本文基于 BLACS( Basic Linear Algebra Communication Subprograms)通信庫(kù)實(shí)現(xiàn)了一種從2D到2.5D的新型數(shù)據(jù)重分配算法,與 PUMMA算法相結(jié)合,最終得到2.5 D PUMMA算法,可直接替換 PDGEM( Parallel double- precision General Matrix-matrix Multiplication),具有良好的可移植性。與國(guó)際標(biāo)準(zhǔn)算法庫(kù) ScalaPACK( Scalable Linear algebra Package)中的 PDGEMM等經(jīng)典D算法相比,本文算法縮減了通信次數(shù),提高了數(shù)據(jù)局部性,具有更好的可擴(kuò)展性。在進(jìn)程數(shù)較多時(shí),例如4096進(jìn)程時(shí),系統(tǒng)測(cè)試表明相對(duì) PDGEMM的加速比可達(dá)到2.20~2.93.進(jìn)一步地,本文將2.5 D PUMMA算法應(yīng)用于加速計(jì)算對(duì)稱三對(duì)角矩陣的特征值分解,其加速比可達(dá)到1.2以上本文通過(guò)大量數(shù)值算例分析了2.5DMMA算法的性能,并給出了實(shí)用性建議和總結(jié)了未來(lái)的工作。
- MapReduce框架下分布式編碼計(jì)算容錯(cuò)算法 2次下載
- 深層轉(zhuǎn)導(dǎo)式非負(fù)矩陣分解并行算法 16次下載
- 輕量級(jí)分布式機(jī)器學(xué)習(xí)系統(tǒng)及算法 16次下載
- 基于分布式編碼的同步隨機(jī)梯度下降算法 2次下載
- 基于分布式數(shù)據(jù)Cache的實(shí)時(shí)動(dòng)態(tài)遷移機(jī)制 20次下載
- 結(jié)合網(wǎng)絡(luò)推演和失效檢測(cè)算法的航電分布式顯控 13次下載
- 增量式約簡(jiǎn)最小二乘孿生攴持向量回歸機(jī)算法 15次下載
- 一種分布式網(wǎng)絡(luò)掃描架構(gòu)和任務(wù)調(diào)度算法 19次下載
- 快速在線分布式對(duì)偶平均優(yōu)化算法 5次下載
- 基于并行遺傳算法的VOD系統(tǒng)負(fù)載均衡研究 0次下載
- FIR數(shù)字濾波器分布式算法的原理及FPGA實(shí)現(xiàn)
- 分布式并行BOD系統(tǒng)資源管理算法研究
- 基于DSP的分布式并行遺傳算法
- 基于ProActive的分布式并行Web Spider設(shè)計(jì)
- 分布式數(shù)據(jù)挖掘計(jì)算過(guò)程-DDCP算法研究
- Java手寫(xiě)分布式鎖的實(shí)現(xiàn) 424次閱讀
- tldb提供分布式鎖使用方法 761次閱讀
- 基于PyTorch的模型并行分布式訓(xùn)練Megatron解析 2284次閱讀
- 深入理解redis分布式鎖 763次閱讀
- 如何對(duì)spmv算法進(jìn)行優(yōu)化 1064次閱讀
- 鴻蒙分布式相機(jī)“踩坑”分享 1578次閱讀
- 一文讀懂經(jīng)典雙目稠密匹配算法SGM 1227次閱讀
- 利用NI VeriStand 2010實(shí)現(xiàn)分布式同步系統(tǒng)的設(shè)計(jì) 3154次閱讀
- 詳談分布式系統(tǒng)的定義及屬性 3689次閱讀
- 分布式光纖傳感器原理_分布式光纖傳感器的應(yīng)用 8424次閱讀
- Redis 分布式鎖的正確實(shí)現(xiàn)方式 3483次閱讀
- 淺談分布式塊存儲(chǔ)的元數(shù)據(jù)服務(wù)設(shè)計(jì) 4871次閱讀
- 并行計(jì)算和分布式計(jì)算的區(qū)別和聯(lián)系 3.5w次閱讀
- 一種基于分布式算法的低通FIR濾波器 3191次閱讀
- 深度解讀分布式存儲(chǔ)技術(shù)之分布式剪枝系統(tǒng) 1773次閱讀
下載排行
本周
- 1DC電源插座圖紙
- 0.67 MB | 2次下載 | 免費(fèi)
- 2AN-1269: 采用ADP2441/ADP2442同步降壓DC-DC穩(wěn)壓器設(shè)計(jì)反相電源
- 389.42KB | 次下載 | 免費(fèi)
- 3AN87-線性技術(shù)雜志電路集,第五卷
- 1.41MB | 次下載 | 免費(fèi)
- 4AN135-為L(zhǎng)TC3880實(shí)施強(qiáng)大的PMBus系統(tǒng)軟件
- 122.98KB | 次下載 | 免費(fèi)
- 5AN-953: 具可編程模數(shù)的直接數(shù)字頻率合成器(DDS)
- 278.15KB | 次下載 | 免費(fèi)
- 6AN-793: iCoupler隔離產(chǎn)品的ESD/閂鎖考慮因素
- 1.01MB | 次下載 | 免費(fèi)
- 7AN-718: ADuC7020評(píng)估板參考指南
- 413.19KB | 次下載 | 免費(fèi)
- 8HSW-TTY6754 二鍵觸摸感應(yīng)IC_V1
- 1.15 MB | 次下載 | 免費(fèi)
本月
- 1ADI高性能電源管理解決方案
- 2.43 MB | 450次下載 | 免費(fèi)
- 2免費(fèi)開(kāi)源CC3D飛控資料(電路圖&PCB源文件、BOM、
- 5.67 MB | 137次下載 | 1 積分
- 3基于STM32單片機(jī)智能手環(huán)心率計(jì)步器體溫顯示設(shè)計(jì)
- 0.10 MB | 128次下載 | 免費(fèi)
- 4使用單片機(jī)實(shí)現(xiàn)七人表決器的程序和仿真資料免費(fèi)下載
- 2.96 MB | 44次下載 | 免費(fèi)
- 53314A函數(shù)發(fā)生器維修手冊(cè)
- 16.30 MB | 31次下載 | 免費(fèi)
- 6美的電磁爐維修手冊(cè)大全
- 1.56 MB | 22次下載 | 5 積分
- 7如何正確測(cè)試電源的紋波
- 0.36 MB | 17次下載 | 免費(fèi)
- 8感應(yīng)筆電路圖
- 0.06 MB | 10次下載 | 免費(fèi)
總榜
- 1matlab軟件下載入口
- 未知 | 935121次下載 | 10 積分
- 2開(kāi)源硬件-PMP21529.1-4 開(kāi)關(guān)降壓/升壓雙向直流/直流轉(zhuǎn)換器 PCB layout 設(shè)計(jì)
- 1.48MB | 420062次下載 | 10 積分
- 3Altium DXP2002下載入口
- 未知 | 233088次下載 | 10 積分
- 4電路仿真軟件multisim 10.0免費(fèi)下載
- 340992 | 191367次下載 | 10 積分
- 5十天學(xué)會(huì)AVR單片機(jī)與C語(yǔ)言視頻教程 下載
- 158M | 183335次下載 | 10 積分
- 6labview8.5下載
- 未知 | 81581次下載 | 10 積分
- 7Keil工具M(jìn)DK-Arm免費(fèi)下載
- 0.02 MB | 73810次下載 | 10 積分
- 8LabVIEW 8.6下載
- 未知 | 65988次下載 | 10 積分
評(píng)論
查看更多