0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

OpenMP優(yōu)化相關知識

openEuler ? 來源:openEuler ? 作者:openEuler ? 2022-12-06 10:25 ? 次閱讀

作者介紹

謝依暉

湖南大學碩士研究生在讀,

本科畢業(yè)于湖南大學計算機科學與技術專業(yè)

本文調(diào)研了4篇與OpenMP優(yōu)化相關的文獻,對優(yōu)化點分析如下:

面向Open64的OpenMP程序優(yōu)化[1]

跨越過程邊界的并行區(qū)重構

Open64有著過程間分析優(yōu)化部件,因此可以知道哪些函數(shù)使用了被調(diào)函數(shù),從而可以通過在使用被調(diào)函數(shù)處放置合適的編譯指導語句來完成并行區(qū)重構。

這樣做的好處是:

進一步擴大并行塊的大?。?/p>

將并行塊提升到調(diào)用函數(shù)中,便于進一步對調(diào)用函數(shù)中的并行塊合并。

以下給出例子:

programmain
callsub_procedure
end

subroutinesub_procedure
!$ompparallel
P
!$ompendparallel
end

優(yōu)化后:

programmain
!$ompparallel
callsub_procedure
!$ompendparallel
end

subroutinesub_procedure
P
end

OpenMP并行編程模型與性能優(yōu)化方法的研究及應用[2]

Cache命中率優(yōu)化

數(shù)組合并:定義兩個數(shù)組val[N]和key[N],在順序訪問val[i]和key[i]時可能會導致Cache沖突失效,若改為struct merge{key, val}就可以通過提高空間局部性減少Cache失效次數(shù)。

循環(huán)交換:C按行存儲而Fortran按列存儲,應根據(jù)存儲的順序來訪問。

提取關鍵數(shù)據(jù):提取關鍵數(shù)據(jù)可以減少重復存取的數(shù)據(jù),例如在排序中用關鍵字和指針代替整個記錄排序,這樣就能讓Cache無需存放無關數(shù)據(jù)而提高命中率。

分塊:對于極大大小的數(shù)組,要在Cache中一次容納整個數(shù)組是有困難的,但可以將數(shù)組分為多塊,可有效降低Cache失效率。

循環(huán)調(diào)度優(yōu)化

在OpenMP中可對并行循環(huán)指定調(diào)度方案,以將每個迭代分配給多個工作線程執(zhí)行。其一般形式如下:

#pragmaompforschedule(schedule_name,chunk_size)
for(i=0;i

OpenMP編譯與優(yōu)化技術研究[3]

論文中給出了一種使用啟發(fā)式規(guī)則來估計各種額外開銷和調(diào)度參數(shù)的關系,得到一個線性不等式組,可以通過求解該不等式組得到較優(yōu)的調(diào)度參數(shù)。

變量屬性的優(yōu)化

在OpenMP語句中每一次對變量的聲明都對應一次新的地址分配。給出以下例子:

#pragmaompparallel
{
#pragmaompforprivate(a)
{...}
#pragmaompforprivate(a)
{...}
}

在如上代碼中,編譯器會為每個循環(huán)分配一個單獨的私有變量,而優(yōu)化后的代碼如下所示:

#pragmaompparallelprivate(a)
{
#pragmaompfor
{...}
#pragmaompfor
{...}
}

How to Get Good Performance by Using OpenMP[4]

去除依賴

對于某些循環(huán)語句,存在依賴而導致無法使用OpenMP優(yōu)化,但是這其中的某些依賴可以通過修改代碼去除依賴而使用OpenMP運行代碼。

下列循環(huán)存在反依賴:

for(inti=0;i

除去循環(huán)之間的依賴后:

#pragmaompparallelforshared(a,a_copy)
for(inti=0;i

下列循環(huán)存在流依賴:

for(inti=1;i

在loop skewing之后:

b[1]=b[1]+a[0]
#pragmaompparallelforshared(a,b,c)
for(inti=1;i

負載不均衡

下段代碼使用流水線形式處理,以塊的形式讀取數(shù)據(jù),然后處理每個塊并在下一個塊之前將結果寫入磁盤,造成極差的負載均衡。

for(i=0;i

接下來這段代碼使用動態(tài)調(diào)度來重疊I/O和處理數(shù)據(jù),將上述流水線代碼并行化。

#pragmaompparallel
{
/*preloaddatatobeusedinfirstiterationofthei-loop*/
#pragmaompsingle
{ReadFromFile(O,...);}
for(i=0;i

解決偽共享問題

inta[Nthreads][cache_line_size];
#pragmaompparallelforshared(Nthreads,a)schedule(static,1)
for(inti=0;i

一般情況下,int型變量占四個字節(jié),A[0]和A[1]的地址只差四個字節(jié),小于一個Cache行,它們有著極大的可能在同一Cache行內(nèi),從而導致同時更新不同處理器的相同Cache行中的單個元素會導致整個Cache行無效。

對于False sharing問題,一般可以通過填充數(shù)組來優(yōu)化。

inta[Nthreads][cache_line_size];
#pragmaompparallelforshared(Nthreads,a)schedule(static,1)
for(inti=0;i

我們還對文獻中的部分優(yōu)化使用LLVM Flang編譯器和classic-flang編譯器進行了測試,測試結果請參考https://gitee.com/src-openeuler/flang/pulls/22/files。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 優(yōu)化
    +關注

    關注

    0

    文章

    220

    瀏覽量

    23908
  • 函數(shù)
    +關注

    關注

    3

    文章

    4331

    瀏覽量

    62629
  • OpenMP
    +關注

    關注

    0

    文章

    12

    瀏覽量

    5623

原文標題:OpenMP優(yōu)化調(diào)研系列文章(3)

文章出處:【微信號:openEulercommunity,微信公眾號:openEuler】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    關于一些對OpenMP優(yōu)化的方式

    本文調(diào)研了一些對OpenMP優(yōu)化的方式。
    發(fā)表于 11-22 09:36 ?1119次閱讀

    openMP的helloword的demo出錯

    按照官方資料http://processors.wiki.ti.com/index.php/OpenMP_on_C6000#Installation,搭建了第一個案例,自己選擇的目標配置
    發(fā)表于 06-21 00:52

    關于6678 openmp的幾個問題

    大家好, 最近在學習6678上的omp庫,遇到幾個疑問,如下 1. 我注意到,帶openmp的程序代碼段都是放在msmc里的,當多個核都進入到并行域時,都是在msmc的同一個地址執(zhí)行代碼的,我想問1
    發(fā)表于 06-21 11:21

    C6678 openMP 例程 連接出錯

    用的芯片是c6678,開發(fā)板是TMDSEVM6678L,開發(fā)環(huán)境ccs5.2。mcsdk2.1.2.5。openMP1.1.3.02 跑的是biosMulticore sdk 中的openMP例程
    發(fā)表于 06-21 00:52

    linux下的openmp編程基礎知識介紹

    OpenMP是專門針對共享地址空間的平行計算機提供的并行計算庫,在Intel C++和Visual C++ 8.0里通過#pragma支持。用OpenMP,可以不必去寫諸如CreateThread
    發(fā)表于 07-22 06:45

    openmp相關資料下載

    嵌入式算法移植優(yōu)化學習筆記1——openmp參考:1、https://www.oschina.net/p/openmp?hmsr=aladdin1e11、openmp簡介
    發(fā)表于 12-14 09:03

    請問JPEG編碼如何并行優(yōu)化

    使用QT對Jpeg編碼與解碼功能進行優(yōu)化,可以使用openmp,neon等各種方法
    發(fā)表于 05-16 21:25

    OpenMP優(yōu)化調(diào)研系列文章(1)

    Abstract本文調(diào)研了一些對OpenMP進行優(yōu)化的方法:H. Ma, R. Zhao, X. Gao and Y. Zhang針對OpenMP程序中的barrier提出幾種新功能的支持和性能
    發(fā)表于 10-28 10:18

    OpenMP優(yōu)化調(diào)研系列文章(3)

    本文調(diào)研了4篇與OpenMP優(yōu)化相關的文獻,對優(yōu)化點分析如下:面向Open64的OpenMP程序優(yōu)化
    發(fā)表于 12-23 16:05

    基于OPENMP多線程技術的運控運算優(yōu)化

    聯(lián)邦成員的運算效率直接影響整體仿真效率。因此,本文通過設計樂觀約束判別算法以及基于openMP多線程技術優(yōu)化該成員的運控運算方式,提高運行效率。實驗表明,改進后的運控聯(lián)邦成員大幅提高了光學設施仿真任務執(zhí)行效率,仿真聯(lián)
    發(fā)表于 11-07 16:33 ?7次下載
    基于<b class='flag-5'>OPENMP</b>多線程技術的運控運算<b class='flag-5'>優(yōu)化</b>

    基于OpenMP的多線程速成課程

    The session introduces multi-threading using OpenMP and explaining the differences between vectorization and multi-threading
    的頭像 發(fā)表于 10-22 06:51 ?1873次閱讀

    基于OF/MPI/OpenMP編程的標準計算

    with standards-based OpenFabrics Interfaces* (OFI), message passing interface (MPI), and OpenMP* programming methods on Intel? Xeon Phi? processors.
    的頭像 發(fā)表于 09-10 08:22 ?3021次閱讀

    如何在OpenMP中使用嵌套

    此網(wǎng)絡研討會討論了使用熱門團隊在OpenMP中使用嵌套的成功示例,并解釋了利用嵌套并行機會的最佳實踐。
    的頭像 發(fā)表于 11-07 06:52 ?2589次閱讀

    OpenMP如何支持現(xiàn)代CPU工作

    OpenMP *是共享內(nèi)存系統(tǒng)上并行編程的標準。了解它如何支持現(xiàn)代CPU。
    的頭像 發(fā)表于 11-05 07:11 ?3528次閱讀

    一些對OpenMP進行優(yōu)化的方法

    本文調(diào)研了一些對OpenMP進行優(yōu)化的方法。
    的頭像 發(fā)表于 10-18 09:44 ?1739次閱讀