0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何在主機和主機之間實現(xiàn)數(shù)據(jù)傳輸優(yōu)化

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:Mark Harris ? 2022-04-11 10:32 ? 次閱讀

主機和設(shè)備之間的傳輸是 GPU 計算中數(shù)據(jù)移動最慢的一個環(huán)節(jié),所以您應(yīng)該注意盡量減少傳輸。遵循這篇文章中的指導(dǎo)方針可以幫助你確保必要的轉(zhuǎn)移是有效的。當您移植或編寫新的 CUDA C / C ++代碼時,我建議您從現(xiàn)有主機指針開始可分頁的傳輸。正如我前面提到的,當您編寫更多的設(shè)備代碼時,您將消除一些中間傳輸,因此您在移植早期所花費的優(yōu)化傳輸?shù)娜魏闻Χ伎赡鼙焕速M。另外,我建議您不要使用 CUDA 事件或其他計時器插入代碼來測量每次傳輸所花費的時間,而是建議您使用 nvprof, 命令行 CUDA 探查器,或者使用可視化分析工具,如 NVIDIA 可視化探查器(也包括在 CUDA 工具箱中)。

這篇文章的重點是提高數(shù)據(jù)傳輸?shù)男省T?下一篇文章 中,我們討論了如何將數(shù)據(jù)傳輸與計算和其他數(shù)據(jù)傳輸重疊。

在 C + C ++系列 之前的 帖子 中,我們?yōu)樵撓盗械闹饕屏Φ於嘶A(chǔ):如何優(yōu)化 CUDA C / C ++代碼。本文就如何在主機和主機之間高效地傳輸數(shù)據(jù)展開討論。設(shè)備內(nèi)存和 GPU 之間的峰值帶寬遠高于主機內(nèi)存和設(shè)備內(nèi)存之間的峰值帶寬(例如,在 GPU NVIDIA C2050 上為 144 GB / s ),而在 PCIe x16 Gen2 上為 8 GB / s 。這種差異意味著主機和 GPU 設(shè)備之間的數(shù)據(jù)傳輸?shù)膶崿F(xiàn)可能會影響或破壞應(yīng)用程序的整體性能。讓我們從主機數(shù)據(jù)傳輸?shù)囊话阍瓌t開始。

盡可能減少主機和設(shè)備之間傳輸?shù)臄?shù)據(jù)量,即使這意味著在 GPU 上運行內(nèi)核,與在主機 CPU 上運行內(nèi)核相比,其速度幾乎沒有或幾乎沒有。

使用頁鎖定(或“固定”)內(nèi)存時,主機和設(shè)備之間的帶寬可能更高。

將許多小的傳輸批處理到一個較大的傳輸中執(zhí)行得更好,因為它消除了每個傳輸?shù)拇蟛糠珠_銷。

主機和設(shè)備之間的數(shù)據(jù)傳輸有時可能與內(nèi)核執(zhí)行和其他數(shù)據(jù)傳輸重疊。

在這篇文章中,我們將研究上面的前三條準則,并在下一篇文章中專門討論重疊數(shù)據(jù)傳輸。首先,我想談?wù)勅绾卧诓恍薷脑创a的情況下測量數(shù)據(jù)傳輸所花費的時間。

用 nvprof 測量數(shù)據(jù)傳輸時間

為了測量每次數(shù)據(jù)傳輸所花費的時間,我們可以在每次傳輸前后記錄一個 CUDA 事件,并使用 cudaEventElapsedTime() ,正如我們所描述的 在上一篇文章中 , CUDA 工具箱中包含的命令行 CUDA 探查器(從 CUDA 5 開始)。讓我們用下面的代碼示例來嘗試一下,您可以在 CUDA 中找到它。

int main() { const unsigned int N = 1048576; const unsigned int bytes = N * sizeof(int); int *h_a = (int*)malloc(bytes); int *d_a; cudaMalloc((int**)&d_a, bytes); memset(h_a, 0, bytes); cudaMemcpy(d_a, h_a, bytes, cudaMemcpyHostToDevice); cudaMemcpy(h_a, d_a, bytes, cudaMemcpyDeviceToHost); return 0; }

為了分析這段代碼,我們只需使用nvcc編譯它,然后用程序文件名作為參數(shù)運行nvprof。

$ nvcc profile.cu -o profile_test $ nvprof ./profile_test

當我在臺式電腦上運行時,它有一個 geforcegtx680 ( GK104GPU ,類似于 Tesla K10 ),我得到以下輸出。

$ nvprof ./a.out ======== NVPROF is profiling a.out... ======== Command: a.out ======== Profiling result: Time(%) Time Calls Avg Min Max Name 50.08 718.11us 1 718.11us 718.11us 718.11us [CUDA memcpy DtoH] 49.92 715.94us 1 715.94us 715.94us 715.94us [CUDA memcpy HtoD]

如您所見, nvprof 測量每個 CUDA memcpy 調(diào)用所花費的時間。它報告每個調(diào)用的平均、最小和最長時間(因為我們只運行每個副本一次,所有時間都是相同的)。 nvprof 非常靈活,所以請確保 查看文檔 。

nvprof 是 CUDA 5 中的新功能。如果您使用的是早期版本的 CUDA ,那么可以使用舊的“命令行分析器”,正如 Greg Ruetsch 在他的文章 如何在 CUDA Fortran 中優(yōu)化數(shù)據(jù)傳輸 中所解釋的那樣。

最小化數(shù)據(jù)傳輸

我們不應(yīng)該只使用內(nèi)核的 GPU 執(zhí)行時間相對于其 CPU 實現(xiàn)的執(zhí)行時間來決定是運行 GPU 還是 CPU 版本。我們還需要考慮在 PCI-e 總線上移動數(shù)據(jù)的成本,尤其是當我們最初將代碼移植到 CUDA 時。因為 CUDA 的異構(gòu)編程模型同時使用了 CPU 和 GPU ,代碼可以一次移植到 CUDA 一個內(nèi)核。在移植的初始階段,數(shù)據(jù)傳輸可能支配整個執(zhí)行時間。將數(shù)據(jù)傳輸所花費的時間與內(nèi)核執(zhí)行的時間分開記錄是值得的。正如我們已經(jīng)演示過的,使用命令行探查器很容易做到這一點。隨著我們移植更多的代碼,我們將刪除中間傳輸并相應(yīng)地減少總體執(zhí)行時間。

固定主機內(nèi)存

默認情況下,主機( CPU )的數(shù)據(jù)分配是可分頁的。 GPU 無法直接從可分頁主機內(nèi)存訪問數(shù)據(jù),因此當調(diào)用從可分頁主機內(nèi)存到設(shè)備內(nèi)存的數(shù)據(jù)傳輸時, CUDA 驅(qū)動程序必須首先分配一個臨時頁鎖定或“固定”主機數(shù)組,將主機數(shù)據(jù)復(fù)制到固定數(shù)組,然后將數(shù)據(jù)從固定數(shù)組傳輸?shù)皆O(shè)備內(nèi)存,如下圖所示。

如圖中所示,固定內(nèi)存用作從設(shè)備到主機的傳輸?shù)呐R時區(qū)域。通過直接將主機數(shù)組分配到固定內(nèi)存中,可以避免在可分頁主機數(shù)組和固定主機數(shù)組之間進行傳輸?shù)拈_銷。使用 CUDA 或 cudaHostAlloc() 在 CUDA C / C ++中分配被鎖定的主機內(nèi)存,并用 cudaFreeHost() 解除它。固定內(nèi)存分配可能會失敗,因此應(yīng)該始終檢查錯誤。下面的代碼摘要演示如何分配固定內(nèi)存以及錯誤檢查。

cudaError_t status = cudaMallocHost((void**)&h_aPinned, bytes); if (status != cudaSuccess) printf("Error allocating pinned host memory
");

使用主機固定內(nèi)存的數(shù)據(jù)傳輸使用與可分頁內(nèi)存?zhèn)鬏斚嗤?a href="http://wenjunhu.com/outside?redirect=http://docs.nvidia.com/cuda/cuda-runtime-api/index.html#group__CUDART__MEMORY_1g48efa06b81cc031b2aa6fdc2e9930741" target="_blank">cudaMemcpy()語法。我們可以使用下面的“帶寬測試”程序(Github 上也有)來比較可分頁和固定的傳輸速率。

#include 
#include 

// Convenience function for checking CUDA runtime API results
// can be wrapped around any runtime API call. No-op in release builds.
inline
cudaError_t checkCuda(cudaError_t result)
{
#if defined(DEBUG) || defined(_DEBUG)
  if (result != cudaSuccess) {
    fprintf(stderr, "CUDA Runtime Error: %s\n",
            cudaGetErrorString(result));
    assert(result == cudaSuccess);
  }
#endif
  return result;
}

void profileCopies(float        *h_a,
                   float        *h_b,
                   float        *d,
                   unsigned int  n,
                   char         *desc)
{
  printf("\n%s transfers\n", desc);

  unsigned int bytes = n * sizeof(float);

  // events for timing
  cudaEvent_t startEvent, stopEvent;

  checkCuda( cudaEventCreate(&startEvent) );
  checkCuda( cudaEventCreate(&stopEvent) );

  checkCuda( cudaEventRecord(startEvent, 0) );
  checkCuda( cudaMemcpy(d, h_a, bytes, cudaMemcpyHostToDevice) );
  checkCuda( cudaEventRecord(stopEvent, 0) );
  checkCuda( cudaEventSynchronize(stopEvent) );

  float time;
  checkCuda( cudaEventElapsedTime(&time, startEvent, stopEvent) );
  printf("  Host to Device bandwidth (GB/s): %f\n", bytes * 1e-6 / time);

  checkCuda( cudaEventRecord(startEvent, 0) );
  checkCuda( cudaMemcpy(h_b, d, bytes, cudaMemcpyDeviceToHost) );
  checkCuda( cudaEventRecord(stopEvent, 0) );
  checkCuda( cudaEventSynchronize(stopEvent) );

  checkCuda( cudaEventElapsedTime(&time, startEvent, stopEvent) );
  printf("  Device to Host bandwidth (GB/s): %f\n", bytes * 1e-6 / time);

  for (int i = 0; i < n; ++i) {
    if (h_a[i] != h_b[i]) {
      printf("*** %s transfers failed ***\n", desc);
      break;
    }
  }

  // clean up events
  checkCuda( cudaEventDestroy(startEvent) );
  checkCuda( cudaEventDestroy(stopEvent) );
}

int main()
{
  unsigned int nElements = 4*1024*1024;
  const unsigned int bytes = nElements * sizeof(float);

  // host arrays
  float *h_aPageable, *h_bPageable;
  float *h_aPinned, *h_bPinned;

  // device array
  float *d_a;

  // allocate and initialize
  h_aPageable = (float*)malloc(bytes);                    // host pageable
  h_bPageable = (float*)malloc(bytes);                    // host pageable
  checkCuda( cudaMallocHost((void**)&h_aPinned, bytes) ); // host pinned
  checkCuda( cudaMallocHost((void**)&h_bPinned, bytes) ); // host pinned
  checkCuda( cudaMalloc((void**)&d_a, bytes) );           // device

  for (int i = 0; i < nElements; ++i) h_aPageable[i] = i;
  memcpy(h_aPinned, h_aPageable, bytes);
  memset(h_bPageable, 0, bytes);
  memset(h_bPinned, 0, bytes);

  // output device info and transfer size
  cudaDeviceProp prop;
  checkCuda( cudaGetDeviceProperties(&prop, 0) );

  printf("\nDevice: %s\n", prop.name);
  printf("Transfer size (MB): %d\n", bytes / (1024 * 1024));

  // perform copies and report bandwidth
  profileCopies(h_aPageable, h_bPageable, d_a, nElements, "Pageable");
  profileCopies(h_aPinned, h_bPinned, d_a, nElements, "Pinned");

  printf("n");

  // cleanup
  cudaFree(d_a);
  cudaFreeHost(h_aPinned);
  cudaFreeHost(h_bPinned);
  free(h_aPageable);
  free(h_bPageable);

  return 0;
}

數(shù)據(jù)傳輸速率取決于主機系統(tǒng)的類型(主板, CPU 和芯片組)以及 GPU 。在我的筆記本電腦上,它有 Intel Core i7-2620MCPU ( 2 . 7GHz , 2 個 Sandy Bridge 內(nèi)核, 4MB L3 緩存)和 NVIDIA NVS 4200MGPU ( 1 費米 SM ,計算能力 2 . 1 , PCI-e Gen2 x16 ),運行BandwidthTest會產(chǎn)生以下結(jié)果。如您所見,固定傳輸?shù)乃俣仁强煞猪搨鬏數(shù)膬杀抖唷?/p>

Device: NVS 4200M Transfer size (MB): 16 Pageable transfers Host to Device bandwidth (GB/s): 2.308439 Device to Host bandwidth (GB/s): 2.316220 Pinned transfers Host to Device bandwidth (GB/s): 5.774224 Device to Host bandwidth (GB/s): 5.958834

更快速的 3GHz 處理器( 3GHz , 3GHz )和 3K 處理器( 3GHz )相比,我們可以更快地使用 3K 處理器( 3GHz )和 3GHz 處理器。這大概是因為更快的 CPU (和芯片組)降低了主機端的內(nèi)存復(fù)制成本。

Device: GeForce GTX 680 Transfer size (MB): 16 Pageable transfers Host to Device bandwidth (GB/s): 5.368503 Device to Host bandwidth (GB/s): 5.627219 Pinned transfers Host to Device bandwidth (GB/s): 6.186581 Device to Host bandwidth (GB/s): 6.670246

不應(yīng)過度分配固定內(nèi)存。這樣做會降低整體系統(tǒng)性能,因為這會減少操作系統(tǒng)和其他程序可用的物理內(nèi)存量。多少是太多是很難預(yù)先判斷的,所以對于所有優(yōu)化,測試您的應(yīng)用程序和它們運行的系統(tǒng),以獲得最佳性能參數(shù)。

批量小轉(zhuǎn)移

由于與每個傳輸相關(guān)聯(lián)的開銷,最好將多個小傳輸一起批處理到單個傳輸中。通過使用一個臨時數(shù)組(最好是固定的)并將其與要傳輸?shù)臄?shù)據(jù)打包,這很容易做到。

對于二維數(shù)組傳輸,可以使用 cudaMemcpy2D() 。

cudaMemcpy2D(dest, dest_pitch, src, src_pitch, w, h, cudaMemcpyHostToDevice)

這里的參數(shù)是指向第一個目標元素和目標數(shù)組間距的指針,指向第一個源元素和源數(shù)組間距的指針,要傳輸?shù)淖泳仃嚨膶挾群透叨?,以?memcpy 類型。還有一個 cudaMemcpy3D() 函數(shù)用于傳輸秩為三的數(shù)組部分。

關(guān)于作者

Mark Harris 是 NVIDIA 杰出的工程師,致力于 RAPIDS 。 Mark 擁有超過 20 年的 GPUs 軟件開發(fā)經(jīng)驗,從圖形和游戲到基于物理的模擬,到并行算法和高性能計算。當他還是北卡羅來納大學的博士生時,他意識到了一種新生的趨勢,并為此創(chuàng)造了一個名字: GPGPU (圖形處理單元上的通用計算)。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4740

    瀏覽量

    128945
  • 計時器
    +關(guān)注

    關(guān)注

    1

    文章

    420

    瀏覽量

    32710
收藏 人收藏

    評論

    相關(guān)推薦

    PCIe數(shù)據(jù)傳輸協(xié)議詳解

    、網(wǎng)卡和聲卡等,以實現(xiàn)高效的數(shù)據(jù)傳輸。以下是對PCIe數(shù)據(jù)傳輸協(xié)議的介紹: 一、PCIe協(xié)議的基本概念 PCIe協(xié)議定義了一系列規(guī)范和要求,以實現(xiàn)
    的頭像 發(fā)表于 11-26 16:12 ?913次閱讀

    socket 數(shù)據(jù)傳輸效率提升技巧

    在現(xiàn)代網(wǎng)絡(luò)應(yīng)用中,數(shù)據(jù)傳輸效率是衡量系統(tǒng)性能的關(guān)鍵指標之一。對于使用socket進行數(shù)據(jù)傳輸的應(yīng)用,優(yōu)化傳輸效率不僅可以提升用戶體驗,還能降低成本。 1. 選擇合適的
    的頭像 發(fā)表于 11-12 14:34 ?345次閱讀

    CAN總線數(shù)據(jù)傳輸速率設(shè)置

    CAN(Controller Area Network)總線是一種串行通信協(xié)議,主要用于汽車和工業(yè)控制系統(tǒng)中,以實現(xiàn)電子控制單元(ECU)之間的通信。CAN總線的數(shù)據(jù)傳輸速率,也稱為波特率,是衡量
    的頭像 發(fā)表于 11-12 10:03 ?558次閱讀

    LORA模塊的數(shù)據(jù)傳輸速率

    LoRa(Long Range)是一種用于物聯(lián)網(wǎng)(IoT)應(yīng)用的低功耗廣域網(wǎng)(LPWAN)技術(shù)。它以其長距離通信能力和低功耗特性而聞名。LoRa模塊的數(shù)據(jù)傳輸速率可以根據(jù)不同的配置和地區(qū)的規(guī)定
    的頭像 發(fā)表于 10-31 17:03 ?903次閱讀

    海外HTTP服務(wù)優(yōu)化:提升國際數(shù)據(jù)傳輸效率

    針對海外HTTP服務(wù)優(yōu)化以提升國際數(shù)據(jù)傳輸效率的問題。
    的頭像 發(fā)表于 10-17 07:18 ?255次閱讀

    網(wǎng)絡(luò)數(shù)據(jù)傳輸速率的單位是什么

    網(wǎng)絡(luò)數(shù)據(jù)傳輸速率的單位是 bps(bit per second) ,即比特每秒,也可以表示為b/s或bit/s。它表示的是每秒鐘傳輸的二進制數(shù)的位數(shù)。比特(bit)是計算機中數(shù)據(jù)量的單位,也是信息論
    的頭像 發(fā)表于 10-12 10:20 ?1242次閱讀

    usb主機模式和設(shè)備模式的區(qū)別

    : USB主機模式 在USB主機模式下,計算機或其他設(shè)備扮演主機的角色,負責管理USB總線上的通信。主機控制數(shù)據(jù)流,包括初始化連接、
    的頭像 發(fā)表于 09-25 09:06 ?840次閱讀

    SD NAND應(yīng)用存儲功能描述(5)數(shù)據(jù)傳輸

    數(shù)據(jù)傳輸方式 : 在卡識別模式結(jié)束之前,主機應(yīng)保持在最高頻率,因為某些卡在卡識別模式期間可能有工作頻率限制。在數(shù)據(jù)傳輸模式下,主機可以在fpp頻率范圍內(nèi)操作卡。
    的頭像 發(fā)表于 08-05 10:23 ?330次閱讀
    SD NAND應(yīng)用存儲功能描述(5)<b class='flag-5'>數(shù)據(jù)傳輸</b>

    二總線——MCU有線數(shù)據(jù)傳輸

    交互直接透傳協(xié)議的,但可以實現(xiàn)二根線上完成數(shù)據(jù)傳輸+供電,尤其適合樓宇里的智能設(shè)備聯(lián)動控制,如煙霧報警器與報警主機之間,如智能燈光控制等等一切合理的應(yīng)用。 POWERBUS二總線技術(shù),
    發(fā)表于 07-23 13:28

    探索SPI單線傳輸模式中時鐘線與數(shù)據(jù)傳輸的簡化

    通信的簡化需求也日益增加。在這種背景下,SPI的單線傳輸模式成為了一個備受關(guān)注的解決方案。 SPI協(xié)議概述 SPI協(xié)議是一種常用的同步串行通信協(xié)議,通常用于微控制器與其他設(shè)備之間數(shù)據(jù)傳輸。它基于主從架構(gòu),允許一個
    的頭像 發(fā)表于 05-28 18:26 ?1171次閱讀

    GMSL技術(shù) 實現(xiàn)高帶寬、低延遲和高可靠性數(shù)據(jù)傳輸# ADI# GMSL# 汽車# 數(shù)據(jù)傳輸

    adi數(shù)據(jù)傳輸電機
    Excelpoint世健
    發(fā)布于 :2024年05月17日 16:34:25

    DTU的多種協(xié)議,解鎖數(shù)據(jù)傳輸的無限可能

    DTU,即數(shù)據(jù)傳輸單元,是一種在物聯(lián)網(wǎng)(IoT)網(wǎng)絡(luò)中常用的設(shè)備,主要用于在傳感器和智能設(shè)備之間進行數(shù)據(jù)傳輸。DTU使用多種協(xié)議來實現(xiàn)這一目標,這些協(xié)議不僅提高了
    的頭像 發(fā)表于 03-01 11:00 ?801次閱讀
    DTU的多種協(xié)議,解鎖<b class='flag-5'>數(shù)據(jù)傳輸</b>的無限可能

    數(shù)字會議控制主機的定義和功能

    數(shù)字會議控制主機是一種先進的會議設(shè)備,主要用于實現(xiàn)會議的數(shù)字化和智能化。它集成了多種功能,包括音頻處理、視頻傳輸、數(shù)據(jù)傳輸、智能協(xié)作等,為會議參與者提供全方位的服務(wù)。 數(shù)字會議控制
    的頭像 發(fā)表于 01-23 14:34 ?1013次閱讀

    什么是訊維數(shù)字會議控制主機?

    訊維數(shù)字會議控制主機是一種專為音視頻工程應(yīng)用而研發(fā)的現(xiàn)代化高科技音視頻信號處理設(shè)備。它集成了多種功能,包括音頻處理、視頻傳輸、數(shù)據(jù)傳輸、智能協(xié)作等,為會議參與者提供全方位的服務(wù)。 ? 訊維數(shù)字會議
    的頭像 發(fā)表于 01-23 14:28 ?429次閱讀

    BF609的MCAPI中,如何利用mcapi中的scalar通道實現(xiàn)雙核之間數(shù)據(jù)傳輸

    本人正使用bf609 的 EZ-Kit, 目前想利用mcapi中的scalar通道實現(xiàn)雙核之間數(shù)據(jù)傳輸。 在core0和core1中已分別建立對應(yīng)的endpoint,并能在core0中讀取core1中對應(yīng)通道,但卻不能 連
    發(fā)表于 01-15 07:31