CUDA:CUDA事件在GPU计时和重叠的CPU和GPU执行的实例
以下是一个使用CUDA事件在GPU计时和重叠的CPU和GPU执行的示例代码:
#include <iostream>
#include <chrono>
#include <cuda_runtime.h>
#include <device_launch_parameters.h>
void cpuTask()
{
// 模拟CPU任务
for (int i = 0; i < 1000000000; i++)
{
// Do some computation
}
}
__global__ void gpuTask()
{
// 模拟GPU任务
int idx = blockIdx.x * blockDim.x + threadIdx.x;
for (int i = 0; i < 1000000000; i++)
{
// Do some computation
}
}
int main()
{
const int blockSize = 256;
const int numBlocks = 32;
cudaEvent_t start, stop;
cudaEventCreate(&start);
cudaEventCreate(&stop);
// 启动CPU任务并记录开始时间
cudaEventRecord(start);
cpuTask();
cudaEventRecord(stop);
cudaEventSynchronize(stop);
float cpuElapsedTime;
cudaEventElapsedTime(&cpuElapsedTime, start, stop);
std::cout << "CPU time: " << cpuElapsedTime << " ms" << std::endl;
// 启动GPU任务并记录开始时间
cudaEventRecord(start);
gpuTask<<<numBlocks, blockSize>>>();
cudaEventRecord(stop);
cudaEventSynchronize(stop);
float gpuElapsedTime;
cudaEventElapsedTime(&gpuElapsedTime, start, stop);
std::cout << "GPU time: " << gpuElapsedTime << " ms" << std::endl;
cudaEventDestroy(start);
cudaEventDestroy(stop);
return 0;
}
该示例代码模拟了一个CPU和GPU的任务。在CPU任务中,我们执行一个简单的循环来模拟计算密集型的CPU操作。在GPU任务中,我们使用CUDA内核函数执行相同的计算密集型操作。
代码中使用了cudaEvent_t
类型的变量来记录开始和结束时间,并使用cudaEventRecord
函数来记录时间点。然后,我们使用cudaEventElapsedTime
函数来计算经过的时间。最后,通过比较CPU和GPU的时间来评估它们之间的性能差异。
该博文为原创文章,未经博主同意不得转。
本文章博客地址:https://cplusplus.blog.csdn.net/article/details/128394754