C++和cuda C的结合发挥各自的优点

本次实验主要是实现vector复制到cuda中，一般教材上都是使用指针，很是繁琐，而且STL优秀的算法不太容易使用。为了实现C++ STL的优秀算法和cuda的并行计算能力，二设计的本次实验。

一下代码仅供提供思路。

#include <cuda_runtime.h>
#include <iostream>
#include <vector>
#include <algorithm>
#define DATATYPE float
__global__ void vector_add_gpu_1(DATATYPE *a,DATATYPE *b,DATATYPE *c,int n)
{
    for(int i = 0; i < n; ++i)
    {
        c[i] = a[i] + b[i];
    }
}

int main()
{
    int n;
    std::cout << "请输入数字" << std::endl;
    std::cin >> n;
    DATATYPE *d_a,*d_b,*d_c,*h_c;
    h_c = (float*)malloc(n*sizeof(float));
    std::vector<DATATYPE> h_a;
    std::vector<DATATYPE> h_b;

    std::cout << "正在赋值" << std::endl;
    for(int i = 0;i < n;++i)
    {
        h_a.push_back(i);
        h_b.push_back(i);

        std::cout << "h_a[" << i << "] = " << h_a[i] << "\t";
        std::cout << "h_b[" << i << "] = " << h_b[i] << "\t";
    }

    std::cout << std::endl;
    std::cout << "GPU运算中" << std::endl;
    cudaMalloc((void**)&d_a,sizeof(DATATYPE) * n);
    cudaMalloc((void**)&d_b,sizeof(DATATYPE) * n);
    cudaMalloc((void**)&d_c,sizeof(DATATYPE) * n);

    cudaMemcpy(d_a,&h_a[0],sizeof(DATATYPE) * n,cudaMemcpyHostToDevice);
    cudaMemcpy(d_b,&h_b[0],sizeof(DATATYPE) * n,cudaMemcpyHostToDevice);

    vector_add_gpu_1<<<1,1>>>(d_a,d_b,d_c,n);

    cudaMemcpy(h_c,d_c,sizeof(DATATYPE) * n,cudaMemcpyDeviceToHost);

    cudaFree(d_a);
    cudaFree(d_b);
    cudaFree(d_c);
    std::cout << "运算完成，输出。" << std::endl;
    for(int i = 0;i < n;++i)
    {
         std::cout << "h_c[" << i << "] = " << h_c[i] << std::endl;
    }
    return 0;
}

C++和cuda C的结合发挥各自的优点

猜你喜欢