#include <iostream>
using namespace std;
#include <cuda.h> // CUDA头文件
__global__ void mykernel(void) {
cout << "hello cuda!\n";
// 此函数代码由设备执行,主机代码调用
// 设备函数由NVIDA编译器编译
// 主机函数由主机上配置的编译器编译
// 三个尖括号<<< >>>标志着一个从主机代码调用设备代码的函数
// 称为"启动内核(kernel launch)"
}
__global__ void integer_add(int *a, int *b, int *c){
*c = *a + *b;
}
// 函数声明
void add(void);
int main(void){
mykernel<<<1,1>>>();
// <<<Dg,Db,Ns,S >>>
// Dg:Dimension of grid 网格维度
// Db:Dimension of block 块维度
// Ns:可选参数,用于设置每个block除了静态分配的shared Memory以外,
// 最多能动态分配的shared Memory大小,单位位byte。不需要动态分配
// 时该值为0或省略不写。
// 是一个cudaSteam_t类型的可选参数,初始值为0,表示该核函数处在
// 哪个流之中
add();
return 0;
}
void add(void){
int a, b, c;
int *d_a, *d_b, *d_c;
int size = sizeof(int);
// 1、设置使用的GPU
cudaSetDevice(0);
// 2、 分配现存空间
cudaMalloc((void**)&d_a, size);
cudaMalloc((void**)&d_b, size);
cudaMalloc((void**)&d_c, size);
cout << "输入两个整数用空格隔开:\n";
cin >> a >> b;
// 3、 将宿主程序数据复制到显存中
cudaMemcpy(d_a, &a, size, cudaMemcpyHostToDevice);
cudaMemcpy(d_b, &b, size, cudaMemcpyHostToDevice);
// 4、 执行程序,让GPU进行计算,宿主程序等待显卡执行完毕
integer_add<<<1, 1>>>(d_a, d_b, d_c);
// 5、将计算后的结果从显存数据拷贝到宿主程序
cudaMemcpy(&c, d_c, size, cudaMemcpyDeviceToHost);
// 6、释放显存空间
cudaFree(d_a);
cudaFree(d_b);
cudaFree(d_c);
cout << "结果为:" << c << endl;
}
(五)利用GPU计算整数相加 CUDA
猜你喜欢
转载自blog.csdn.net/lemon4869/article/details/53525855
今日推荐
周排行