学习CUDA的第一天!
#include "cuda_runtime.h"
#include "device_launch_parameters.h"
#include <stdio.h>
#include<math.h>
//#include<iostream.h>
#define N 64
#define TPB 32
__device__ float scale(int i, int n)
{
return ((float)i / (n - 1));
}
__device__ float distance(float x1, float x2)
{
return sqrt((x2-x1)*(x2 - x1));
}
__global__ void distanceKernel(float *d_out, float ref, int len)
{
//GridDim为网格中线程块的数目,blockDim为线程块中线程数目,blockIdx为每个线程块的索引,threadIdx为线程在线程块中的索引
//blockId.x表示每一行有多少线程块,blockIdx.y表示每列有多少线程块
//,threadIdx.x表示在每一行上的索引,同理.y就表示在列上的,如果没有的话就默认为1
//
const int i = blockIdx.x*blockDim.x + threadIdx.x;
//归一化
const float x = scale(i, len);
//计算x与ref的距离
d_out[i] = distance(x, ref);
printf("i = %2d: %f 到 %f 的距离为 %f。\n", i, ref, x, d_out[i]);
}
int main()
{
const float ref = 0.5f;
float*d_out = 0;
//参数是对d_out指针的引用和开辟空间的大小。
//为什么是引用:因为他要在显存中开辟空间,要是首地址按照形参传递不会改变实参。d_out的地址还是在主存中的地址
cudaMalloc(&d_out, N * sizeof(float));
distanceKernel << <N / TPB, TPB >> > (d_out, ref, N);
cudaFree(d_out);
//scanf("请输入:");
}