cuda sample中有0_simple下的cdpSimplePrint.cu模仿了cuda dynamic parallelism。
cdp指grid中的线程可生成新的grid,具体过程图示如下:
cuda sample 0_Simple/cdpSimplePrint执行过程如下图:
注:多个blocks可在同一个SMX上执行,__syncthreads( )同步一个block内的线程,shared memory由一个SMX内的所有线程可见。
关于threads,block,grid,smx,memory等在之前的博客中有介绍,
若有任何问题,欢迎一起探讨。