一、CUDA编程模型
1.CUDA程序执行流程

2.CUDA核函数kernel


3.CUDA程序层次结构

kernel/Grid——>Block——>WARP——>Thread

上图中一个Kernel/Grid包含2×3个Block,一个Block包含3×5个线程


4.CUDA内置变量



二、向量加法程序解读







三、GPU内存模型












四、GPU内存的使用










内存管理代码解析:




五、CUDA程序执行与硬件映射





六、规约算法
1.什么是规约算法

串行计算:

并行计算:


3.CUDA并行计算的策略


4.全局同步

但CUDA不支持此策略

可能出现死锁


七、规约算法——二叉树算法
优化目标:




