技术背景 GPU的加速技术在深度学习.量子计算领域都已经被广泛的应用.其适用的计算模型是小内存的密集型计算场景,如果计算的模型内存较大,则需要使用到共享内存,这会直接导致巨大的数据交互的运算量,通信开销较大.因为pycuda的出现,也使得我们可以直接在python内直接使用GPU函数,当然也可以直接在python代码中集成一些C++的代码,用于构建GPU计算的函数.有一个专门介绍pycuda使用案例的中文开源代码仓可以简单参考一些实现的示例,但是这里面的示例数量还是比较有限,更多的案例可以直接参…