2025年3月27日星期四甲辰(龙)年月廿六设为首页加入收藏

进入网站首页面

掌上城东书院
定制您的专属资源库
m.cdsy.xyz

掌上城东书院
随时随地，想看就看

关注我们

首页

您当前的位置：首页 > 计算机 > 编程开发 > Python

Python使用pycuda在GPU上并行处理批量判断素数

时间：09-09来源：作者：点击数：29

借助于扩展库pycuda，可以在Python中访问NVIDIA显卡提供的CUDA并行计算API，使用非常方便。安装pycuda时要求已正确安装合适版本的CUDA和Visual Studio（注意，并不是版本越新越合适，目前2015暂时还不行，最好使用VS2013），然后再使用pip安装pycuda。

下面的代码用来统计100000000之内的所有素数个数。

import time

import pycuda.autoinit

import pycuda.driver as drv

import numpy as np

from pycuda.compiler import SourceModule

#编译C代码进入显卡，并行判断素数

mod = SourceModule('''

__global__ void isPrime(int *dest, int *a, int *b)

{

const int i = threadIdx.x+blockDim.x*blockIdx.x;

int j;

for(j=2;j<b[i];j++)

{

if(a[i]%j == 0)

{

break;

}

}

if(j >= b[i])

{

dest[i] = a[i];

}

}

''')

#定义待测数值范围，和每次处理的数字数量

end = 100000000

size = 1000

#获取函数

isPrime = mod.get_function("isPrime")

result = 0

start = time.time()

#分段处理，每次处理1000个数字

for i in range(end//size):

startN = i * size

a = np.array(range(startN, startN+size)).astype(np.int64)

b = np.array(list(map(lambda x: int(x**0.5)+1, a))).astype(np.int64)

dest = np.zeros_like(a)

isPrime(drv.Out(dest), drv.In(a), drv.In(b),

block=(size,1,1), grid=(2,1))

result += len(set(filter(None, dest)))

print(time.time()-start)

#上面的代码中把1也算上了，这里减去

print(result-1)

测试结果：在4核CPU、640核GPU的笔记本上运行，本文代码为在CPU上运行的类似代码运行速度的8倍左右。

方便获取更多学习、工作、生活信息请关注本站微信公众号 城东书院微信服务号

城东书院微信服务号

城东书院微信订阅号

4

上一篇:Python语言编程规范与优化建议下一篇:Python使用pyopencl在GPU上并行处理批量判断素数

推荐内容

高考生入学注意：这些大	【健康】纯净水、天然
14种竞赛生升学路径盘	excel后缀xls和xlsx有

相关内容

栏目更新

栏目热门

关于我们 | 联系我们 | 用户协议 | 广告服务 | 申请链接 | 网站地图 | 版权声明 | 用户留言 | 招聘信息 | 帮助中心 | 社区讨论 | 下载服务

中国文明网传播文明

Copyright ©2019-2024 CDSY Corporation, All Rights Reserved

城东书院^® CDSY.XYZ 版权所有湘ICP备19021508号-1 公安网备案

公安网备案

湘公网安备 43102202000103号

※学习、工作、生活信息平台※

莫笑风尘满病颜，此生原在有无间。卷舒莲叶终难湿，去住云心一种闲。

本网大部分资源来源于会员上传，除本网组织的资源外，版权归原作者所有，如有侵犯版权，请立刻和本网联系并提供证据，本网将在三个工作日内改正。