您当前的位置:首页 > 计算机 > 编程开发 > Python

Win10+Python3.6配置Spark创建分布式爬虫

时间:01-01来源:作者:点击数:

介绍Spark在Win 10系统中的的安装、配置以及在分布式爬虫中的使用,Python版本为3.6.8。

1、下载安装jdk,地址:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

2、添加环境变量JAVA_HOME,配置为jdk的安装路径。

3、下载Spark,解压缩到G:\spark-2.2.3-bin-hadoop2.7。

地址:http://mirrors.shu.edu.cn/apache/spark/spark-2.2.3/spark-2.2.3-bin-hadoop2.7.tgz,注意版本,并不是越新越好,很容易因为版本不兼容影响运行。

4、配置环境变量HADOOP_HOME和SPARK_HOME为Spark的解压缩目录G:\spark-2.2.3-bin-hadoop2.7。

5、修改环境变量PATH,把Python 3.6的安装目录放到前面,添加jdk安装路径。

6、下载winutils.exe并放到Spark解压缩目录的bin中,下载地址:http://public-repo-1.hortonworks.com/hdp-win-alpha/winutils.exe

7、编写爬虫程序sparkCrawlYuanshi.py并保存到Spark安装目录的bin目录中,以爬取工程院院士信息为例,略去对网页结构的分析,感兴趣的朋友可自行完成这个步骤。

8、进入Power Shell,执行命令./spark-submit.cmd sparkCrawlYuanshi.py运行爬虫程序。

方便获取更多学习、工作、生活信息请关注本站微信公众号城东书院 微信服务号城东书院 微信订阅号
推荐内容
相关内容
栏目更新
栏目热门