1、在命令提示符环境使用pip install scrapy命令安装Python扩展库scrapy,详见Python使用Scrapy爬虫框架爬取天涯社区小说“大宗师”全文
2、使用下图中的命令创建爬虫项目
3、进入爬虫项目文件夹,执行下面的命令创建爬虫
现在,爬虫项目的文件夹结构如下图所示
4、使用浏览器打开网址http://www.weather.com.cn/shandong/index.shtml,然后下拉,找到“城市预报列表”
5、在页面上单击鼠标右键,选择“查看网页源代码”,然后找到与“城市预报列表”对应的位置
6、选择并打开山东省内任意城市的天气预报页面,此处以烟台为例
7、在页面上单击鼠标右键,选择“查看网页源代码”,找到与上图中天气预报相对应的位置
8、修改items.py文件,定义要爬取的内容,红色方框内是自己写的代码
9、修改爬虫文件everyCityinSD.py,定义如何爬取内容,其中用到的规则参考前面对页面的分析
10、修改pipelines.py文件,把爬取到的数据写入文件weather.txt,红色方框内是自己写的代码
11、修改settings.py文件,分派任务,指定处理数据的程序,红色方框内是自己写的代码
12、切换到命令提示符环境,执行下面的命令运行爬虫程序
稍等几秒钟,生成包含各城市天气预报数据的文件weather.txt
其中内容为