python爬虫第八章：(1)scrapy框架的基本使用

时间：11-05来源：作者：点击数：59

scrapy框架

什么是框架？
- 就是一个集成了很多功能并且具有很强通用性的一个项目模板。
如何学习框架？
- 专门学习框架封装的各种功能的详细用法。
什么是scrapy？
- 爬虫中封装好的一个明星框架。
- 功能：高性能的持久化存储，异步的数据下载，高性能的数据解析，分布式

scrapy框架的基本使用

环境的安装：

- mac or linux：pip install scrapy
- windows:
   - pip install wheel
    - 下载twisted，下载地址为http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
     - 安装twisted：pip install Twisted‑17.1.0‑cp36‑cp36m‑win_amd64.whl

 - pip install pywin32
 - pip install scrapy
 测试：在终端里录入scrapy指令，没有报错即表示安装成功！

    - cd xxxPro
    - 在spiders子目录中创建一个爬虫文件
        - scrapy genspider spiderName www.xxx.com
    - 执行工程：
        - scrapy crawl spiderName

创建一个工程

 - 创建一个工程：scrapy startproject xxxPro
 - cd xxxPro
 - 在spiders子目录中创建一个爬虫文件
        - scrapy genspider spiderName www.xxx.com
 - 执行工程：
        - scrapy crawl spiderName

scrapy使用

创建一个工程:scrapy startproject xxxPro

scrapy startproject firsBlood

在spiders子目录中创建一个爬虫文件

cd firsBlood

scrapy genspider first www.xxx.com #first爬虫文件名称随便写

执行工程：

# - scrapy crawl spiderName  #spiderName 是first

scrapy crawl first
scrapy crawl first --nolog #不建议

#把settings。py修改如下
        # Obey robots.txt rules
        ROBOTSTXT_OBEY = False   #我们修改

        #显示指定类型的日志信息
        LOG_LEVEL = 'ERROR'