2025年3月25日 星期二 甲辰(龙)年 月廿四 设为首页 加入收藏
rss
您当前的位置:首页 > 计算机 > 编程开发 > Python

python爬虫第八章:(1)scrapy框架的基本使用

时间:11-05来源:作者:点击数:59

scrapy框架

  • 什么是框架?
    • 就是一个集成了很多功能并且具有很强通用性的一个项目模板。
  • 如何学习框架?
    • 专门学习框架封装的各种功能的详细用法。
  • 什么是scrapy?
    • 爬虫中封装好的一个明星框架。
    • 功能:高性能的持久化存储,异步的数据下载,高性能的数据解析,分布式

scrapy框架的基本使用

环境的安装:

  • - mac or linux:pip install scrapy
  • - windows:
  • - pip install wheel
  • - 下载twisted,下载地址为http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
  • - 安装twisted:pip install Twisted‑17.1.0‑cp36‑cp36m‑win_amd64.whl
  • - pip install pywin32
  • - pip install scrapy
  • 测试:在终端里录入scrapy指令,没有报错即表示安装成功!
  • - cd xxxPro
  • - 在spiders子目录中创建一个爬虫文件
  • - scrapy genspider spiderName www.xxx.com
  • - 执行工程:
  • - scrapy crawl spiderName

创建一个工程

  • - 创建一个工程:scrapy startproject xxxPro
  • - cd xxxPro
  • - 在spiders子目录中创建一个爬虫文件
  • - scrapy genspider spiderName www.xxx.com
  • - 执行工程:
  • - scrapy crawl spiderName

scrapy使用

创建一个工程:scrapy startproject xxxPro

  • scrapy startproject firsBlood
在这里插入图片描述
在这里插入图片描述

在spiders子目录中创建一个爬虫文件

  • cd firsBlood
  • scrapy genspider first www.xxx.com #first爬虫文件名称随便写
在这里插入图片描述
在这里插入图片描述

执行工程:

  • # - scrapy crawl spiderName #spiderName 是first
  • scrapy crawl first
  • scrapy crawl first --nolog #不建议
  • #把settings。py修改如下
  • # Obey robots.txt rules
  • ROBOTSTXT_OBEY = False #我们修改
  • #显示指定类型的日志信息
  • LOG_LEVEL = 'ERROR'
在这里插入图片描述

遇到问题

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

只输出错误日志

方便获取更多学习、工作、生活信息请关注本站微信公众号城东书院 微信服务号城东书院 微信订阅号
推荐内容
相关内容
栏目更新
栏目热门