先写一个简单的分页爬虫:
- #创建scrapy环境,在爬虫文件中(qiushi.py)中
-
- import scrapy
- from scrapy.spiders import CrawlSpider,Rule
- from scrapy.linkextractors import LinkExtractor
-
- from xiushibaike.items import XiushibaikeItem
-
-
- class QiushiSpider(CrawlSpider):
- name = 'qiushi'
- allowed_domains = ['qiushibaike.com']
- start_urls = ['https://www.qiushibaike.com/text/']
-
- rules = [
- Rule(
- LinkExtractor(
- allow=('/text/page/\d+/',), #要匹配分页的标签元素
- restrict_xpaths=('//ul[@class="pagination"]'), #要匹配分页元素的分页域
- ),
- callback='parse_item', #回调函数
- follow=True #分页后,是否跟进
- )
- ]
-
-
- def parse_item(self, response, **kwargs):
- # print(response.text)
- dz_list = response.xpath('//div[@class="col1 old-style-col1"]/div')
- for dz in dz_list:
- name = dz.xpath('./div[@class="author clearfix"]/a[2]/h2/text()').get()
- content = dz.xpath('./a/div[@class="content"]/span/text()').get().strip()
- print(name, content)
- item = XiushibaikeItem()
- item['name'] = name
- item['content'] = content
- yield item
-
-
- #items.py中
-
- import scrapy
- class XiushibaikeItem(scrapy.Item):
- # define the fields for your item here like:
- name = scrapy.Field()
- content = scrapy.Field()
-
-
- #管道(pipelines.py)中
- from itemadapter import ItemAdapter
-
-
- class XiushibaikePipeline:
- def open_spider(self,spider): #爬虫开始执行一次
- self.f = open('qiushibaike.txt','a',encoding='utf-8')
-
- def process_item(self, item, spider):
- name = item.get('name')
- content = item.get('content')
- string = str((name,content)) + '\n' #文件追加写入
- self.f.write(string)
- return item
-
- def close_spider(self,spider): #爬虫结束执行一次
- self.f.close()
-
-
-
- #至此,这个爬虫已经可以运行,如果要配置日志则在settings.py中添加如下配置
-
Scrapy(框架自带)配置日志
- 可以修改配置文件settings.py,任意位置添加下面两行,效果会清爽很多。
- LOG_ENABLED = True # 开启
- LOG_FILE = "mySpider.log" #日志文件名
- LOG_LEVEL = "INFO" #日志级别
-
-
- Log levels(日志级别详解)
- - Scrapy提供5层logging级别:
- - CRITICAL - 严重错误(critical)
- - ERROR - 一般错误(regular errors)
- - WARNING - 警告信息(warning messages)
- - INFO - 一般信息(informational messages)
- - DEBUG - 调试信息(debugging messages)
-
-
- logging设置(日志配置)
-
- 通过在setting.py中进行以下设置可以被用来配置logging:
-
- `LOG_ENABLED`
-
- 默认: True,启用logging
-
- `LOG_ENCODING`
-
- 默认: 'utf-8',logging使用的编码
-
- `LOG_FILE`
-
- 默认: None,在当前目录里创建logging输出文件的文件名
-
- `LOG_LEVEL`
-
- 默认: 'DEBUG',log的最低级别
-
Python标准库的logging模块
- #在爬虫文件中
- import logging
-
- LOG_FORMAT = "%(asctime)s - %(levelname)s - %(message)s" # 设置输出格式
- DATE_FORMAT = "%Y/%m/%d %H:%M:%S" # 设置时间格式
- logging.basicConfig(filename='sina.log', filemode='a+', format=LOG_FORMAT, datefmt=DATE_FORMAT)
-
- #在自己想要的地方加上日志
- logging.info('download data')
-
Settings.py详解
- DOWNLOAD_DELAY = 0.25 -- 设置下载间隔为250ms
-
- DOWNLOAD_TIMEOUT = 60 --设置下载超时时间,一般写为60足够
-
- REACTOR_THREADPOOL_MAXSIZE = 10 --默认开启10个线程
-
- BOT_NAME = 'xiushibaike' --用来构造默认 User-Agent,同时也用来log,建项目时其也被自动赋值
-
- CONCURRENT_REQUESTS = 32 --最大请求并发数(默认16)
-
- ROBOTSTXT_OBEY = False --是否遵守爬虫协议(默认为True,一般改为False)
-
- CONCURRENT_REQUESTS_PER_DOMAIN = 16 --针对单个域名的并发最大值限制
-
-
- #CONCURRENT_REQUESTS_PER_IP = 16 --和上面的单个域名一般只配置一个
- 默认: `0`
-
- 对单个IP进行并发请求的最大值。如果非0,则忽略 [`CONCURRENT_REQUESTS_PER_DOMAIN`](https://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/settings.html#std:setting-CONCURRENT_REQUESTS_PER_DOMAIN) 设定, 使用该设定。 也就是说,并发限制将针对IP,而不是网站。
-
- 该设定也影响 [`DOWNLOAD_DELAY`](https://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/settings.html#std:setting-DOWNLOAD_DELAY): 如果 [`CONCURRENT_REQUESTS_PER_IP`](https://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/settings.html#std:setting-CONCURRENT_REQUESTS_PER_IP) 非0,下载延迟应用在IP而不是网站上。
-
-
- COOKIES_ENABLED = False --是否禁用cookies(默认可用为True)
-
-
- TELNETCONSOLE_ENABLED = False --禁用Telnet控制台(默认启用)
-
-
- DEFAULT_REQUEST_HEADERS = {
- 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
- 'Accept-Language': 'en',
- } -- 是否重写请求头
-
-
- SPIDER_MIDDLEWARES = {
- 'xiushibaike.middlewares.XiushibaikeSpiderMiddleware': 543,
- } -- 启用或禁用爬虫中间件
-
-
- DOWNLOADER_MIDDLEWARES = {
- 'xiushibaike.middlewares.XiushibaikeDownloaderMiddleware': 543,
- } --启用或禁用下载中间件
-
-
- EXTENSIONS = {
- 'scrapy.extensions.telnet.TelnetConsole': None,
- } --启用或禁用扩展
-
-
-
- ITEM_PIPELINES = {
- 'xiushibaike.pipelines.XiushibaikePipeline': 300,
- } --配置项目管道
-
-
- AUTOTHROTTLE_START_DELAY = 5 --初始下载延迟
-
- AUTOTHROTTLE_MAX_DELAY = 60 --在高延迟情况下设置的最大下载延迟
-
- AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0 --Scrapy应该并行发送到每个远程服务器的平均请求数
-
- AUTOTHROTTLE_DEBUG = False -- 启用显示接收到的每个响应的限制状态
-
- URLLENGTH_LIMIT = 2083 --爬取URL的最大长度
-
- REDIRECT_MAX_TIMES = 20
- --定义request允许重定向的最大次数。超过该限制后该request直接返回获取到的结果。 对某些任务我
- 们使用Firefox默认值。
-
- LOG_STDOUT = False
- --如果为 `True` ,进程所有的标准输出(及错误)将会被重定向到log中。例如, 执行 `print 'hello'` ,其将
- 会在Scrapy log中显示。
-
-
- ITEM_PIPELINES_BASE = {}
- --保存项目中默认启用的pipeline的字典。 永远不要在项目中修改该设定,而是修改 [`ITEM_PIPE
- LINES`](https://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/settings.html#std:setting-ITEM_PI
- PELINES)。
-
-
- ITEM_PIPELINES = {} #默认为{}
- --保存项目中启用的pipeline及其顺序的字典。该字典默认为空,值(value)任意。 不过值(value)习惯
- 设定在0-1000范围内。
- 示例:
- ITEM_PIPELINES = {
- 'mybot.pipelines.validate.ValidateMyItem': 300,
- 'mybot.pipelines.validate.StoreMyItem': 800,
- }
-
-
- DEPTH_LIMIT = 0 -- 爬取网站最大允许的深度(depth)值。如果为0,则没有限制。
-
-
- CONCURRENT_ITEMS = 100
- --IItem Processor(即 [Item Pipeline](https://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/it
- em-pipeline.html#topics-item-pipeline)) 同时处理(每个response的)item的最大值。
-
-
- SCHEDULER
- -- 默认: `'scrapy.core.scheduler.Scheduler' 用于爬取的调度器。
-
-
- 启用和配置HTTP缓存(默认情况下禁用)
- #HTTPCACHE_ENABLED = True
- #HTTPCACHE_EXPIRATION_SECS = 0
- #HTTPCACHE_DIR = 'httpcache'
- #HTTPCACHE_IGNORE_HTTP_CODES = []
- #HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'
-
- # 项目名称
- BOT_NAME = '$project_name'
-
- SPIDER_MODULES = ['$project_name.spiders']
- NEWSPIDER_MODULE = '$project_name.spiders'
-
- # 在项目处理器(也称为“ 项目管道”)中并行处理的最大并发项目数(每个响应),默认100。
- #CONCURRENT_ITEMS = 100
-
- # Scrapy下载器将执行的并发(即,并发)请求的最大数量,默认16
- CONCURRENT_REQUESTS = 8
-
- # 从同一网站下载连续页面之前,下载程序应等待的时间(以秒为单位)。
- # 这可以用来限制爬网速度,以避免对服务器造成太大的冲击。支持小数。
- # 默认情况下,Scrapy不会在请求之间等待固定的时间,而是使用0.5 * DOWNLOAD_DELAY和1.5 * DOWNLOAD_DELAY之间的随机间隔。
- #DOWNLOAD_DELAY = 0
-
- # 将对任何单个域执行的并发(即,并发)请求的最大数量,默认8
- #CONCURRENT_REQUESTS_PER_DOMAIN = 16
-
- # 将对任何单个IP执行的并发(即,并发)请求的最大数量,默认0。
- # 如果非0,CONCURRENT_REQUESTS_PER_DOMAIN这个参数会被忽略,即按IP不按域名。DOWNLOAD_DELAY也是按IP
- #CONCURRENT_REQUESTS_PER_IP = 16
-
- # 将用于实例化Scrapy shell中的项目的默认类
- #DEFAULT_ITEM_CLASS = 'scrapy.item.Item'
-
- # 对于任何站点,将允许爬网的最大深度。如果为零,则不施加限制
- #DEPTH_LIMIT = 0
-
- # 根据DEPTH_PRIORITY的值取决于深度优先或广度优先,即正值为广度优先(BFO),负值为深度优先(DFO)
- # 计算公式:request.priority = request.priority - ( depth * DEPTH_PRIORITY )
- #DEPTH_PRIORITY = 0
-
- # 是否启用cookie
- COOKIES_ENABLED = False
-
- # 如果启用,Scrapy将记录请求中发送的所有cookie(即Cookie 标头)和响应中接收的所有cookie(即Set-Cookie标头)
- #COOKIES_DEBUG = False
-
- # 是否收集详细的深度统计信息。如果启用此功能,则在统计信息中收集每个深度的请求数
- #DEPTH_STATS_VERBOSE = False
-
- # 是否启用DNS内存缓存
- #DNSCACHE_ENABLED = True
-
- # DNS内存缓存大小
- #DNSCACHE_SIZE = 10000
-
- # 处理DNS查询的超时时间(以秒为单位)。支持浮动
- #DNS_TIMEOUT = 60
-
- # 用于爬网的下载器
- #DOWNLOADER = 'scrapy.core.downloader.Downloader'
-
- # Disable Telnet Console (enabled by default)
- #TELNETCONSOLE_ENABLED = False
-
- # 包含您的项目中启用的下载器中间件及其命令的字典
- #DOWNLOADER_MIDDLEWARE = {}
-
- # 用于Scrapy HTTP请求的默认标头。它们被填充在 DefaultHeadersMiddleware
- DEFAULT_REQUEST_HEADERS = {
- }
-
- # Scrapy中默认启用的下载程序中间件的字典。低值更接近引擎,高值更接近下载器,
- # 不要试图修改此设置,请修改DOWNLOADER_MIDDLEWARE
- #DOWNLOADER_MIDDLEWARES_BASE = {
- # 'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100,
- # 'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware': 300,
- # 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware': 350,
- # 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware': 400,
- # 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 500,
- # 'scrapy.downloadermiddlewares.retry.RetryMiddleware': 550,
- # 'scrapy.downloadermiddlewares.ajaxcrawl.AjaxCrawlMiddleware': 560,
- # 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware': 580,
- # 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 590,
- # 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware': 600,
- # 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700,
- # 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 750,
- # 'scrapy.downloadermiddlewares.stats.DownloaderStats': 850,
- # 'scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware': 900,
- # }
-
- # 是否启用下载器统计信息收集
- #DOWNLOADER_STATS = True
-
- # 包含在项目中启用的请求下载处理程序的字典
- #DOWNLOAD_HANDLERS = {}
-
- # 包含请求下载处理程序的默认字典
- # 如果要禁用FTP处理程序,请设置DOWNLOAD_HANDLERS = {'ftp': None}
- #DOWNLOAD_HANDLERS_BASE = {
- # 'file': 'scrapy.core.downloader.handlers.file.FileDownloadHandler',
- # 'http': 'scrapy.core.downloader.handlers.http.HTTPDownloadHandler',
- # 'https': 'scrapy.core.downloader.handlers.http.HTTPDownloadHandler',
- # 's3': 'scrapy.core.downloader.handlers.s3.S3DownloadHandler',
- # 'ftp': 'scrapy.core.downloader.handlers.ftp.FTPDownloadHandler',
- # }
-
- # 下载程序的超时时间(以秒为单位)
- #DOWNLOAD_TIMEOUT = 180
-
- # 载程序将下载的最大响应大小(以字节为单位,默认1024MB),为0则不限制
- #DOWNLOAD_MAXSIZE = 1073741824
-
- # 下载程序将开始警告的响应大小(以字节为单位,默认32MB)
- #DOWNLOAD_WARNSIZE = 33554432
-
- # 声明的Content-Length与服务器发送的内容不匹配,是否触发异常ResponseFailed([_DataLoss])
- # 如果为False,可以在爬虫文件中判断并处理 if 'dataloss' in response.flags:
- #DOWNLOAD_FAIL_ON_DATALOSS = True
-
- # 用于检测和过滤重复请求的类
- #DUPEFILTER_CLASS = 'scrapy.dupefilters.RFPDupeFilter'
-
- # 默认情况下,RFPDupeFilter仅记录第一个重复的请求。设置DUPEFILTER_DEBUG为True它将记录所有重复的请求。
- #DUPEFILTER_DEBUG = False
-
- # 包含您的项目中启用的扩展及其顺序的字典
- #EXTENSIONS = {}
-
- # 包含默认情况下在Scrapy中可用的扩展程序及其顺序的字典
- #EXTENSIONS_BASE = {
- # 'scrapy.extensions.corestats.CoreStats': 0,
- # 'scrapy.extensions.telnet.TelnetConsole': 0,
- # 'scrapy.extensions.memusage.MemoryUsage': 0,
- # 'scrapy.extensions.memdebug.MemoryDebugger': 0,
- # 'scrapy.extensions.closespider.CloseSpider': 0,
- # 'scrapy.extensions.feedexport.FeedExporter': 0,
- # 'scrapy.extensions.logstats.LogStats': 0,
- # 'scrapy.extensions.spiderstate.SpiderState': 0,
- # 'scrapy.extensions.throttle.AutoThrottle': 0,
- # }
-
- # 包含要使用的项目管道及其顺序的字典。值是任意的,但是习惯上将它们定义在0-1000范围内。低值优先于高值
- #ITEM_PIPELINES = {}
-
- # 是否启用日志记录
- #LOG_ENABLED = True
-
- # 用于日志记录的编码
- #LOG_ENCODING = 'utf-8'
-
- # 用于记录输出的文件名
- #LOG_FILE = None
-
- # 用于格式化日志消息的字符串
- #LOG_FORMAT = '%(asctime)s [%(name)s] %(levelname)s: %(message)s'
-
- # 用于格式化日期/时间的字符串,用于改变LOG_FORMAT 中的asctime占位符
- #LOG_DATEFORMAT = '%Y-%m-%d %H:%M:%S'
-
- # 用于格式化不同操作的日志消息的类
- #LOG_FORMATTER = "scrapy.logformatter.LogFormatter"
-
- # 最低记录级别, 可用:CRITICAL, ERROR, WARNING, INFO, DEBUG
- #LOG_LEVEL = 'DEBUG'
-
- # 如果为True,所有标准输出(和错误)将被重定向到日志,例如print也会被记录在日志
- #LOG_STDOUT = False
-
- # 如果为True,则日志将仅包含根路径;如果设置为False,则显示负责日志输出的组件
- #LOG_SHORT_NAMES = False
-
- # 每次统计记录打印输出之间的间隔(以秒为单位)
- #LOGSTATS_INTERVAL = 60.0
-
- # 是否启用内存调试
- #MEMDEBUG_ENABLED = False
-
- # 启用内存调试后,如果此设置不为空,则会将内存报告发送到指定的邮箱地址,否则该报告将被写入日志。
- # 例如:MEMDEBUG_NOTIFY = ['user@example.com']
- #MEMDEBUG_NOTIFY = []
-
- # 是否启用内存使用扩展。此扩展跟踪该进程使用的峰值内存(将其写入统计信息)。
- # 当超过内存限制时,它还可以选择关闭Scrapy进程,并在发生这种情况时通过电子邮件通知
- #MEMUSAGE_ENABLED = True
-
- # 关闭Scrapy之前允许的最大内存量
- #MEMUSAGE_LIMIT_MB = 0
-
- #MEMUSAGE_CHECK_INTERVAL_SECONDS = 60.0
-
- # 电子邮件列表,用于通知是否已达到内存限制
- #MEMUSAGE_NOTIFY_MAIL = False
-
- # 发送警告电子邮件通知最大内存之前允许的最大内存量(以兆字节为单位)。如果为零,则不会发出警告
- #MEMUSAGE_WARNING_MB = 0
-
- # 使用genspider命令创建爬虫的模板
- #NEWSPIDER_MODULE = ""
-
- # 如果启用,Scrapy将在从同一网站获取请求的同时等待随机的时间(介于0.5 * DOWNLOAD_DELAY和1.5 *之间DOWNLOAD_DELAY)
- #RANDOMIZE_DOWNLOAD_DELAY = True
-
- # Twisted Reactor线程池大小的最大限制。这是各种Scrapy组件使用的通用多用途线程池。
- # 线程DNS解析器,BlockingFeedStorage,S3FilesStore仅举几例。
- # 如果遇到阻塞IO不足的问题,请增加此值。
- #REACTOR_THREADPOOL_MAXSIZE = 10
-
- # 定义可以重定向请求的最长时间。超过此最大值后,将按原样返回请求的响应
- #REDIRECT_MAX_TIMES = 20
-
- # 调整重定向请求的优先级,为正则优先级高
- #REDIRECT_PRIORITY_ADJUST = 2
-
- # 调整重试请求的优先级
- #RETRY_PRIORITY_ADJUST = -1
-
- # 是否遵循robot协议
- ROBOTSTXT_OBEY = False
-
- # 用于解析robots.txt文件的解析器后端
- #ROBOTSTXT_PARSER = 'scrapy.robotstxt.ProtegoRobotParser'
-
- #ROBOTSTXT_USER_AGENT = None
-
- # 用于爬网的调度程序
- #SCHEDULER = 'scrapy.core.scheduler.Scheduler'
-
- # 设置为True将记录有关请求调度程序的调试信息
- #SCHEDULER_DEBUG = False
-
- # 调度程序将使用的磁盘队列的类型。其他可用类型:scrapy.squeues.PickleFifoDiskQueue,
- # scrapy.squeues.MarshalFifoDiskQueue, scrapy.squeues.MarshalLifoDiskQueue
- #SCHEDULER_DISK_QUEUE = 'scrapy.squeues.PickleLifoDiskQueue'
-
- # 调度程序使用的内存队列的类型。其他可用类型: scrapy.squeues.FifoMemoryQueue
- #SCHEDULER_MEMORY_QUEUE = 'scrapy.squeues.LifoMemoryQueue'
-
- # 调度程序使用的优先级队列的类型。另一种可用的类型是 scrapy.pqueues.DownloaderAwarePriorityQueue
- #SCHEDULER_PRIORITY_QUEUE = 'scrapy.pqueues.ScrapyPriorityQueue'
-
- # 正在处理响应数据的软限制(以字节为单位)。
- # 如果所有正在处理的响应的大小总和高于此值,Scrapy不会处理新的请求
- #SCRAPER_SLOT_MAX_ACTIVE_SIZE = 5_000_000
-
- # 包含您的项目中启用的蜘蛛合约的字典,用于测试蜘蛛
- #SPIDER_CONTRACTS = {}
-
- # 包含Scrapy合同中默认启用的Scrapy合同的字典
- #SPIDER_CONTRACTS_BASE = {
- # 'scrapy.contracts.default.UrlContract' : 1,
- # 'scrapy.contracts.default.ReturnsContract': 2,
- # 'scrapy.contracts.default.ScrapesContract': 3,
- # }
-
- # 将用于加载蜘蛛的类
- #SPIDER_LOADER_CLASS = 'scrapy.spiderloader.SpiderLoader'
-
- # 包含您的项目中启用的蜘蛛中间件及其命令的字典
- #SPIDER_MIDDLEWARES = {}
-
- #SPIDER_MIDDLEWARES_BASE = {
- # 'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware': 50,
- # 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware': 500,
- # 'scrapy.spidermiddlewares.referer.RefererMiddleware': 700,
- # 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware': 800,
- # 'scrapy.spidermiddlewares.depth.DepthMiddleware': 900,
- # }
-
- # Scrapy将在其中寻找蜘蛛的模板列表
- #SPIDER_MODULES = {}
-
- # 用于收集统计信息的类
- #STATS_CLASS = 'scrapy.statscollectors.MemoryStatsCollector'
-
- # 蜘蛛完成后,将Scrapy统计信息转储到Scrapy日志中
- #STATS_DUMP = True
-
- # 蜘蛛抓取完毕后发送Scrapy统计信息的邮箱列表
- #STATSMAILER_RCPTS = []
-
- # 指定是否 将启用telnet控制台
- #TELNETCONSOLE_ENABLED = True
-
- # 用于telnet控制台的端口范围。如果设置为None或0,则使用动态分配的端口
- #TELNETCONSOLE_PORT = [6023, 6073]
-
- # 使用startproject命令创建新项目和使用 genspider命令创建新的Spider时要在其中查找模板的目录
- #TEMPLATES_DIR = "templates"
-
- # 允许抓取的URL的最大URL长度
- #URLLENGTH_LIMIT = 2083
-
- # 爬网时使用的默认User-Agent
- #USER_AGENT = "Scrapy/VERSION (+https://scrapy.org)"
-