本节讲解如何抓取豆瓣电影“分类排行榜”中的电影数据(https://movie.douban.com/chart),比如输入“犯罪”则会输出所有犯罪影片的电影名称、评分,效果如下所示:
首先要明确豆瓣电影网站的类型,即是动态还是静态。检查方法:右键查看网页源码 —> 搜索“辛德勒的名单”关键字,如下图所示:
最终发现源码页中没有出现想要抓取的数据,只有一大堆的 JS 代码,由此确定该网站为动态网站。
接下来,使用快捷键 F12 打开控制台进行抓包,点击NetWork选项卡 —>XHR选项 —> Preview选项卡 —> 刷新当前页面抓取数据包,如下图所示:
从图 2 可知,我们想要抓取的数据取全部包含在当前的数据包中。当我们向下滚动鼠标滑轮时,左侧栏内的数据包会实现自动加载,这是使用 Ajax 异步加载技术实现的。
通过查看数据 Headers 选项可以明确 url 地址、查询参数等信息,如下所示:
从上图可以得知请求的基准 URL (由于还未拼接查询参数,所以称之为基准 URL),如下所示:
继续滚动鼠标滑轮可知查询参数具有如下规律:
注意:寻找规律时,后加载出来的数据包会排在最前面,除去第一个数据包外,其余数据包如下所示:
注意:第一个数据包反映了每个类型中电影的总数量,其 url 与响应信息如下:
影片的类型与类型码包含在电影排行榜的主界面中,如下所示:
分析上述页面结构,然后使用正则表达式来提取想要的数据,并定义选择菜单“menu”,代码如下所示:
- import re
-
- def get_all_type_films(self):
- # 获取影片类型和类型码
- url = 'https://movie.douban.com/chart'
- headers = self.get_headers()
- html = requests.get(url=url, headers=headers).text
- re_bds = r'<a href=.*?type_name=(.*?)&type=(.*?)&.*?</a>'
- pattern = re.compile(re_bds, re.S)
- r_list = pattern.findall(html)
- # 存放所有类型和对应类型码大字典
- type_dict = {}
- # 定义一个选择电影类型的菜单
- menu = ''
- # r_list[{'剧情 , 11'},{},..]
- for r in r_list:
- type_dict[r[0].strip()] = r[1].strip()
- # 获取input的菜单,显示所有电影类型
- menu += r[0].strip() + '|'
- #返回类型字典以供后续函数调用,并返回输入菜单menu
- # {'剧情': '11', '喜剧': '24',...}
- return type_dict, menu
编写完整程序
完成上述分析后,下面开始编写 Python 爬虫程序,代码如下:
- #coding:utf8
- import requests
- import time
- import random
- import re
- import json
- from ua_info import ua_list
-
- class DoubanSpider(object):
- def __init__(self):
- self.url = 'https://movie.douban.com/j/chart/top_list?'
- self.i = 0
-
- # 获取随机headers
- def get_headers(self):
- headers = {'User-Agent':random.choice(ua_list)}
- return headers
-
- # 获取页面
- def get_page(self,params):
- # 将json转换为 python 数据类型,并返回
- html = requests.get(url=self.url,params=params,headers=self.get_headers()).text
- html=json.loads(html)
- self.parse_page(html)
-
- # 解析并保存数据
- def parse_page(self,html):
- item = {}
- # html列表类型: [{电影1},{电影2},{电影3}...]
- for one in html:
- # 名称 + 评分
- item['name'] = one['title'].strip()
- item['score'] = float(one['score'].strip())
- print(item)
- self.i += 1
-
- # 获取电影总数
- def total_number(self,type_number):
- # F12抓包抓到的地址,type表示电影类型
- url = 'https://movie.douban.com/j/chart/top_list_count?type={}&interval_id=100%3A90'.format(type_number)
- headers = self.get_headers()
- html = requests.get(url=url,headers=headers).json()
- total = int(html['total'])
- return total
-
- # 获取所有电影的类型和对应type值
- def get_all_type_films(self):
- # 获取类型与类型码
- url = 'https://movie.douban.com/chart'
- headers = self.get_headers()
- html = requests.get(url=url,headers=headers).text
- re_bds = r'<a href=.*?type_name=(.*?)&type=(.*?)&.*?</a>'
- pattern = re.compile(re_bds,re.S)
- r_list = pattern.findall(html)
- # 存放所有类型和对应类型码大字典
- type_dict = {}
- #定义一个选择电影类型的菜单
- menu = ''
- for r in r_list:
- type_dict[r[0].strip()] = r[1].strip()
- # 获取input的菜单,显示所有电影类型
- menu += r[0].strip() + '|'
-
- return type_dict,menu
-
- # 主程序入口函数
- def main(self):
- # 获取type的值
- type_dict,menu = self.get_all_type_films()
- menu = menu + '\n你想了解什么类型电影:'
- name = input(menu)
- type_number = type_dict[name]
- # 获取电影总数
- total = self.total_number(type_number)
- for start in range(0,(total+1),20):
- #构建查询参数
- params = {
- 'type' : type_number,
- 'interval_id' : '100:90',
- 'action' : '',
- 'start' : str(start),
- 'limit' : '20'
- }
- # 调用函数,传递params参数
- self.get_page(params)
- # 随机休眠1-3秒
- time.sleep(random.randint(1,3))
- print('电影总数量:%d部'%self.i )
-
- if __name__ == '__main__':
- spider = DoubanSpider()
- spider.main()
输出示例:
最后我们对抓取动态网站数据做简单地总结: