您当前的位置:首页 > 计算机 > 编程开发 > Python

【Python爬虫学习-案例练习(3)】:requests+BeautifulSoup库爬取猫眼电影(深度爬取)

时间:05-20来源:作者:点击数:

一、分析

1、爬取网址:https://maoyan.com/films

2、爬取按“经典影片”,“按评价排序”筛选后的电影数据

3、滑动到页面底部,多点击几次不同页面发现url地址的规律

提取url为:https://maoyan.com/films?showType=3&sortId=3&offset=0

4、分析元素

-------分割线--------

-------分割线--------

先将所有的dd标签找到,得到一个存放所有dd标签的列表:filmList = bs.find_all(name='dd')

再遍历dd标签列表,每一个dd标签通过属性值的方式来找到其内部的对应属性的div标签或者span标签,获取其文本信息

二、先写一个demo代码

注意:该网站访问必须加上Cookie和User-Agent(试了多次发现的,不加上访问不到数据)

爬取第3页的数据:

运行结果:

三、加上深度爬取(如爬取前3页的数据)

运行结果:

四、代码优化

运行结果:

方便获取更多学习、工作、生活信息请关注本站微信公众号城东书院 微信服务号城东书院 微信订阅号
推荐内容
相关内容
栏目更新
栏目热门