您当前的位置:首页 > 计算机 > 编程开发 > Python

Python使用标准库urllib模拟浏览器爬取网页内容

时间:12-30来源:作者:点击数:

爬取网页内容的第一步是分析目标网站源代码结构,确定自己要爬取的内容在哪里,这要求对HTML代码有一定了解,对于某些网站内容的爬取还需要具有一定的Javascript基础。但是,如果目标网站设置了反爬机制,就需要一些特殊的手段了,本文介绍一种使用爬虫程序模拟浏览器来对抗反爬机制的简单用法。

以下面的网页为例,使用浏览器可以正常浏览,也可以正常查看网页源代码。

然而,使用Python去读取网页源代码时却显示403错误,禁止访问。

使用urllib.request.urlopen()打开一个URL时,服务器端只会收到一个单纯的对于该页面访问的请求,但是服务器并不知道发送这个请求使用的浏览器、操作系统、硬件平台等信息,而缺失这些信息的请求往往都是非正常的访问,很可能是爬虫,然后拒绝访问,返回403错误。

对抗这种反爬机制比较简单的方式是,添加UserAgent信息,让程序假装自己是浏览器。

方便获取更多学习、工作、生活信息请关注本站微信公众号城东书院 微信服务号城东书院 微信订阅号
推荐内容
相关内容
栏目更新
栏目热门