您当前的位置:首页 > 计算机 > 编程开发 > Python

使用Python批量爬取并下载具有防盗链保护的文件

时间:01-05来源:作者:点击数:

第一步:确定要爬取的目标页面,以http://jwc.sdtbu.edu.cn/info/2002/5418.htm为例,使用浏览器打开,如下:

图片

第二步:分析网页源代码,得到要下载的文件链接地址,如图:

图片

第三步:编写代码,尝试直接获取文件地址并下载,出错,因为该网站有反爬设置,如图:

图片

第四步:参考Python使用标准库urllib模拟浏览器爬取网页内容文中的描述,修改代码,模拟浏览器,如图:

图片

运行代码下载到的文件:

图片

打开下载后的文件,内容如下,这说明网站有防盗链功能:

图片

第五步:继续修改代码,假装是使用浏览器从页面正常下载,完整代码如下:

图片

下载的文件可以正常打开:

图片
方便获取更多学习、工作、生活信息请关注本站微信公众号城东书院 微信服务号城东书院 微信订阅号
推荐内容
相关内容
栏目更新
栏目热门