您当前的位置：首页 > 计算机 > 编程开发 > Python

使用Python批量爬取并下载具有防盗链保护的文件

时间：01-05来源：作者：点击数：22

第一步：确定要爬取的目标页面，以http://jwc.sdtbu.edu.cn/info/2002/5418.htm为例，使用浏览器打开，如下：

第二步：分析网页源代码，得到要下载的文件链接地址，如图：

第三步：编写代码，尝试直接获取文件地址并下载，出错，因为该网站有反爬设置，如图：

第四步：参考Python使用标准库urllib模拟浏览器爬取网页内容文中的描述，修改代码，模拟浏览器，如图：

运行代码下载到的文件：

打开下载后的文件，内容如下，这说明网站有防盗链功能：

第五步：继续修改代码，假装是使用浏览器从页面正常下载，完整代码如下：

下载的文件可以正常打开：

方便获取更多学习、工作、生活信息请关注本站微信公众号 城东书院微信服务号

高考生入学注意：这些大	【健康】纯净水、天然
14种竞赛生升学路径盘	excel后缀xls和xlsx有

首页