第一步:确定要爬取的目标页面,以http://jwc.sdtbu.edu.cn/info/2002/5418.htm为例,使用浏览器打开,如下:
第二步:分析网页源代码,得到要下载的文件链接地址,如图:
第三步:编写代码,尝试直接获取文件地址并下载,出错,因为该网站有反爬设置,如图:
第四步:参考Python使用标准库urllib模拟浏览器爬取网页内容文中的描述,修改代码,模拟浏览器,如图:
运行代码下载到的文件:
打开下载后的文件,内容如下,这说明网站有防盗链功能:
第五步:继续修改代码,假装是使用浏览器从页面正常下载,完整代码如下:
下载的文件可以正常打开: