问题描述:在爬取百度搜索结果时,往往会得到一个中转链接,而不是真实地址,在浏览器打开这个中转链接之后才会变成真实地址。可以通过破解算法、抓包跟踪等不同手段来还原这样的地址,也可以模拟浏览器打开百度跳转链接之后获取真实地址,虽然速度稍慢一点,但是方便实现。本文使用selenium+PhantomJS来模拟这个过程并获取真实地址。
1、打开网址http://phantomjs.org/download.html,下载PhantomJS,本文以Windows平台为例。下载压缩文件,把解压缩得到的phantomjs.exe复制到Python 3.6的安装目录下,也就是解释器主程序python.exe所在的文件夹。
2、使用pip命令安装Python扩展库selenium。
3、使用PhantomJS打开中转链接,然后获取真实地址。以前面文章Python 3.6模拟输入并爬取百度前10页密切相关链接为例,在代码中增加下面几行代码。
运行结果: