1、安装扩展库mechanicalsoup,这个库依赖requests、beautifulsoup4等模块,一般会自动安装,如果失败的话,可以先安装依赖的其他扩展库。
2、分析百度网页源代码,找到用来接收搜索关键字的表单和输入框。
3、准备文本文件,存储微信公众号“Python小屋”已发文章列表以备检查,可以在公众号菜单“历史文章分类速查表”中找到已发的550篇文章列表。
4、编写爬虫程序。
运行结果: