问题描述:爬取微信公众号“Python小屋”所有文章,每篇文章生成一个独立的Word文档,包含该文中的文字、图片、表格、超链接。
技术要点:扩展库requests、beautifulsoup4、python-docx。
================
第一步,安装代码中需要用到的扩展库requests、beautifulsoup4、python-docx。遇到问题可以参考Python编程常见出错信息及原因分析(5):安装扩展库
第二步,微信关注公众号“Python小屋”,进入菜单“最新资源”==>“历史文章”,复制该文链接,然后使用电脑端浏览器打开该链接,查看公众号所有文章的清单,如图:
第三步,查看网页源代码,分析每篇文章链接的结构,如图:
第四步,查看几篇文章,分别分析网页源代码中文字、图、表格、超链接的结构特点,如图:
第五步,编写代码。
第六步,运行爬虫程序,生成Word文档。