前几天在公众号搞了一波送书活动,该文推送之后,立刻收到了大量的样书申请表,那么接下来的工作就是下载这些邮件附件并汇总信息准备邮寄。对于这样重复性很强且没有太多技术含量的工作,很明显使用人工处理是不明智的,基本上几百份申请表处理完以后颈椎腰椎肩周都会出毛病了。
每当遇到这样的情况,我们就要在心底轻轻地默念咒语“我不是一般人,我会Python,Python一定能帮我快速处理好这个事情”。明确了要处理的任务之后,接下来的事情就是理清思路、查阅要使用的标准库和扩展库、搭建代码框架、填充框架完善代码,直到最终完成任务。
首先,通过查阅资料,了解电子邮件和Excel文件的结构,确定要用到的标准库和扩展库,并进行导入:
然后,让我们把代码框架搭建起来,定义两个函数getAttachments和mergeExcels,具体的函数代码可以先用pass代替一下,然后编写主函数main来调用这两个函数,如图所示:
编写getAttachments函数代码,实现邮件附件下载功能:
接下来,编写函数mergeExcels的代码,完成合并Excel文件的功能:
在代码中用到的汇总表模板如下图所示:
最后,调用前面定义的main函数,运行代码即可。当然,在运行过程中可能会遇到一些错误,这是正常的。这时,要仔细阅读错误信息,纠正所有的拼写错误,在适当的位置插入print函数输出关键变量的值来辅助确定错误原因。
运行上面的程序,只需要不到2分钟的时间,就批量下载并合并了630份样书申请表。然后又利用排序等方法人工复核了汇总后的Excel文件,删除了重复发送申请表造成的重复信息,重点检查邮寄地址是否详细,通过网络搜索完善了几十条不完整的邮寄地址,删除了几十条地址非常不详细且无法搜索到详细地址(例如只写了学校名称,而学校官方网站上也没有详细地址)的信息,最终确定有效信息272条,这个过程花了2个小时,汗。。。。。。这次送书活动原计划赠送240本,在清华大学出版社白立军编辑的大力支持下,又增加了32本。所有赠书将于近日陆续由清华大学出版社直接寄出,请老师们注意查收。