Python使用正则表达式检查书稿中不应该出现的重复字

时间：12-29来源：作者：点击数：

问题描述：在编写书稿和反复修改书稿时，很容易有多字的情况，例如“用户的的资料”、“需要需要用户输入”，这些不小心的错误用肉眼很难完全发现。但是设定好规则之后，代码是可以非常忠实地完成这个任务的。首先使用代码发现可疑字词，然后再人工确认，可以大幅度提高工作效率。

技术要点：1）正则表达式中[]表示范围；2）正则表达式元字符\num表示序号为num的子模式，其中整个正则表达式序号为0，第一个子模式序号为1，以此类推；3）正则表达式元字符?表示前面的字符可以出现也可以不出现；4）常用汉字的Unicode编码范围为\u4e00-\u9fa5；5）Python扩展库python-docx用来读写Word文档。

参考代码：

运行结果：

方便获取更多学习、工作、生活信息请关注本站微信公众号 城东书院微信服务号

来顶一下

返回首页

上一篇:Python按元组中第一个字符串升序第二个字符串降序排序下一篇:Python计算电场中两点间的电势差

高考生入学注意：这些大	【健康】纯净水、天然
14种竞赛生升学路径盘	excel后缀xls和xlsx有