您当前的位置:首页 > 计算机 > 编程开发 > Python

使用Python内置集合对象和内置函数filter()过滤无效书评

时间:12-27来源:作者:点击数:

很多朋友是从编写网络爬虫开始学习Python的,一个很自然的想法是爬取书评(关于如何编写爬虫抓取书评会单独形成文章进行介绍),然后选择自己喜欢的书或者其他读者评价较高的书,这是一个非常好的思路,也是非常明智的做法。

然而,并不是每个消费者都会认真留言评论,也有部分消费者可能会复制了几个简单的句子或词作为评论。在爬取到原始书评之后可能需要进行简单的处理和过滤,这时就需要制定一个过滤的标准进行预处理,这也是数据处理与分析的关键内容之一。

在进入正题之前,首先回顾一个常识:Python集合中的所有元素是不允许重复的,非常适合用来提取唯一元素。

在下面的代码中,采用了一个最简单的规则:正常书评中,重复的字应该不会超过一定的比例。

comments = ['这是一本非常好的书,作者用心了',

            '作者大大辛苦了',

            '好书,感谢作者提供了这么多的好案例',

            '书在运输的路上破损了,我好悲伤。。。',

            '为啥我买的书上有菜汤。。。。',

            '啊啊啊啊啊啊,我怎么才发现这么好的书啊,相见恨晚',

            '书的质量有问题啊,怎么会开胶呢??????',

            '好好好好好好好好好好好',

            '好难啊看不懂好难啊看不懂好难啊看不懂',

            '书的内容很充实',

            '你的书上好多代码啊,不过想想也是,编程的书嘛,肯定代码多一些',

            '书很不错!!一级棒!!买书就上当当,正版,价格又实惠,让人放心!!! ',

            '无意中来到你小铺就淘到心意的宝贝,心情不错! ',

            '送给朋友的、很不错',

            '这是一本好书,讲解内容深入浅出又清晰明了,推荐给所有喜欢阅读的朋友同好们。']

rule = lambda s:len(set(s))/len(s)>0.5

result = filter(rule, comments)

print('原始书评:')

for comment in comments:

    print(comment)

print('='*30)

print('过滤后的书评:')

for comment in result:

    print(comment)

代码运行结果:

方便获取更多学习、工作、生活信息请关注本站微信公众号城东书院 微信服务号城东书院 微信订阅号
推荐内容
相关内容
栏目更新
栏目热门