机器学习的算法众多,在生产环境中,我们往往没有那么多时间学习算法的原理,从零开始建模,而且,我们自己的模型需要经过很多打磨才能变得健壮。那么,有没有别人已经实现好的机器学习算法可以供我们调用呢?答案是有的。
Scikit 又称 scikit-learn 库(简称 sklearn)是一个通用型开源机器学习库,它几乎涵盖了所有机器学习算法,并且搭建了高效的数据挖掘框架。我们可以通过官网访问它,如图 1 所示。
可以看到官网的宣传中主要提到其 4 个特点。
这个库另一个优点是库的设计十分有条理。Scikit 库主要分为以下 6 个板块。
其中分类和回归问题被称为有监督学习,聚类问题被称为无监督学习。实际进行机器学习的过程一般依次为预处理、降维、有监督和无监督学习、模型选择,如图 2 所示。