在上一节中我们讲了数据预处理的几种方法,按照机器学习的过程还需要经过降维,有监督学习或无监督学习,通过对模型的评估,最终选择最合适的模型。这里我们先多它们的基本概念做一下简单的认识。
在机器学习过程中,我们可能会碰到一些维度非常多的数据,当使用这些复杂维度数据学习时可能会产生以下两个问题。
Scikit 库中提供了 3 种降低维度的方法,它们分别是 PCA、随机投影和特征凝聚,如图 1 所示。在后续我们会详细讲解这些方法和思想。
有监督学习是指在训练模型过程中,已知正确结果。Scikit 中提供了多种有监督学习的方法,如图 2 示:
无监督学习是指在训练模型过程中,不给出目标变量,让算法自动寻找训练集中的规律。无监督学习的方法如图 3 所 示:
当我们对一个数据集选定模型,并进行训练之后,需要对这个模型进行评估,以判定该模型的优劣。不好的模型通常会出现以下两种情况。
所以,最优的模型应该是欠拟合和过度拟合的折中,它既较好拟合了训练集又具有很好的泛化能力,即在测试集上也会有很好的表现。