聚类算法在MNIST和借贷俱乐部数据中的应用
1. 层次聚类在MNIST数据集上的表现
层次聚类在MNIST数字数据集上表现出色,且整个过程未使用任何标签。在实际应用中,通常先进行降维(如PCA),再进行聚类(如层次聚类),最后对每个聚类中的少量点进行手动标注。以MNIST数据集为例,如果没有标签,可查看每个聚类中的几张图像,根据显示的数字对这些图像进行标注。只要聚类足够均匀,手动标注的少量标签就可自动应用于该聚类中的所有其他图像,这样能以近77%的准确率标注50000个数据集中的所有图像,凸显了无监督学习的强大之处。
2. DBSCAN算法
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是基于密度的空间聚类算法。与k - means和层次聚类不同,DBSCAN根据点的密度进行分组,能明确将点标记为离群点,避免对其进行聚类,受数据中离群点导致的失真影响较小,且无需预先指定聚类数量。
2.1 DBSCAN算法原理
使用Scikit - Learn中的DBSCAN库时,需要指定两个关键参数:
-eps:两点之间的最大距离,若两点距离在此范围内,则认为它们在同一邻域。默认值为0.5。若设置过低,可能所有点都无法被聚类;若设置过高,大部分点会被聚类,只有少数点成为离群点。
-min_samples:一个组成为聚类所需的最小样本数,默认值为5。当有min_samples个紧密相邻的点时,任何与这些核心点距离在eps范围内的其他点都属于该聚类,即使这些其他