在机器学习尤其是半监督学习和主动学习领域,一个常见的问题是如何从海量无标签数据中高效地挑选出最具信息量的样本进行人工标注。随机选择往往效果平平,而基于不确定性或多样性的启发式方法有时又忽略了数据内在的几何结构。MAED(Manifold Adaptive Experimental Design)是一种经典的主动学习算法,它通过假设数据分布在低维流形上,利用图拉普拉斯正则化来构建自适应的核函数,从而更准确地评估样本的信息量。
这篇文章将详细介绍一个MATLAB实现的MAED算法,帮助你在实际项目中快速挑选最具代表性和信息量的样本。代码逻辑清晰,易于扩展,非常适合用于文本分类、图像标注等任务。
MAED的核心思想
MAED的核心在于构建一个“流形自适应核”(manifold adaptive kernel)。传统核方法(如RBF核)对待所有样本一视同仁,而MAED认为:在数据局部流形结构附近,样本之间的相似性应该更强。因此,它在标准核矩阵的基础上引入图拉普拉斯正则项,对核矩阵进行修正,使其更好地反映数据的内在几何结构。
修正后的核矩阵能更准确地衡量样本之间的相关性,进而通过序贯贪心策略挑选出使剩余未标注样本方差最大的点——这正是信息量最大的样本。
函数接口与参数说明
函数签名:sampleList = MAED(fea, selectNum, options)
fea:数据特征矩阵,每一行是一个样本(n × d 维)。selectNum:需要选择的