【导语:随着基础模型规模扩大,真实数据在成本、隐私等方面的限制成为AI发展瓶颈,合成数据正从补充转变为核心机制。南洋理工大学等研究人员提出统一框架,重新定义合成数据方法边界并给出发展路径。】
很多工作默认「合成数据 = 生成模型」,而该综述跳出这一单一视角,重新定义了「数据合成」的方法边界。合成数据并不等同于“用生成模型造数据”,反演、仿真、增强等方式也应被纳入合成数据的范畴。
该综述从更高层次出发,将合成数据的应用组织为一条逐步演进的能力路径。最基础的是数据中心人工智能,解决真实数据稀缺等问题;接着是模型中心人工智能,用于能力注入;然后是可信人工智能,用于隐私保护等;最后是具身智能,支持感知、交互与泛化能力。
文章还将这四类应用场景细化到30 + 个具体机器学习任务层级,构建起从宏观分类到具体问题的系统化映射。
合成数据虽取得显著进展,但仍面临一系列挑战。核心风险是模型坍塌,会影响模型性能与泛化能力。数据效用与隐私保护的权衡也是长期问题,过强隐私约束降低数据可用性,过高数据保真度有隐私泄露风险。
用于模型评测时,还可能引入生成 - 评测偏差,影响对模型真实能力的判断。在方法层面,主动式数据合成和多模态数据合成等前沿方向有待探索,且缺乏统一标准化的合成数据质量评测体系。
编辑观点:合成数据有望打破真实数据瓶颈,成为AI发展关键。虽面临挑战,但发展潜力大,未来或改变AI竞争格局。