news 2026/4/16 19:55:14

9.1 聚类算法全览:K-means、层次聚类、DBSCAN与谱聚类

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
9.1 聚类算法全览:K-means、层次聚类、DBSCAN与谱聚类

9.1 聚类算法全览:K-means、层次聚类、DBSCAN与谱聚类

聚类是无监督学习中最核心的任务之一,其目标是在没有先验标签的情况下,根据数据的内在相似性将样本划分成若干个簇,使得同一簇内的样本尽可能相似,不同簇间的样本尽可能不同。聚类分析被广泛应用于客户细分、图像分割、异常检测和生物信息学等领域。不同的聚类算法基于不同的数据相似性度量和簇结构假设。本节将系统阐述四种最具代表性的聚类算法:基于原型的K-means、基于层次的层次聚类、基于密度的DBSCAN以及基于图论的谱聚类,分析其核心原理、算法流程、关键参数与各自适用的场景。

9.1.1 K-means 聚类

K-means 是基于原型的聚类算法的典范,它假设每个簇可以由一个中心点(质心)来代表,并通过最小化样本到其所属簇质心的距离平方和来进行划分。

9.1.1.1 算法原理与目标

给定样本集D = { x 1 , x 2 , . . . , x n } , x i ∈ R d D = \{\mathbf{x}_1, \mathbf{x}_2, ..., \mathbf{x}_n\}, \mathbf{x}_i \in \mathbb{R}^dD={x1,x2,...,xn},xiRd,K-means 的目标是将n nn个样本划分到k kk个互斥的簇{ C 1 , C 2 , . . . , C k } \{C_1, C_2, ..., C_k\}{C1,C2,...,Ck}中,以最小化簇内平方误差
J = ∑ j = 1 k ∑ x ∈ C j ∥ x − μ j ∥ 2 J = \sum_{j=1}^{k} \sum_{\mathbf{x} \in C_j} \|\mathbf{x} - \boldsymbol{\mu}_j \|^2J=j=1kxCjxμj2
其中μ j = 1 ∣ C j ∣ ∑ x ∈ C j x \boldsymbol{\mu}_j = \frac{1}{|C_j|} \sum_{\mathbf{x} \in C_j} \mathbf{x}μj=Cj1xCjx是簇C j C_jCj的质心向量。最小化J JJ是一个 NP 难问题,因此 K-means 采用了一种启发式的迭代优化算法(Lloyd算法)。

9.1.1.2 算法流程
  1. 初始化:随机选择k kk个样本作为初始质心{ μ 1 ( 0 ) , . . . , μ k ( 0 ) } \{\boldsymbol{\mu}_1^{(0)}, ..., \boldsymbol{\mu}_k^{(0)}\}{μ1(0),...,μk(0)}
  2. 迭代直至收敛
    a.分配步骤:对于每个样本x i \mathbf{x}_ixi,计算其到所有质心的距离(通常为欧氏距离),将其分配到距离最近的质心所对应的簇中。
    C j ( t ) = { x i : ∥ x i − μ j ( t ) ∥ 2 ≤ ∥ x i − μ l ( t ) ∥ 2 ,   ∀ l , 1 ≤ l ≤ k } C_j^{(t)} = \{ \mathbf{x}_i : \| \mathbf{x}_i - \boldsymbol{\mu}_j^{(t)} \|^2 \le \| \mathbf{x}_i - \boldsymbol{\mu}_l^{(t)} \|^2, \ \forall l, 1 \le l \le k \}<
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 12:24:14

9.5 推断算法:变量消除、信念传播与采样方法

9.5 推断算法:变量消除、信念传播与采样方法 在建立了概率图模型的结构与参数化形式后,核心任务之一是进行概率推断,即根据已知的观测变量(证据)计算查询变量的后验概率分布,或计算所有未观测变量的联合状态概率。由于模型通常涉及大量变量,直接对联合分布进行求和或积…

作者头像 李华
网站建设 2026/4/16 14:32:15

Langchain-Chatchat如何更新知识库?动态文档同步机制设计

Langchain-Chatchat如何更新知识库&#xff1f;动态文档同步机制设计 在企业知识管理的实践中&#xff0c;一个常见的痛点是&#xff1a;文档明明已经更新了&#xff0c;但员工问系统时&#xff0c;得到的答案却还是旧版本的内容。这种“信息滞后”不仅影响决策效率&#xff0c…

作者头像 李华
网站建设 2026/4/16 12:59:04

《KOL/KOC与买量投放的深度融合优化指南》

很多品牌陷入“重买量轻口碑”或“迷信达人忽视转化”的误区,前者因缺乏用户信任导致转化成本高企,后者因没有精准流量承接让种草效果流失,两种模式的割裂成为营销效能提升的核心桎梏。真正的破局之道,在于打破渠道壁垒,将KOL/KOC的内容种草能力与买量投放的流量放大优势形…

作者头像 李华
网站建设 2026/4/16 13:02:23

《天梯榜三重防护:数据实时校准与反刷榜技术实践指南》

玩家对天梯排行榜的信任,建立在每一个排名背后的数据真实性与实时反馈之上。当某款竞技类产品的排行榜出现“无名玩家一夜登顶”“实力与排名严重脱节”等现象时,不仅会击穿玩家的参与热情,更会直接摧毁产品的长期生态—曾有热门竞技游戏因刷榜问题导致三个月内活跃用户流失…

作者头像 李华
网站建设 2026/4/15 13:10:19

Langchain-Chatchat助力智慧城市知识中枢建设

Langchain-Chatchat助力智慧城市知识中枢建设 在城市治理日益复杂的今天&#xff0c;一个常见的场景是&#xff1a;应急指挥中心接到突发暴雨预警&#xff0c;调度员需要迅速查阅《城市防汛应急预案》《地铁停运接驳方案》《低洼路段排水标准》等十几份跨部门文档&#xff0c;才…

作者头像 李华
网站建设 2026/4/16 10:55:28

Langchain-Chatchat如何导出问答记录?审计日志功能实现

Langchain-Chatchat 如何导出问答记录&#xff1f;审计日志功能实现 在企业级智能问答系统日益普及的今天&#xff0c;一个常被忽视但至关重要的问题浮出水面&#xff1a;我们能相信 AI 给出的答案吗&#xff1f;如果答案有误&#xff0c;又该如何追溯它的来源和决策过程&#…

作者头像 李华