在有真实标签 (Ground Truth) 的情况下，常用的指标有哪些？聚类指标有哪些？-编程阁

在有真实标签 (Ground Truth)的情况下，常用的指标如下

以下是你可以计算的指标，按从基础到进阶的顺序排列：

这是最常用的一组指标，用于衡量分选结果的“准”与“全”。

准确率 (Accuracy)
- 定义：分选正确的脉冲数占总脉冲数的比例。
- 公式：$ \frac{TP + TN}{Total} $
- 意义：全局指标，但在样本不均衡（比如某个雷达发了1万个脉冲，另一个只发了100个）时会失真。
精确率 (Precision / 查准率)
- 定义：预测为雷达A的脉冲中，真正属于雷达A的比例。
- 公式：$ P = \frac{TP}{TP + FP} $
- 雷达含义：“虚警率”的反面。精确率低意味着把很多别的信号（噪声或其他雷达）错分给了这个雷达。
召回率 (Recall / 查全率 / PD)
- 定义：本来属于雷达A的脉冲中，被成功找出来的比例。在雷达领域常称为发现概率 (Probability of Detection, PD)。
- 公式：$ R = \frac{TP}{TP + FN} $
- 雷达含义：“漏警率”的反面。召回率低意味着丢了很多该雷达的脉冲。
F1-Score
- 定义：精确率和召回率的调和平均数。
- 公式：$ 2 \times \frac{P \times R}{P + R} $
- 意义：综合考量虚警和漏警，是一个比较公正的单值指标。

针对信号分选任务特有的业务指标。

漏警率 (Miss Rate)
- 公式：$ 1 - Recall $
- 意义：有多少个脉冲没被分选出来（或者被丢弃到“未知/噪声”类里了）。
错分率 (Error Sorting Rate)
- 定义：本来是雷达A的脉冲，被错误地分给了雷达B的比例。
- 意义：衡量算法处理“参数重叠”或“多义性”的能力。
虚假辐射源产生率 (Ghost Emitter Rate)
- 定义：算法报告发现了“雷达X”，但实际上环境中根本没有雷达X。
- 场景：常见于聚类算法（如SDIF, CDIF）将多部雷达的谐波或交错脉冲误判为一部新雷达。

这不是一个单一的数字，而是一个表格，是分析错误的神器。

在聚类任务中，常见的评价指标有：纯度（Purity）、兰德系数（Rand Index, RI）、F值（F-score）和调整兰德系数（Adjusted Rand Index,ARI）。同时，这四种评价指标也是聚类相关论文中出现得最多的评价方法。

如果你使用的是无监督学习（如K-Means, DBSCAN）进行分选，然后用标签来验证，这些指标很有用：

调整兰德指数 (Adjusted Rand Index, ARI)
- 范围：[-1, 1]，越接近1越好。
- 意义：衡量你的分选结果（聚类簇）和真实标签的吻合程度，且消除了随机运气的影响。
互信息 (Mutual Information, MI / NMI)
- 意义：衡量预测结果包含了多少关于真实标签的信息量。

其他的无监督指标详情参考链接：https://zhuanlan.zhihu.com/p/343667804

在喷涂线上，工件位置稍有偏差就会导致涂层不均。 YE-Coat 系列可在高静电环境下保持精准输出，解决传统传感器易受干扰的问题。某汽车零部件厂升级此系统后，喷涂良率提升 22%，返工率减少 40%。视觉与接近感知的组合，让…

李华

一、背景意义随着信息技术的迅猛发展，计算机视觉在各个领域的应用日益广泛，尤其是在图像识别和目标检测方面。店铺名称的自动检测与识别，作为计算机视觉技术的一项重要应用，正逐渐成为商业智能、城市管理和智能交通等领域的重要研…

李华

第一章：Shell脚本的基本语法和命令Shell脚本是Linux/Unix系统中自动化任务的核心工具，通过编写可执行的文本文件，用户能够组合系统命令、控制程序流程并处理数据。一个标准的Shell脚本通常以“shebang”开头，用于指定解释器。脚本…

李华

第一章：Open-AutoGLM实现原理概述Open-AutoGLM 是一个面向自动化自然语言任务的开源框架，基于 GLM 架构进行扩展，旨在实现零样本或少样本条件下的高效推理与任务适配。其核心思想是通过元提示（meta-prompting）机制引导…

李华

第一章：Open-AutoGLM部署的挑战与自动化转型在大模型应用快速落地的背景下，Open-AutoGLM作为一款支持自动代码生成与任务推理的开源语言模型，其部署过程面临诸多现实挑战。从环境依赖管理到服务编排，传统手动部署方式已难以满足高…

李华

智能化喷涂线的接近传感器：精度成就美学