Math - 中心化，标准化和归一化-编程阁

归一化（Normalization）是把数据或物理量转换为无量纲或统一尺度的处理，使不同来源、不同量纲或不同量级的数据具有可比性，便于比较、加权、融合与后续计算。典型情形包括：把数值缩放到[0, 1]或[-1, 1]区间，或将分布调整为具有零均值、单位方差的形式；在信号处理中，也常把频率按奈奎斯特频率归一化到[0, 1]以便设计与比较。

常见方法公式与适用场景

方法	公式	输出范围/性质	典型用途与注意
Min-Max 缩放	x' = (x − X_min) / (X_max − X_min)	[0, 1]（可推广到[a, b]）	特征缩放、图像处理；对异常值敏感，新增数据可能改变极值
Z-score 标准化	x' = (x − μ) / σ	均值0、标准差1	假设近似正态、算法需稳定尺度的场景（如SVM、KNN、神经网络

以上方法在不同学科中还有变体与扩展，选择取决于数据分布、业务约束与算法需求。

与标准化中心化的区别

* 归一化：强调把特征缩放到固定区间（如[0, 1]）或满足特定约束（如概率和为1），常由极值或分布参数决定，属于“重缩放”。

* 标准化（Z-score）：把特征转换为零均值、单位方差，强调分布层面的对齐，属于“重缩放+平移”。

* 中心化：仅做减均值（x' = x − μ），不改变尺度。

信号处理与图像处理：以奈奎斯特频率归一化频率到[0, 1]便于滤波器设计与比较；图像像素强度归一化到[0, 1]便于显示、融合与相似度计算。

概念与作用

在数据分析与机器学习中，标准化指对特征做中心化与缩放，使特征具有零均值、单位方差（Z-score），或将数据线性缩放到固定区间（Min-Max）。其核心目的是消除量纲差异、提升可比性，并改善基于距离或梯度的算法的收敛速度与稳定性。典型地，Z-score 转换公式为：z = (x − μ) / σ；Min-Max 为：x' = (x − X_min) / (X_max − X_min)。需要注意，标准化通常会改变数据的分布范围与数值尺度，因此应保存所用的均值/标准差/极值等参数以便一致地应用于新数据。

常用方法公式与适用场景

Min-Max 标准化（线性映射到[0,1]或[a,b]）

* 公式：x' = (x − X_min)/(X_max − X_min)；若映射到[a,b]：x' = a + (b − a)·(x − X_min)/(X_max − X_min)。

* 适用：需要固定输出范围（如图像像素[0,255]→[0,1]）、距离度量或神经网络输入。

* 优点：直观、保留单调关系；缺点：对异常值敏感，新增数据可能越界。

Z-score 标准化（均值0、标准差1）

* 公式：z = (x − μ)/σ。

* 适用：特征单位不同、可能存在未知极值/离群值、或算法假设近似正态（如回归、SVM、KNN、PCA、神经网络）。

* 优点：消除量纲、稳健于未知边界；缺点：均值与标准差受异常值影响。

* 术语边界

* 中心化：x' = x − μ（仅平移，均值变0，方差不变）。

* 标准化（Z-score）：中心化后再按标准差缩放（均值0、标准差1）。

* 归一化（常见口语）：多指Min-Max 缩放到固定区间；在不少资料中也作为“标准化/缩放”的泛称，需结合上下文辨析。

* 与数据清洗的关系

* 标准化不替代清洗。应先处理缺失值、异常值、重复与错误，再做标准化，以避免参数估计被污染。

* 方法选择速览

* 需要固定范围（如0–1）或图像/可视化：优先Min-Max。

* 单位不同、存在离群或未知极值、做距离/协方差/PCA相关分析：优先Z-score。

流程建议

1. 数据清洗：处理缺失/异常/重复/错误，统一单位与编码。

2. 探索分布：绘制直方图/箱线图，评估偏度/峰度与异常值。

3. 选择方法：依据模型与业务约束在Min-Max / Z-score / 分位数等中取舍。

4. 拟合与转换：在训练集上拟合（计算μ、σ、min、max或分位数），再转换验证/测试/线上数据，避免数据泄露。

5. 记录与复用：持久化scaler/参数与版本，保证推理一致性。

6. 评估与回溯：用统计描述与可视化核验标准化效果，必要时回滚或调整方法。

z分数（z-score），也叫标准分数（standard score）是一个数与平均数的差再除以标准差的过程。在统计学中，标准分数是一个观测或数据点的值高于被观测值或测量值的平均值的标准偏差的符号数。

z分数可以回答这样一个问题："一个给定分数距离平均数多少个标准差?"在平均数之上的分数会得到一个正的标准分数，在平均数之下的分数会得到一个负的标准分数。 z分数是一种可以看出某分数在分布中相对位置的方法。

z分数能够真实的反映一个分数距离平均数的相对标准距离。如果我们把每一个分数都转换成z分数，那么每一个z分数会以标准差为单位表示一个具体分数到平均数的距离或离差。将成正态分布的数据中的原始分数转换为z分数，我们就可以通过查阅z分数在正态曲线下面积的表格来得知平均数与z分数之间的面积，进而得知原始分数在数据集合中的百分等级。一个数列的各z分数的平方和等于该数列数据的个数，并且z分数的标准差和方差都为1.平均数为0.

Z分数的应用主要有：①表示各原始数据在数据组中的相对位置；②对于正态数据，可表示该数据以下或以上数据的比例，具体说可以求解诸如分数线问题或人数比例问题；③表示标准化测验的分数；④用于异常值的取舍。标准分数在学生教育评价中常有以下五种应用：纵横比较、成绩等级化、标准转化、等级比例确定、品质评定数量化。

Math - 中心化，标准化和归一化

在Miniconda中配置PyTorch with CUDA 11.8的完整过程

Miniconda环境下使用NumPy加速Token数值计算

使用Miniconda-Python3.10降低GPU资源浪费的实践策略

Miniconda-Python3.10镜像安装PyTorch GPU版完整教程

IBM收购Confluent 强化数据和自动化投资组合

JetBrains发布Kotlin 2.3.0版本更新