news 2026/4/16 9:04:53

Math - 中心化,标准化和归一化

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Math - 中心化,标准化和归一化

归一化(Normalization)是把数据或物理量转换为无量纲或统一尺度的处理,使不同来源、不同量纲或不同量级的数据具有可比性,便于比较、加权、融合与后续计算。典型情形包括:把数值缩放到[0, 1]或[-1, 1]区间,或将分布调整为具有零均值、单位方差的形式;在信号处理中,也常把频率按奈奎斯特频率归一化到[0, 1]以便设计与比较。

常见方法公式与适用场景

方法

公式

输出范围/性质

典型用途与注意

Min-Max 缩放

x' = (x − X_min) / (X_max − X_min)

[0, 1](可推广到[a, b])

特征缩放、图像处理;对异常值敏感,新增数据可能改变极值

Z-score 标准化

x' = (x − μ) / σ

均值0、标准差1

假设近似正态、算法需稳定尺度的场景(如SVM、KNN、神经网络

以上方法在不同学科中还有变体与扩展,选择取决于数据分布、业务约束与算法需求。

与标准化中心化的区别

* 归一化:强调把特征缩放到固定区间(如[0, 1])或满足特定约束(如概率和为1),常由极值或分布参数决定,属于“重缩放”。

* 标准化(Z-score):把特征转换为零均值、单位方差,强调分布层面的对齐,属于“重缩放+平移”。

* 中心化:仅做减均值(x' = x − μ),不改变尺度。

信号处理与图像处理:以奈奎斯特频率归一化频率到[0, 1]便于滤波器设计与比较;图像像素强度归一化到[0, 1]便于显示、融合与相似度计算。

概念与作用

在数据分析与机器学习中,标准化指对特征做中心化与缩放,使特征具有零均值、单位方差(Z-score),或将数据线性缩放到固定区间(Min-Max)。其核心目的是消除量纲差异、提升可比性,并改善基于距离或梯度的算法的收敛速度与稳定性。典型地,Z-score 转换公式为:z = (x − μ) / σ;Min-Max 为:x' = (x − X_min) / (X_max − X_min)。需要注意,标准化通常会改变数据的分布范围与数值尺度,因此应保存所用的均值/标准差/极值等参数以便一致地应用于新数据。

常用方法公式与适用场景

Min-Max 标准化(线性映射到[0,1]或[a,b])

* 公式:x' = (x − X_min)/(X_max − X_min);若映射到[a,b]:x' = a + (b − a)·(x − X_min)/(X_max − X_min)。

* 适用:需要固定输出范围(如图像像素[0,255]→[0,1])、距离度量或神经网络输入。

* 优点:直观、保留单调关系;缺点:对异常值敏感,新增数据可能越界。

Z-score 标准化(均值0、标准差1)

* 公式:z = (x − μ)/σ。

* 适用:特征单位不同、可能存在未知极值/离群值、或算法假设近似正态(如回归、SVM、KNN、PCA、神经网络)。

* 优点:消除量纲、稳健于未知边界;缺点:均值与标准差受异常值影响。

* 术语边界

* 中心化:x' = x − μ(仅平移,均值变0,方差不变)。

* 标准化(Z-score):中心化后再按标准差缩放(均值0、标准差1)。

* 归一化(常见口语):多指Min-Max 缩放到固定区间;在不少资料中也作为“标准化/缩放”的泛称,需结合上下文辨析。

* 与数据清洗的关系

* 标准化不替代清洗。应先处理缺失值、异常值、重复与错误,再做标准化,以避免参数估计被污染。

* 方法选择速览

* 需要固定范围(如0–1)或图像/可视化:优先Min-Max。

* 单位不同、存在离群或未知极值、做距离/协方差/PCA相关分析:优先Z-score。

流程建议

1. 数据清洗:处理缺失/异常/重复/错误,统一单位与编码。

2. 探索分布:绘制直方图/箱线图,评估偏度/峰度与异常值。

3. 选择方法:依据模型与业务约束在Min-Max / Z-score / 分位数等中取舍。

4. 拟合与转换:在训练集上拟合(计算μ、σ、min、max或分位数),再转换验证/测试/线上数据,避免数据泄露。

5. 记录与复用:持久化scaler/参数与版本,保证推理一致性。

6. 评估与回溯:用统计描述与可视化核验标准化效果,必要时回滚或调整方法。


z分数(z-score),也叫标准分数(standard score)是一个数与平均数的差再除以标准差的过程。在统计学中,标准分数是一个观测或数据点的值高于被观测值或测量值的平均值的标准偏差的符号数。

z分数可以回答这样一个问题:"一个给定分数距离平均数多少个标准差?"在平均数之上的分数会得到一个正的标准分数,在平均数之下的分数会得到一个负的标准分数。 z分数是一种可以看出某分数在分布中相对位置的方法。

z分数能够真实的反映一个分数距离平均数的相对标准距离。如果我们把每一个分数都转换成z分数,那么每一个z分数会以标准差为单位表示一个具体分数到平均数的距离或离差。将成正态分布的数据中的原始分数转换为z分数,我们就可以通过查阅z分数在正态曲线下面积的表格来得知平均数与z分数之间的面积,进而得知原始分数在数据集合中的百分等级。一个数列的各z分数的平方和等于该数列数据的个数,并且z分数的标准差和方差都为1.平均数为0.

Z分数的应用主要有:①表示各原始数据在数据组中的相对位置;②对于正态数据,可表示该数据以下或以上数据的比例,具体说可以求解诸如分数线问题或人数比例问题;③表示标准化测验的分数;④用于异常值的取舍。标准分数在学生教育评价中常有以下五种应用:纵横比较、成绩等级化、标准转化、等级比例确定、品质评定数量化。


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 9:00:54

在Miniconda中配置PyTorch with CUDA 11.8的完整过程

在Miniconda中配置PyTorch with CUDA 11.8的完整过程 在深度学习项目开发中,最令人头疼的问题之一往往不是模型设计或训练调参,而是——环境装不上。明明按照官方文档一步步来,torch.cuda.is_available() 却始终返回 False;或者好…

作者头像 李华
网站建设 2026/4/16 9:02:39

Miniconda环境下使用NumPy加速Token数值计算

Miniconda环境下使用NumPy加速Token数值计算 在自然语言处理的实际开发中,我们常常面临这样的场景:一个句子被分词成数百甚至上千个Token,每个Token都映射为768维甚至更高维度的向量。当需要对这些向量进行批量相似度计算、归一化或注意力权重…

作者头像 李华
网站建设 2026/4/15 16:31:27

使用Miniconda-Python3.10降低GPU资源浪费的实践策略

使用Miniconda-Python3.10降低GPU资源浪费的实践策略 在AI模型日益复杂、训练任务频繁迭代的今天,许多团队都面临一个看似“隐形”却代价高昂的问题:明明有充足的GPU算力,但实际利用率却常常不足40%。更令人头疼的是,不少显存占用…

作者头像 李华
网站建设 2026/4/14 16:00:02

Miniconda-Python3.10镜像安装PyTorch GPU版完整教程

Miniconda-Python3.10镜像安装PyTorch GPU版完整教程 在深度学习项目中,一个稳定、可复现且支持GPU加速的开发环境几乎是标配。然而,许多开发者都曾经历过这样的困扰:明明在本地训练得好好的模型,换一台机器就报错;或…

作者头像 李华
网站建设 2026/4/2 5:21:45

IBM收购Confluent 强化数据和自动化投资组合

IBM已同意收购云原生企业数据流平台Confluent,此举旨在扩展其构建AI应用程序的工具组合。该公司周一在一份发布声明中表示,认为Confluent非常适合其混合云和AI战略,并补充说这笔收购预计将在其产品组合中"产生显著的产品协同效应"。…

作者头像 李华
网站建设 2026/4/13 17:28:44

JetBrains发布Kotlin 2.3.0版本更新

Kotlin 2.3.0版本现已正式发布,这一语言更新提供了多项新功能,包括未使用返回值检查器和对Java 25的支持。此次发布包含多个实验阶段功能,如值检查器、Swift互操作性,以及显式支持字段的新语法。JetBrains于12月16日发布了这次语言…

作者头像 李华