news 2026/4/16 14:38:02

Flink ML StandardScaler 标准化(去均值 + 除以标准差)让特征“同量纲”更好学

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Flink ML StandardScaler 标准化(去均值 + 除以标准差)让特征“同量纲”更好学

1. StandardScaler 做什么?

对向量特征的每个维度 (x) 做标准化:

  • 先减去均值:(x - \mu)(可选)
  • 再除以标准差:((x - \mu) / \sigma)(可选)

在 Flink ML 里,通过两个开关控制:

  • withMean:是否减均值(默认 false)
  • withStd:是否除以标准差(默认 true)

2. 输入列与输出列

输入列(Input Columns)

参数名类型默认值说明
inputColVector"input"待标准化的特征向量

输出列(Output Columns)

参数名类型默认值说明
outputColVector"output"标准化后的向量

3. 参数详解(Parameters)

Key默认值类型说明
inputCol"input"String输入列名
outputCol"output"String输出列名
withMeanfalseBoolean是否先减去均值(中心化)
withStdtrueBoolean是否按标准差缩放到单位方差

withMean 什么时候开?

  • 你希望特征以 0 为中心、并且数据不是稀疏 one-hot/高维稀疏向量:可以开
  • 如果你的特征是稀疏向量(例如 OneHotEncoder 输出),一般不建议开(中心化会破坏稀疏性、带来不必要开销)

4. Java 示例解读(fit + transform)

标准用法永远是两步:

1)在训练数据上fit()学到每个维度的统计量(均值、方差/标准差)
2)用同一个StandardScalerModel对训练/预测数据transform(),保证线上线下一致

你给的示例在同一份 inputTable 上 fit + transform,演示效果更直观。

importorg.apache.flink.ml.feature.standardscaler.StandardScaler;importorg.apache.flink.ml.feature.standardscaler.StandardScalerModel;importorg.apache.flink.ml.linalg.DenseVector;importorg.apache.flink.ml.linalg.Vectors;importorg.apache.flink.streaming.api.datastream.DataStream;importorg.apache.flink.streaming.api.environment.StreamExecutionEnvironment;importorg.apache.flink.table.api.Table;importorg.apache.flink.table.api.bridge.java.StreamTableEnvironment;importorg.apache.flink.types.Row;importorg.apache.flink.util.CloseableIterator;publicclassStandardScalerExample{publicstaticvoidmain(String[]args){StreamExecutionEnvironmentenv=StreamExecutionEnvironment.getExecutionEnvironment();StreamTableEnvironmenttEnv=StreamTableEnvironment.create(env);DataStream<Row>inputStream=env.fromElements(Row.of(Vectors.dense(-2.5,9,1)),Row.of(Vectors.dense(1.4,-5,1)),Row.of(Vectors.dense(2,-1,-2)));TableinputTable=tEnv.fromDataStream(inputStream).as("input");StandardScalerstandardScaler=newStandardScaler();// 默认 withMean=false, withStd=trueStandardScalerModelmodel=standardScaler.fit(inputTable);TableoutputTable=model.transform(inputTable)[0];for(CloseableIterator<Row>it=outputTable.execute().collect();it.hasNext();){Rowrow=it.next();DenseVectorinputValue=(DenseVector)row.getField(standardScaler.getInputCol());DenseVectoroutputValue=(DenseVector)row.getField(standardScaler.getOutputCol());System.out.printf("Input Value: %s\tOutput Value: %s\n",inputValue,outputValue);}}}

这段代码做了什么:

  • fit():扫描 inputTable,计算每个维度的标准差(以及如果 withMean=true 则计算均值)
  • transform():对每条向量逐维标准化,新增输出列output

5. 实战建议

1)StandardScaler 比 MinMaxScaler 更抗异常值一点,但也不是“免疫”

StandardScaler用均值/方差,极端值仍会影响统计量,只是通常比 min/max 更稳定。
如果异常值特别多,建议先做截断/清洗,再标准化。

2)不要在预测数据上重新 fit

必须做到:

  • 训练阶段:fit(train)
  • 预测阶段:transform(predict) 用同一个 model
    否则线上每批数据的缩放尺度都变,模型输出会漂。

3)常见组合

  • VectorAssembler → StandardScaler → KMeans/KNN/LinearSVC/LogisticRegression
  • Bucketizer/OneHotEncoder 这种离散稀疏特征链路,一般不需要 withMean
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 9:06:44

PyTorch-CUDA镜像是否支持Windows系统?答案在这里

PyTorch-CUDA镜像是否支持Windows系统&#xff1f;答案在这里 在深度学习开发中&#xff0c;一个常见的困惑是&#xff1a;我能不能直接在 Windows 上跑 PyTorch-CUDA 镜像&#xff0c;像在 Linux 服务器上那样一键启动、即刻训练&#xff1f;尤其是当你看到同事在 Ubuntu 环境…

作者头像 李华
网站建设 2026/4/15 13:21:44

PyTorch-CUDA镜像与CI/CD流水线集成实践

PyTorch-CUDA镜像与CI/CD流水线集成实践 在现代AI研发中&#xff0c;一个常见的痛点是&#xff1a;开发者本地能跑通的模型&#xff0c;在CI环境或生产服务器上却频频报错——CUDA版本不兼容、cuDNN缺失、PyTorch编译选项不对……这类“在我机器上明明没问题”的尴尬场景&#…

作者头像 李华
网站建设 2026/4/16 9:01:20

GEO优化实操指南:从SEO到AI搜索可见性的演进

在AI驱动的搜索生态中&#xff0c;GEO优化&#xff08;Generative Engine Optimization&#xff09;是一种专门针对生成式AI引擎&#xff08;如ChatGPT、Perplexity、Gemini、Google AI Overview等&#xff09;进行内容优化的策略&#xff0c;其核心目标是让你的内容不仅被索引…

作者头像 李华
网站建设 2026/4/15 18:26:13

Docker Compose部署PyTorch环境?这份教程帮你快速上手

Docker Compose部署PyTorch环境&#xff1f;这份教程帮你快速上手 在深度学习项目开发中&#xff0c;最让人头疼的往往不是模型调参&#xff0c;而是环境配置——“在我机器上能跑”的尴尬局面几乎每个AI工程师都经历过。CUDA版本不匹配、cuDNN缺失、PyTorch与系统驱动冲突………

作者头像 李华
网站建设 2026/4/16 15:26:14

40-智能优化算法-哈里斯鹰算法 该算法有较强的全局搜索能力,并且需要调节的参数较少的优点,可...

40-智能优化算法-哈里斯鹰算法 该算法有较强的全局搜索能力&#xff0c;并且需要调节的参数较少的优点&#xff0c;可修改性极高。优化算法的江湖中总有些后起之秀让人眼前一亮。今天要聊的哈里斯鹰算法&#xff08;HHO&#xff09;&#xff0c;就像是算法界的特种部队&#xf…

作者头像 李华