news 2026/4/16 19:30:42

面向异常检测的提示工程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
面向异常检测的提示工程

异常值检测的提示工程

通过实际数据项目学习如何检测异常值,并利用AI改进流程。


介绍

给定数据集中的离群值代表极端值。它们极端到可以通过严重扭曲统计数据(比如均值)来毁掉你的分析。例如,在球员身高数据集中,12英尺即使是NBA球员也是个异常值,会显著拉高平均值。

我们该如何应对?我们将通过在数据科学家招聘过程中,Physician Partners要求的真实数据项目来回答这个问题。

首先,我们将探讨检测方法,定义异常值,最后设计执行流程的提示。

什么是异常值检测和移除方法?

异常值检测取决于你拥有的数据集。如何?

例如,如果你的数据集分布是正态的,你可以用标准差或Z分数来检测它们。然而,如果你的数据集不遵循正态分布,可以使用百分位法、主成分分析(PCA)或四分位数间距(IQR)方法。

你可以查看**这篇文章**,了解如何使用箱形图检测异常值。

在本节中,我们将探索应用这些技术的方法论和Python代码。

标准差法

在这种方法中,我们可以通过测量每个值偏离均值的程度来定义离群值。

例如,在下面的图表中,你可以看到正态分布和均值的标准差 \(\pm3 \)。

使用此方法时,首先测量平均值并计算标准差。接下来,通过对均值加减三个标准差来确定阈值,并过滤数据集,只保留该范围内的数值。这里是执行此作的**Pandas**代码。

importpandasaspdimportnumpyasnp col=df['column']mean=col.mean()std=col.std()lower=mean-3*std upper=mean+3*std# Keep values within the 3 std dev rangefiltered_df=df[(col>=lower)&(col<=upper)]

我们有一个假设:数据集应遵循正态分布。什么是正态分布?这意味着数据呈现均衡的钟形分布。这里有一个例子:

使用这种方法,你会标记大约0.3%的数据为异常值,因为3个标准差的均值覆盖了大约99.7%的数据。

IQR

四分位区间(IQR)代表你数据的中间50%,显示数据集中最常见的数值,如下图所示。

要用 IQR 检测异常值,首先计算 IQR。在下一段代码中,我们定义第一和第三四分位数,并从第三个四分位数中减去第一四分位数,得到 IQR (\( 0.75 - 0.25 = 0.5 \))。

Q1=df
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 12:34:21

网络安全2025最详细学习路线,建议收藏!

为了帮助小伙伴们系统化学习网络安全&#xff0c;我整理了一套超详细的学习路线&#xff0c;无论你是零基础入门还是想进一步提升&#xff0c;都可以参考&#xff01;而且资料包免费分享&#xff0c;赶紧收藏&#xff01; ​ 第一阶段&#xff1a;网络安全基础入门 1. 计算机…

作者头像 李华
网站建设 2026/4/16 15:49:22

如何高效实现内存池:5个提升C++性能的终极技巧

如何高效实现内存池&#xff1a;5个提升C性能的终极技巧 【免费下载链接】yaml-cpp A YAML parser and emitter in C 项目地址: https://gitcode.com/gh_mirrors/ya/yaml-cpp 在C高性能编程领域&#xff0c;yaml-cpp项目的内存池实现为我们展示了如何通过智能内存管理技…

作者头像 李华
网站建设 2026/4/16 15:47:21

是什么让Java开发者欢呼雀跃?飞算JavaAI藏着怎样的高效密码?

各位Java开发者&#xff0c;在日常开发中&#xff0c;是否常常被各种bug折磨得疲惫不堪&#xff1f;为修复一个NullPointerException挑灯夜战到凌晨&#xff0c;面对复杂的业务逻辑漏洞焦头烂额&#xff0c;甚至开始怀疑自己的职业选择是否正确&#xff1f;别再陷入这种低效的内…

作者头像 李华
网站建设 2026/4/16 13:05:59

蓝桥杯试题及详解文档:统计子矩阵的和等于目标值的数量

一、题目信息1.1 题目等级中等&#xff08;适合蓝桥杯省赛 B 组第 5-6 题&#xff0c;侧重二维前缀和与哈希表优化&#xff0c;考察对矩阵操作、前缀和思想及哈希表应用的综合掌握&#xff09;1.2 题目描述给定一个m行n列的整数矩阵matrix和一个目标值target&#xff0c;请统计…

作者头像 李华
网站建设 2026/4/16 12:55:38

终极语音合成革命:Step-Audio-TTS-3B技术深度解析

终极语音合成革命&#xff1a;Step-Audio-TTS-3B技术深度解析 【免费下载链接】Step-Audio-TTS-3B 项目地址: https://ai.gitcode.com/StepFun/Step-Audio-TTS-3B Step-Audio-TTS-3B作为业界首个采用LLM-Chat范式在大规模合成数据集上训练的文本转语音模型&#xff0c;…

作者头像 李华