Python Victor-DAY 8 标签编码与连续变量处理-编程阁

知识点复盘：

字典的简单介绍（增删查改）
标签编码（字典的映射）
对独热编码的深入理解----n个不相关变量只有n-1个自由的
连续特征的处理：归一化和标准化----一般选一个即可，谁好谁坏做了才知道，除非有先验知识。

至此，常见的预处理方式都说完了

作业：对心脏病数据集的特征用上述知识完成，一次性用所有的处理方式完成预处理，包括

缺失值的处理
离散特征的编码
连续特征的归一化or标准化
数据可视化（单特征、单特征与标签）

import pandas as pd data = pd.read_csv(r'D:\课程\课程文件1\pythonstudy\pythonx训练营\python-60days-challenge\heart.csv') data.head()

输出

缺失值的处理

data.isnull()

输出

data.head()

输出

离散特征的编码

data.columns

输出

print(data.dtypes)

输出

for discrete_features in data.columns: if data[discrete_features].dtype == 'object': print(discrete_features)

data['age']

data['age'].value_counts()

整合

连续特征的归一化or标准化

数据可视化（单特征、单特征与标签）

# 手动实现归一化 def manual_normalize(data): min_val = data.min() max_val = data.max() normalized_data = (data - min_val) / (max_val - min_val) return normalized_data data['sex'] = manual_normalize(data['sex']) data['sex'].head()

输出

0 1.0 1 1.0 2 0.0 3 1.0 4 0.0 Name: sex, dtype: float64

# 使用sklearn进行归一化处理 from sklearn.preprocessing import StandardScaler, MinMaxScaler data = pd.read_csv(r'D:\课程\课程文件1\pythonstudy\pythonx训练营\python-60days-challenge\heart.csv') min_max_scaler = MinMaxScaler() data['sex'] = min_max_scaler.fit_transform(data[['sex']]) data['sex'].head

输出

<bound method NDFrame.head of 0 1.0 1 1.0 2 0.0 3 1.0 4 0.0 ... 298 0.0 299 1.0 300 1.0 301 1.0 302 0.0 Name: sex, Length: 303, dtype: float64>

# 使用sklearn进行标准化处理 data = pd.read_csv(r'D:\课程\课程文件1\pythonstudy\pythonx训练营\python-60days-challenge\heart.csv') scaler = StandardScaler() data['sex'] = scaler.fit_transform(data[['sex']]) data['sex'].head()

输出

0 0.681005 1 0.681005 2 -1.468418 3 0.681005 4 -1.468418 Name: sex, dtype: float64

数据可视化

单特征

单特征与标签的关系

plt.figure(figsize=(12, 6)) sns.violinplot(x='age', y='chol', data=data, scale='width', inner='quartile')#把年龄（age）当横轴分组，胆固醇（chol）当纵轴连续量，画“小提琴”——左右鼓包表示每个年龄组里 chol 的分布形状，宽度代表样本量。 plt.title('Cholesterol vs. age') plt.xlabel('Age (years)') plt.ylabel('Cholesterol (mg/dL)') plt.tight_layout() plt.show()

输出

import seaborn as sns import matplotlib.pyplot as plt plt.figure(figsize=(8, 5)) # 1. 只画 KDE 轮廓，填不填都可以 sns.kdeplot(data=data, x='chol', hue='target', fill=True, # 填色更直观 bw_adjust=0.7, # 平滑度 common_norm=False,# 各自积分=1，方便比较形状 palette='Set2') # 2. 细节美化 plt.title('Cholesterol distribution by Heart Disease') plt.xlabel('Cholesterol (mg/dL)') plt.ylabel('Density') plt.legend(title='Heart Disease', labels=['No', 'Yes']) plt.tight_layout() plt.show()

输出

@浙大疏锦行

为什么90%的碳中和项目失败？Open-AutoGLM数据监控告诉你真相：

第一章：为什么90%的碳中和项目失败？在可持续发展目标日益紧迫的今天，大量企业与政府启动了碳中和计划，但实际成功率不足10%。失败的核心原因并非技术缺失，而是战略模糊、数据断层与执行脱节。缺乏科学基线与可量化路径…

李华

【全球供应链重塑】：基于Open-AutoGLM的智能单证处理系统架构解析

第一章：全球供应链重塑背景下的跨境贸易自动化趋势在全球经济格局深度调整的背景下，地缘政治波动、区域化贸易协定兴起以及消费者对交付速度的更高要求，正在推动全球供应链进入结构性重塑阶段。企业为提升响应能力与运营韧性，正加…

李华

【救灾AI革命】：Open-AutoGLM实现90秒资源最优分配的秘密

第一章：Open-AutoGLM应急救灾调度辅助在重大自然灾害或突发事件中，快速、精准的资源调度是决定救援效率的关键。Open-AutoGLM 是一款基于开源大语言模型与自动化推理引擎构建的智能调度辅助系统，专为应急救灾场景设计，能够实时分析…

李华

【大模型应用开发】使用LangChain和FastAPI构建高性能RAG系统：完整代码+部署详解！

简介本文详解使用LangChain和FastAPI构建RAG系统的完整流程，包括文档加载、文本分割、向量存储、检索生成和API开发。重点介绍异步处理技术和部署策略，帮助开发者从原型到生产环境构建高性能RAG应用。了解如何使用 LangChain 构建和部署基于 FastAPI 的…

李华

前端文件流下载，零基础入门到精通，收藏这篇就够了

项目中前端下载一般分为两种情况： 后端直接提供一个文件地址，通过浏览器打开就可以下载。需要发送请求，后端返回二进制流数据，前端解析流数据，生成URL实现下载。前端对应的实质是a标签和Blob文件下载，这…

李华

前端做一次技术分享，零基础入门到精通，收藏这篇就够了

随着尖端 HTML 和 CSS 功能的引入，Web 开发正在经历一场变革之旅。在今天这篇文章中，我们将探讨 15 种高级功能，这些功能现在可以在不依赖 JavaScript 的情况下实现。我们将提供真实世界的示例，并将它们与旧的基于 JavaScript 的…

李华