💻 P12 【效率核弹】Pandas 自动化:告别手动处理 Excel
🎯 学习目标:
- 环境准备:利用 Agent 模式自动安装处理 Excel 的必要零件。
- 读取与写入:学会用一行代码让 Python “吞下”整个 Excel 表格。
- 数据筛选与统计:掌握像筛选 Excel 漏斗一样的代码逻辑。
- AI 协作:利用通义灵码进行复杂的数据透视和分析。
🌟 引导词
“在办公室里,最磨人的活儿莫过于:从 10 个表格里提取数据、剔除重复项、计算总和,最后再合成一个新表。
手动操作不仅慢,还容易点错行。而Pandas库是专门为‘表格数据’而生的。在它眼里,一个 Excel 文件就是一个DataFrame(数据框)。
这一课,我们将学习如何用几行代码完成你平时需要折腾一个下午的 Excel 统计工作。**
一、准备工作:安装“外挂”
Pandas 处理 Excel 需要两个核心库:pandas(处理逻辑)和openpyxl(负责读写 Excel 文件格式)。
手把手 AI 实战(Agent 模式):
- 在通义灵码对话框输入:
/agent。 - 输入指令:
请帮我检查并安装 pandas 和 openpyxl 库。 - 点击【运行/Run】,等待底部终端显示安装成功。
二、读取与查看:让数据“现形”
在 Pandas 中,我们通常把读进来的表格变量起名叫df(Data Frame 的缩写)。
importpandasaspd# 1. 读取 Excel 文件df=pd.read_excel("销售明细.xlsx")# 2. 看看长什么样(只看前 5 行)print(df.head())# 3. 看看表格的基本信息(有多少行、每列叫什么)print(df.info())三、核心招式:筛选、计算与保存
假设你有一张全公司的销售清单,你只想看“华东区”且“销售额 > 5000”的数据。
1. 精准筛选
# 筛选逻辑:要求 区域 是 华东区,且 销售额 大于 5000result=df[(df["区域"]=="华东区")&(df["销售额"]>5000)]2. 快速统计
# 计算华东区的销售总额total=result["销售额"].sum()print(f"华东区优质订单总额:{total}")3. 保存结果
# 将筛选出来的结果保存到新表,不保存左侧的行索引result.to_excel("华东区高额订单.xlsx",index=False)四、手把手 AI 实战:复杂数据处理
面对复杂的财务逻辑或统计需求,直接向 AI 描述你的 Excel 形状即可。
1. Ask 模式:生成数据分析逻辑
- 操作:输入指令:
我有一个 DataFrame 叫 df,包含 '日期', '产品', '销量' 三列。请写代码帮我实现:1. 按 '产品' 分组;2. 计算每个产品的 '销量' 总和。
- AI 价值:它会教你使用
groupby()函数,这是 Pandas 的灵魂招式之一。
2. Edit 模式:清理脏数据
- 操作:选中你读取数据的代码。
- 动作:右键 ->通义灵码->智能编辑。
- 指令:
帮我优化代码:在读取后自动删掉包含空值的行,并把 '日期' 列转换成标准的日期格式。 - 效果:AI 会一键帮你加上
dropna()和pd.to_datetime(),让你的数据瞬间变干净。
3. Agent 模式:跨文件合并
- 操作:输入
/agent。 - 指令:
当前文件夹下有 12 个月份的销售 Excel,请帮我写一个脚本把它们全部合并成一个总表,并删除重复的行。 - 效果:AI 会结合
os库和pd.concat(),自主完成这套复杂的组合拳。
🛠️ 课后练习
- 找一个你手头真实的 Excel 文件(或者让 AI 帮你用 Python 生成一个模拟的)。
- 新建
P12_excel.py,尝试读取它并打印出前 10 行。 - 挑战:尝试筛选出某一列符合特定条件的行,并保存为新文件。
总结与预告
- Pandas:Excel 自动化的终极工具。
- DataFrame:Python 里的“虚拟表格”。
- 链式操作:筛选、统计、保存,一气呵成。
[下一篇 (P13),我们将学习如何给你的程序装上“眼睛”:网页爬虫基础 (Requests)。你将学会如何让 Python 自动从网页上抓取你需要的价格、新闻或行业数据,不再需要手动复制粘贴网页信息!**
👉 想要让互联网成为你的数据库吗?让我们进入爬虫的世界!