说真的，你可能误会Pandas了-编程阁

有人担心pandas处理数据的效率是不是不咋地。

pandas是基于numpy数组来计算的，其实本身有优势，处理小批量数据集（百万行以下，1GB以内）效率是完全可以接受的，相比其他的数据处理库其实差异不大，因为1GB以内的容量对电脑内存的占用并不大，且单核处理起来也不吃力，这时候Pandas的速度和便捷性综合优势能发挥到最大。

但如果超出1GB的数据，由于计算资源吃紧和内存过载的关系，pandas就会显得心有余而力不足，一些复杂的数据处理操作会很消耗时间，比如groupby、apply等。

如何优化Pandas的速度呢？首先得知道pandas的哪些骚操作会让它变慢。

首当其冲的就是逐行循环操作，比如apply方法，是对每一行执行函数操作，这会促发触发 Python 解释器开销，速度非常的慢。

比如你对每一行执行多字段判断操作，比如math > 90, english > 90 则返回“优秀”，使用apply方法哪怕每一行只消耗0.0001秒，那处理一千万行的数据也需要17分钟，这是觉得没法忍受的。

如果你真的需要对每一行做处理，可以用numpy向量化来实现，可以用np.select（多分支条件）来实现，会比apply方法快上百倍以上，因为numpy是批量处理的。

import numpy as np # numpy向量化处理 condition = (df['math'] > 90) & (df['english'] > 90) df['result_np_where'] = np.where(condition, "优秀", "一般")

另外导致pandas变慢的还有它的数据类型，因为pandas默认使用高精度类型，这就导致无效内存占用过高，比如int64会比int8多8倍的内存。

对于精度要求不高的数据，你可以在加载数据的时候，去调整下数据类型，把高精度调整为合适的低精度，比如年龄字段int8精度就够了，没必要int32或者int64。

# 指定数据类型 dtype_opt = {'id': 'int32', 'age': 'int8', 'price': 'float32'} df = pd.read_csv('data.csv', dtype=dtype_opt)

还有重复的字符串不需要都用object类型，比如省份名称，可以用category类型，这样占用的内存会降低。

df['province'] = df['province'].astype('category')

在读取数据文件的时候，很多人默认全部读取到内存，这对于几十M的小文件来说没什么，但如果是几GB的大文件，则会很快占满内存，导致数据处理变慢。

所以可以用pandas自带的分块加载（chunksize）的方式，将大文件分为n个小文件，分批去读取并处理，这样可以把几GB的大文件拆解成N个几十M的小文件，pandas处理起来就毫无压力。

chunk_size = 50000 # 每次读取5万行 results = [] for chunk in pd.read_csv('huge_file.csv', chunksize=chunk_size): chunk = chunk[chunk['value'] > 0] # 过滤处理 results.append(chunk.groupby('category').sum()) final_result = pd.concat(results).groupby(level=0).sum() # 合并结果

当然以上的优化方法也只使用pandas处理中小规模的数据，对于大数据集尽管优化后速度提升也不会明显。

大数据集有大数据集的处理手段，有不少类pandas的替代加速库可以使用，比如polars、dash、modin、cudf等，它们采用并行计算、分布式或者硬件加速的方式来加快数据处理速度。

而且它们大多是用pandas的接口，函数、方法和pandas类似，切换的学习成本很低，比如Polars、Modin、cuDF。

那什么场景下使用对应的数据处理库呢？就像之前说的，小数据集或者快速验证的数据可以用pandas，单机处理中大数据集用Polars或Modin，分布式处理超大数据集用Dask，有GPU加速用cuDF，复杂查询则用DuckDB。

总的来说，Pandas则绝大多数场景下速度已经够用了，而且它的生态和功能是最完善的，其他加速库尽管速度上有优势，但体系能力还是差不少的。

第 1 讲：什么是 Vibe Coding？

在开始之前，先纠正 3 个关键认知误区在过去一年里，“AI 编码”、“AI 生成应用”、“Vibe Coding”逐渐从演示视频走向真实使用场景，但在实践中，我发现一个普遍问题：很多人并不是“用不好 AI Coding”，而是…

李华

LobeChat能否接入Steam API？游戏玩家个性化助手

LobeChat能否接入Steam API？游戏玩家个性化助手在如今这个AI无处不在的时代，我们早已不再满足于“能聊天”的智能助手。玩家想要的是一个懂自己游戏习惯、了解好友动态、甚至能在关键时刻提醒“你差最后一个成就了”的贴心伙伴。而LobeChat的出现&#…

李华

百度指数观察：GPT-SoVITS关键词搜索趋势解读

GPT-SoVITS：从百度指数看语音克隆的平民化浪潮在短视频博主开始为每条内容定制专属配音、独立游戏开发者尝试让NPC拥有“真人声线”的今天，一个技术名词悄然登上百度指数热搜榜——GPT-SoVITS。这个由中文社区推动、融合前沿架构的开源项目&#xff0c…

李华

LobeChat能否设置会话过期时间？数据隐私保护机制

LobeChat 的会话过期控制与数据隐私保护机制在企业级 AI 应用日益普及的今天，一个看似简单的功能——“会话是否自动过期”——背后往往牵动着安全、合规与用户体验的多重博弈。以开源聊天界面 LobeChat 为例，它凭借现代化的交互设计和灵活的模型接入能…

李华

10分钟搞定算命运势测算站：PHP开源源码实战笔记

10分钟搞定算命运势测算站：PHP开源源码实战笔记写在前面： 本文不是鼓励封建迷信，而是程序员对“玄学系统”的一次白盒调试。把《易经》里能“if/else”的部分抠出来，用150行PHP跑通，再扔进Docker，10分钟就…

李华

第 1 讲：什么是 Vibe Coding？

PicoCTF writeup - picoMini —— Pico Bank

LobeChat能否接入Steam API？游戏玩家个性化助手

百度指数观察：GPT-SoVITS关键词搜索趋势解读

LobeChat能否设置会话过期时间？数据隐私保护机制

10分钟搞定算命运势测算站：PHP开源源码实战笔记