写了一个优化 pandas 内存的工具

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

爱意满满的作品展示区。

这是一个创建于 1958 天前的主题，其中的信息可能已经有所发展或是发生改变。

pandas 爆内存主要是两个原因

针对这两点都做了优化, int 、float 转化为合适都类型, object 如果重复项太多就转化为 category

用法很简单

import fast_csv as fc
data = fc.read_csv('$PATH/$FILE.csv')

一般来讲 (我最近用的几个 kaggle 的 data),能减少 50%内存,有时能减少 90%以上. 没有什么副作用,和一般直接用pandas读 csv 是一样的,都是 pandas.DataFrame

安装 pip install fast_csv

打赏作者

20 50 100 200 500 1000

4 条回复 • 2020-05-04 22:17:25 +08:00

lithiumii

2020-05-04 21:18:20 +08:00 via Android

kaggle

nzd

2020-05-04 21:44:49 +08:00

这个有点厉害，学习了

dlsflh

2020-05-04 22:03:01 +08:00 via Android

等我上班后就实测对大量的工业传感器数据的优化效果。

ipwx

2020-05-04 22:17:25 +08:00

。。。你需要的是在调用 pd.read_csv 的时候手动指定 dtype={...}，然后 engine='C'