Python 内存占用也太大了。

我现有 5 个 collections.Counter 的 pickle 文件，单个文件在 84MB-240MB 之间，总共 664MB，总记录在 3 千多万，实际数据大小也就 400MB 左右。之所以分为 5 个文件是因为之前有几个 GB 的数据，我电脑内存小（ 6GB ），又是机械硬盘，根本没办法一下子读取和处理，我分割成小块处理，最后变成了这 5 个文件，然后我想合并这些文件进行最后处理。

最终合并前，我预估过用 C 实现类似的字典（ D[char[10],uint]）合并，内存用的不会很多，即便是最粗糙的字典实现也只需要 680M 左右内存，我看 pickle 文件加起来才 664MB，就算翻 4 翻的内存占用机器也撑得住，可是一运行内存就被耗光，然后机器死机了，只能强制关机，根据死机前的 Python 占用情况，最终可能需要内存要 6GB-8GB 才能加载处理总共 664M 的这 5 个 pickle 文件。（只有 load 和 plus 操作）

可能有人会问我为什么不用 Redis 或者数据库查询，因为我没安装，我也就这一次需要以这种方式处理这种文件。前面用 Python 处理单个小文件时还好，虽然速度不敢恭维，不过还能接受，胜在写起来简单方便。

目前对 Python 感受就是慢、吃内存，但是写起来简单（当然也有非常复杂的，比如 asynio ），真的是胶水一样的语言。

skinny

2018-09-25 11:30:39 +08:00

@est 你这人真是莫名其妙，我从来就没说 pickle 什么事，我只说了 Python 对象内存占用多，对象 load 以后是 Counter 对象，你是不是还要说我不会用 Counter ？ Counter 是 dict 子类，是不是还要说我不会用 dict ？ dict 里存了太多文本是不是还得说我不会用 str ？

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/492253