Python 内存优化问题

我发现 import pymongo 就会占用 6M 内存。我有 100 个独立运行的脚本，如果他们都需要 import pymongo ，那么就会产生 100*6=600M 内存。可以实现一个 import 缓存，独立运行的脚本都可以优先复用缓存的包，缓存没有才重新导包。想问问这个 import 缓存能实现吗

maocat

2023-04-11 19:06:56 +08:00

按需加载 from pymongo import xxx

yingxiangyu

2023-04-11 19:16:20 +08:00

独立运行没办法共享吧，如果是直接用多进程应该是可以共享的

passerby233

2023-04-11 19:19:37 +08:00

不知道能不能帮到你。。https://cdn.staticaly.com/gh/hashqueue/blog-image-hosting@master/images/screencapture-freegpt-one-2023-04-11-19_15_23.5x6w3t01d100.webp

duke807

2023-04-11 19:21:35 +08:00

你试了没有？确定不同进程 import 同一个库，该库的可执行代码的部分没有共用？

ChenJHua

2023-04-11 19:44:00 +08:00

@maocat 尝试了一下，__init__.py 里面就 import 了所有了，从 pymongo 导部分东西也会占用这么大

ChenJHua

2023-04-11 19:44:16 +08:00

@yingxiangyu 这样对我的改动太大了，太多脚本了

ChenJHua

2023-04-11 19:44:32 +08:00

@duke807 不共用的，试过了

ClericPy

2023-04-11 19:46:22 +08:00

麻烦, 自己倒腾个 ipc 算了, 就几行原生代码, 我是照抄官网的 asyncio 和 struct 自己搭个 Unix domain socket 就完事了, 你这情况都用不着这么复杂, 我那是抗上万并发用的

ChenJHua

2023-04-11 19:46:47 +08:00

@passerby233 感谢你的帮助，这种只能对同一个脚本生效。无法满足我的需求

ChenJHua

2023-04-11 19:50:42 +08:00

@ClericPy 不太明白这和 IPC 有啥关系。我这边尝试初始化了一片共享内存出来，import pymongo 想保存到共享内存里面需要序列化，其他地方要想复用需要从共享内存序列化回来，但是序列化回来后还是会占用 6M 内存

Varchar

2023-04-11 19:58:45 +08:00

可以通过使用 Python 的 importlib 和 sys 模块来实现 import 缓存。可以将已经导入的模块对象存储在一个字典中，每次导入模块时先检查该字典中是否已经存在该模块对象，如果存在则直接使用该对象，否则重新导入并将导入结果存储到字典中。以下是一个简单的实现示例：

```python
import importlib
import sys

module_cache = {}

def import_module(module_name):
if module_name in module_cache:
return module_cache[module_name]
module = importlib.import_module(module_name)
module_cache[module_name] = module
return module

# 使用示例
pymongo = import_module('pymongo')
```

使用该 import_module 函数代替直接导入 pymongo 模块即可实现 import 缓存。

以上答案来自于 deflash.ai. 😄

Varchar

2023-04-11 19:59:16 +08:00

我没尝试啊，能不能用，楼主自己试。

ClericPy

2023-04-11 20:08:39 +08:00

@ChenJHua 就是不直接使用 pymongo 对象, 改远程调用或者跨进程... 那个对象本来就一大堆内置方法, 内存省不了多少的, 做个 HTTP 的接口封装一下也行. 一般情况下脚本都不允许直连数据库, 你们可能要求不严格.

其实我说的就是走远程过程调用相关的事情, 有点跑题了.

你一百个脚本走一百个进程, 实际上 python 解释器运行时候 builtins 也占用 20 多 MB 了, 节省那 6MB 实际意义不大, 缓存的包你跨进程没法共享, 你说的序列化什么的实际上又新建了一遍对象. 这些脚本可以考虑从多进程转到多线程里面, 就可以共享连接池了.

现在看到一大堆脚本就头疼, 刚换的工作掉进脚本地狱里了, 所有东西都面向过程毫无抽象逻辑, 怀念有 azkaban 管理的上一份工作

ChenJHua

2023-04-11 20:28:54 +08:00

@Varchar 谢谢大佬，这个是单脚本适用，多脚本就适用不了了

ChenJHua

2023-04-11 20:30:24 +08:00

@ClericPy 明白你意思了，但是我改不动，走远程过程调用改动太大了。我也头秃，现在要做内存优化，抠到极致了，只能抠这个了，多线程或者多进程对我改动也很大，所以比较头秃

ClericPy

2023-04-11 20:38:43 +08:00

@ChenJHua 我之前把东西跑 hadoop 上也天天优化内存, 你这优化个 6MB 就很伪需求了... Serverless 一般最小规格都 128MB 了, pymongo 导入就这么大, 用精确导入具体对象的方式呢? 然后手动 gc.collect 什么的. 真抠啊

akira

2023-04-11 21:43:24 +08:00

你同时跑 100 个进程也要能跑的过来才行吧。。与其在内存这么抠，还不如看下怎么更合理的调度，降低同时跑的数量

whitewinds

2023-04-12 00:21:24 +08:00

你 100 个独立脚本，运行就要 100 个 python 解释器进程，进程之间内存隔离。或者你单独起一个 pymongo 的服务进程，其他脚本进程用 IPC 调它。

009694

2023-04-12 00:40:07 +08:00

大家提了这么多方法，op 就只一句话：没法改。既然没法改那优化什么内存啊😂

omgr

2023-04-12 08:03:48 +08:00

一句话，这么在意内存占用就 RIIR （ x

- 考虑性价比，内存白菜价了，时间和人力成本更贵，真不够不如加内存
- 解决需要 100 个独立脚本的问题
- 使用 memray 找到短板，6M 的 pymongo 真的是大头吗，先上 python3.11 看看

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/931691

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.