Python 并行脚手架

做 data preprocessing 和跑批量任务的时候经常会遇到下面的情况：

单 Python 进程根本跑不快，需要 multiprocess
因为可能会意外退出，所以要写一个 cache 的检查逻辑之前是不是执行过，执行过就跳过
每次都是复制粘贴以前类似的代码，但修修改改很容易改错
如果上 PyTorch 的话先要 spawn process 重新 load 模型，还得分数据，烦不胜烦

为解决上述烦恼，做了一个并行框架，项目地址： https://github.com/JeffersonQin/akasaka

代码非常简单但重在实用，已发布 PyPi 。

例子： https://github.com/JeffersonQin/akasaka/blob/master/examples/print.py

还支持 PyTorch CUDA 的 spawning, 在多卡集群上，用户可以只提供 load_model, get_dataloader, execute() 函数，即可多卡自动数据分割 + 并发执行，一步到位解决重复劳动

Peiiii

325 天前

让我想到了研究生做实验的时候需要跑上万个任务，为了方便写了一个批量跑任务的命令行的工具。

https://gitee.com/peiiii/jobx

任务都定义在 yaml 模板里，yaml 模板里支持导入 python 代码，支持在循环里定义任务，这样一个 yaml 就可以对应一批任务，当时用这个测试各种参数组合。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1029681

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.