最近在跑实验,求一些 python 自动化、分布式的框架

2014-11-26 17:02:43 +08:00
 tywtyw2002
最近在跑cpu模拟,gem5,一个任务一跑就是5+小时。

目前半手工实现,用python去生成命令复制到terminal里面执行,命令类似
```
ssh ug22 "cd ~/as03/result/; ./run.sh 4 ../10000.txt >../log/log-4-10000.log 2>&1" &
```
简单解释一下,就是远程到别的机器执行一个命令,然后让这个ssh在后台执行。
这样只要在一台机器上挂tmux,就可以保证其他机器上面运行的任务不会因为ssh断开而挂掉,而且output也不会在这台终端上面狂刷,然后我们还可以在这个终端上干点别的。

但是问题来了,
- 任务结束后ssh进程不会结束掉,必须手动去kill,不知道怎么才能让任务结束掉就结束ssh连接。
- 如果要断开ssh连接的话,好像没有办法让任务继续在后台去跑(不启动tmux之类的东西)。


半手动还是很麻烦,而且没法实现队列。队列的python框架有很多,那部分也是比较好实现的。但是不知道py的自动化、分布式框架有哪些呢?
基本需要的就是,可以ssh到其他机器,保证模拟结束之前,进程不会挂掉,得到一些任务的信息,比如正常结束、运行时间等等。

本来想用subprocess的,但是需要wait的话只能去开多个thread,一次跑40台机器感觉thread开不起呀,会被管理员骂的。

求推荐一些框架去跑分布式的task。
4195 次点击
所在节点    程序员
10 条回复
GeekGao
2014-11-26 17:09:12 +08:00
python-rq
Parallel Python
tywtyw2002
2014-11-26 17:13:29 +08:00
@GeekGao Parallel Python 好像是跟openMPI差不多的东西吧? 这个主要是并行计算,而不是去管理并发任务的。
wibile
2014-11-26 17:27:02 +08:00
fabric,celery,rabbitmq
DiffView
2014-11-26 19:24:53 +08:00
lwj0012
2014-11-26 19:27:29 +08:00
@tywtyw2002 你是做哪方面啊?有空聊聊?
GeekGao
2014-11-26 19:41:29 +08:00
@tywtyw2002 没有管理功能,没遇到可以管理的。如果只是执行一些命令,你可以用faric
clino
2014-11-26 19:48:32 +08:00
感觉自动构建的工具像buildbot jenkins也能满足楼主
tywtyw2002
2014-11-27 01:19:23 +08:00
@lwj0012 你指什么哪方面? 我邮箱就是这个id家gmail
hicdn
2014-11-27 12:10:26 +08:00
不用 gearman?
bingx86
2014-11-27 13:38:08 +08:00
Ansible and Saltstack。。或许是你想要的,我用了前者

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/149466

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX