最近在跑cpu模拟,gem5,一个任务一跑就是5+小时。
目前半手工实现,用python去生成命令复制到terminal里面执行,命令类似
```
ssh ug22 "cd ~/as03/result/; ./
run.sh 4 ../10000.txt >../log/log-4-10000.log 2>&1" &
```
简单解释一下,就是远程到别的机器执行一个命令,然后让这个ssh在后台执行。
这样只要在一台机器上挂tmux,就可以保证其他机器上面运行的任务不会因为ssh断开而挂掉,而且output也不会在这台终端上面狂刷,然后我们还可以在这个终端上干点别的。
但是问题来了,
- 任务结束后ssh进程不会结束掉,必须手动去kill,不知道怎么才能让任务结束掉就结束ssh连接。
- 如果要断开ssh连接的话,好像没有办法让任务继续在后台去跑(不启动tmux之类的东西)。
半手动还是很麻烦,而且没法实现队列。队列的python框架有很多,那部分也是比较好实现的。但是不知道py的自动化、分布式框架有哪些呢?
基本需要的就是,可以ssh到其他机器,保证模拟结束之前,进程不会挂掉,得到一些任务的信息,比如正常结束、运行时间等等。
本来想用subprocess的,但是需要wait的话只能去开多个thread,一次跑40台机器感觉thread开不起呀,会被管理员骂的。
求推荐一些框架去跑分布式的task。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/149466
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.