@
111qqz 1. 这不应该 oncall 做。邮件沟通转给对应组员即可
2.那就更应该安排专人负责。或者设计一套自动修整系统,解决一些小问题。
3. 那也分紧急不紧急。能用两天时间就说明没那么经济。oncall 第一任务是生产环境的 outage ,其次才是失败率。失败率剩下的不还是可用率嘛。真要是重要的问题,那也是老板负责,你有什么压力。
4. 那也是需要另外安排人做。我们组这种事情都是转给 pm 去解决的。因为 dev 控制不了用户爱怎么用。pm 却很需要了解用户需要什么功能。让 dev 做这个非常没效率。如果老板认识不到他的 dev 在干 support 和 pm 的活,那说明老板的工作没有做好。
5. 这就更是老板和 pm 的锅了啊。和其他组件如何交接,这是最初立项时就要商量好的事情。
缺 log ,缺工具,导致 Dev 浪费时间在 oncall 上,那就应该开发工具,保证下次遇到同类问题可以快速定位和控制影响。如果你有类似的想法,应该及时和老板反馈,商量如何解决同类问题。你看,visibility 这不就来了嘛。
oncall 的任务不是彻底解决问题,而是定位问题和恢复服务。这考的是产品整体架构,不是单人的技术水平。如果你们出了大事还没法恢复,你老板就完蛋了。
6. 和下游用户对接,这就是 tpm 的工作……
总之,oncall 事多是正常的,但是你没必要有压力。尽力而为就行了。