症状:
小型集群在部署后12到48小时就会有应用报错, 说和HBse在创建链接时超时. 这时候去查看Zookeeper的日志是发现已经有大量链接创建并且达到了设置的数值(60).
环境:
Cloudera. 大部分应用使用 Python Happybase 通过Thrift service来和Zookeeper进行通信, 由于集群的规模非常小, 所以只有一个Thrift gateway.另外有一些Java应用是mapreduce来对HBase进行put, 用的是native Hadoop HBase API.
临时解决方案:
1. 把Zookeeper的max # of connections设置成200
2. 每12小时重启Zookeeper一次
这2个办法现在可以基本把症状消除 但是在我看来并不解决问题因为根本没找到问题在哪. 而且Zookeeper的重启会导致有60秒的真空期 如果这个时候应用给zookeeper发出请求也是各种报错。
请问各位英雄豪杰有没有类似的经历? 小弟跪求指点
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.