Thrift/Zookeeper 连接数过多导致新连接请求被拒

症状:
小型集群在部署后12到48小时就会有应用报错, 说和HBse在创建链接时超时. 这时候去查看Zookeeper的日志是发现已经有大量链接创建并且达到了设置的数值(60).

环境:
Cloudera. 大部分应用使用 Python Happybase 通过Thrift service来和Zookeeper进行通信, 由于集群的规模非常小, 所以只有一个Thrift gateway.另外有一些Java应用是mapreduce来对HBase进行put, 用的是native Hadoop HBase API.

临时解决方案:
1. 把Zookeeper的max # of connections设置成200
2. 每12小时重启Zookeeper一次
这2个办法现在可以基本把症状消除但是在我看来并不解决问题因为根本没找到问题在哪. 而且Zookeeper的重启会导致有60秒的真空期如果这个时候应用给zookeeper发出请求也是各种报错。

请问各位英雄豪杰有没有类似的经历? 小弟跪求指点

monkeylyf

2015-03-11 00:58:22 +08:00

@signifox 感谢回复
我现在设成了200 重启了zookeeper 暂时还没有看到问题
我的担心是如果这些链接是某些应用创建不当造成的僵尸链接那么设成2000也总有一天会max out 我很好奇真正的root cause

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/175829

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.