hadoop 可以两个集群之间做到每个节点之间一一对应实时同步么?

2016-08-31 10:40:25 +08:00
 zpole

有 a,b 两个集群。 a 接收流数据,然后每个节点都同步到 b 。

a 的 1 节点新收的流同步到 b 的 1 , a 的 2 到 b 的 2 。。。依次类推

然后a,b各自的修改也要能互相同步。

就是说保证 a , b 的完全一致。

每秒几亿条。延迟秒级。

8074 次点击
所在节点    Hadoop
29 条回复
1957704130
2016-08-31 10:55:29 +08:00
每秒几亿条,什么数据能到这个体量?
xmoiduts
2016-08-31 11:03:29 +08:00
看起来可能是金融云解决方案
zpole
2016-08-31 11:04:04 +08:00
@1957704130 好像是金融还是银行的
wander2008
2016-08-31 12:02:31 +08:00
给我 100w 我来给你解决
wyntergreg
2016-08-31 15:46:25 +08:00
每秒几亿就算是银行也是银行总部大机级别的,这事没多少人能给你解决
czheo
2016-08-31 15:55:00 +08:00
其他不说, a,b 各自的修改也要能互相同步: a,b 同时修改 conflict 怎么解决?肯定要类似 cassandra 的 eventual consistency 机制。
况且数据如何 replicate 到哪个 datanode 是是 balancer 自动控制的, a1 必须同步 b1 这种需求不理解啊。
你这个构架难度太大,改构架吧。
czheo
2016-08-31 15:57:54 +08:00
仔细想想,你这构架完全是 mysql 思维啊
ten789
2016-08-31 16:19:58 +08:00
mysql 相互主从 呵呵了
zpole
2016-08-31 16:51:33 +08:00
@ten789 大概就是人家公司的某个项目想这样做,但想不到同步机制,然后经理就四处问,然后就到我这里了。我也不是很懂,就把经理说的夸大的需求发 v2 上了。现在跟工程师交流了下把需求改对了,但方案是人家的,也不想变。。。(我就是个小菜鸟,不要打我)(逃
zpole
2016-08-31 16:54:37 +08:00
@czheo 需求已改。现在您觉得这样做可行吗?不行的话架构可以怎么改?
wmttom
2016-08-31 17:21:45 +08:00
合并成一个集群可破,存储层用一套,想要安全多开副本。感觉搞两个集群应该是为了计算资源隔离吧,但是搞一个集群也能想各种办法分配调度计算任务啊,没必要搞两个。
zpole
2016-08-31 17:50:11 +08:00
@wmttom 搞两个集群还有一个目的是一边挂掉了另一边可以跟上,保证应用的不掉线。如果只开一个集群可以做到这个要求么?怎么做?
czheo
2016-08-31 19:00:34 +08:00
@zpole 用两套集群也是浪费啊。请搜索 Hadoop High Availability , namenode 搞 active standby 就可以解决 single point of failure 。
czheo
2016-08-31 19:06:52 +08:00
你现在的思路完全是用 mysql 思维来用 Hadoop 啊,手动一个集群同步到另一个集群的做法在 Hadoop 下设置一个 replication factor 就解决了。高可用也只要解决 namenode 的 SPOF 就行了,遇到 job failure 大不了 retry 一下。
wph95
2016-08-31 19:15:35 +08:00
@czheo 他思路没问题 airbnb 就是这么搞的, airbnb 叫 gold && silve cluster 。 可以通过这个关键词去找文章
wph95
2016-08-31 19:22:39 +08:00
不说机器规模和配置,就只说需求。
可以看看 ReAir ,觉得场景有点像
// 几亿是数据的总量, 这量一点都不多。
czheo
2016-08-31 20:20:03 +08:00
@wph95 谢谢分享,有 reair 的话,说不定 lz 这需求还真能实现。
defunct9
2016-08-31 21:10:47 +08:00
管过 600 节点 hadoop ,觉得在胡扯
zpole
2016-08-31 21:21:51 +08:00
@czheo 个人理解 active standby 里 standby 一般是不参与运算的,是用来受灾的时候恢复的。这个需求要两个数据中心双活,都能做运算。虽然有冗余但利用率更高。
tinybaby365
2016-08-31 21:58:32 +08:00
只用一个集群,提高可用性。 Hadoop 设计的目的就是不让你有如此想法。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/302856

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX