两个数据相关的需求,有没有更好的方式

2022-11-10 11:35:04 +08:00
 CaptainD

现在有一亿条左右的数据存在 Mongo 和 es ,需要对它们进行修改和分析

同步

Mongo 数据较新,es 较旧,需要从 Mongo 根据 ID 查询出来,再到 ES 找到对应数据,更新其中几个字段,我希望速度快一点,是否可以用 spark 之类的方式自动分片去查询?

分析

还是这批数据,需要简单的分析、统计,是否可以用 hive 、impala 这种 OLAP 数据库?

635 次点击
所在节点    问与答
3 条回复
Morriaty
2022-11-10 12:02:44 +08:00
为什么要比较呢,删除 es 数据,直接把 mongo dump 出来再新建一个 es 索引不就行了么
CaptainD
2022-11-10 13:40:56 +08:00
@Morriaty #1 首先 ES 现在还在提供服务,其次 ES 存的内容和 Mongo 很不一样,Mongo 的字段更贴近源数据,ES 大多数加工过的需要被搜索的数据,Mongo 到 ES 的过程有一个加工过程
Morriaty
2022-11-11 10:54:02 +08:00
@CaptainD
1. PUT index_v2
2. mongo pipeline to index_v2
3. delete index_v1
4. alias index_v2 as index_v1

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/894083

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX