虚心求教,数据量上亿的爬虫数据用什么该用什么数据库呢

277 天前
 morost

本来数据量小的时候用的就是 MySQL ,后来爬虫做过升级后,无论是广度和深度都有了改进,数据量慢慢已经来到了亿级,查询越来越慢,只能一直加索引来加快查询速度,但是这不是长久之计,准备从数据库上改善这个问题。

希望更换一个对于大数据量支持友好的数据库,奈何本人这方面了解的确实不多,希望各位 v 友给点建议。

10152 次点击
所在节点    程序员
77 条回复
pota
277 天前
放 es 里面?
tikazyq
277 天前
mongodb
me1onsoda
277 天前
tidb?
sagaxu
277 天前
索引质量低导致查询慢,索引太多导致插入慢,换 DB 可能解决不了
gazi
277 天前
不知道数据特性和数据结构,是否经常删改,经常聚合分析,使用场景也不清楚 不好推荐。
我们在用 Clickhouse, 朋友在用 StarRocks 。可以了解对比一下
morost
277 天前
@sagaxu 是数据量大—①—>查询慢—②—>加索引,这个逻辑链,现在想解决第一个传导逻辑。
sagaxu
277 天前
数据量大查询慢,是因为索引质量低
morost
277 天前
@gazi 图片和视频(均为链接)数据,使用场景目前最主要是就是下载和更新状态
morost
277 天前
@sagaxu #7 那只需要建立高质量索引就不需要更换 db 了这个意思嘛,我一开始是认为 MySQL 对于大数据量的支持不是很友好才想要更换 db 的
KongLiu
277 天前
考虑一下分库分表?
morost
277 天前
@KongLiu 产品设计导致只能放在一张表里,哎
morost
277 天前
@pota 谢谢回答,我去调研一下
morost
277 天前
@me1onsoda 谢谢回答, 我去调研一下这个 db
morost
277 天前
@tikazyq 我自己这边找的方案现在是在 mongodb 和 PostgreSQL 之间比较,那我先去看看 mongo
keyfunc
277 天前
分布式数据库
morost
277 天前
@keyfunc 老哥细说一下呢
gazi
277 天前
@morost 这个场景不太适合,Clickhouse 和 StarRocks 。另外上亿数据量对于 mysql 还不算大数据。 我感觉也是先优化索引比较好。ES 也比较合适,可以等数据量再大的时候换 ES 。
morost
277 天前
@gazi #17 谢谢解答,我这就去优化一下索引相关
BeijingBaby
277 天前
才亿级别,直接 clickhouse 吧,百亿都没问题。
Jinnrry
277 天前
换 starrocks
1.兼容 mysql 协议,代码完全不用改
2.才亿级数据,对 sr 来说就是毛毛雨,都不够热身

缺点
成本高很多

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1040896

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX