虚心求教,数据量上亿的爬虫数据用什么该用什么数据库呢

283 天前
morost  morost

本来数据量小的时候用的就是 MySQL ,后来爬虫做过升级后,无论是广度和深度都有了改进,数据量慢慢已经来到了亿级,查询越来越慢,只能一直加索引来加快查询速度,但是这不是长久之计,准备从数据库上改善这个问题。

希望更换一个对于大数据量支持友好的数据库,奈何本人这方面了解的确实不多,希望各位 v 友给点建议。

10215 次点击
所在节点   程序员  程序员
77 条回复
pota
pota
283 天前
放 es 里面?
tikazyq
tikazyq
283 天前
mongodb
me1onsoda
me1onsoda
283 天前
tidb?
sagaxu
sagaxu
283 天前
索引质量低导致查询慢,索引太多导致插入慢,换 DB 可能解决不了
gazi
gazi
283 天前
不知道数据特性和数据结构,是否经常删改,经常聚合分析,使用场景也不清楚 不好推荐。
我们在用 Clickhouse, 朋友在用 StarRocks 。可以了解对比一下
morost
morost
283 天前
@sagaxu 是数据量大—①—>查询慢—②—>加索引,这个逻辑链,现在想解决第一个传导逻辑。
sagaxu
sagaxu
283 天前
数据量大查询慢,是因为索引质量低
morost
morost
283 天前
@gazi 图片和视频(均为链接)数据,使用场景目前最主要是就是下载和更新状态
morost
morost
283 天前
@sagaxu #7 那只需要建立高质量索引就不需要更换 db 了这个意思嘛,我一开始是认为 MySQL 对于大数据量的支持不是很友好才想要更换 db 的
KongLiu
KongLiu
283 天前
考虑一下分库分表?
morost
morost
283 天前
@KongLiu 产品设计导致只能放在一张表里,哎
morost
morost
283 天前
@pota 谢谢回答,我去调研一下
morost
morost
283 天前
@me1onsoda 谢谢回答, 我去调研一下这个 db
morost
morost
283 天前
@tikazyq 我自己这边找的方案现在是在 mongodb 和 PostgreSQL 之间比较,那我先去看看 mongo
keyfunc
keyfunc
283 天前
分布式数据库
morost
morost
283 天前
@keyfunc 老哥细说一下呢
gazi
gazi
283 天前
@morost 这个场景不太适合,Clickhouse 和 StarRocks 。另外上亿数据量对于 mysql 还不算大数据。 我感觉也是先优化索引比较好。ES 也比较合适,可以等数据量再大的时候换 ES 。
morost
morost
283 天前
@gazi #17 谢谢解答,我这就去优化一下索引相关
BeijingBaby
BeijingBaby
283 天前
才亿级别,直接 clickhouse 吧,百亿都没问题。
Jinnrry
Jinnrry
283 天前
换 starrocks
1.兼容 mysql 协议,代码完全不用改
2.才亿级数据,对 sr 来说就是毛毛雨,都不够热身

缺点
成本高很多

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1040896

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX