爬虫应该用什么数据库存储?

2015-07-24 05:52:58 +08:00
 qw7692336

我以前队列是直接在内存里,程序停了又要重头开始。。。。
所以队列应该保存在数据库当中会好一点

2753 次点击
所在节点    问与答
13 条回复
demoslam
2015-07-24 06:06:56 +08:00
看需求,正常爬虫存的数据库可以随便选。inverted index的存储可能要额外考虑其他的数据库
itfanr
2015-07-24 07:06:39 +08:00
leveldb rocksdb
shoumu
2015-07-24 09:17:38 +08:00
想用什么数据库就用什么数据库,等数据库性能遇到瓶颈了还能学学数据库的东西
Comdex
2015-07-24 09:53:31 +08:00
redis/mongodb
qw7692336
2015-07-24 09:55:49 +08:00
@Comdex
redis和mongodb分别怎么用?
mcwanderer
2015-07-24 12:01:28 +08:00
mongodb
qw7692336
2015-07-24 12:24:49 +08:00
@mcwanderer
不说原因的都是耍流氓
Comdex
2015-07-24 12:25:39 +08:00
@qw7692336 可以上 http://w3cschool.cc看看菜鸟教程
qw7692336
2015-07-24 12:32:00 +08:00
@Comdex
用在什么地方?分别存储什么?
zjq426
2015-07-24 17:43:07 +08:00
爬和解析分开,爬下来的rawdata直接存文件不好吗。。。
bengtuo
2015-07-24 18:39:34 +08:00
直接存文件
qw7692336
2015-07-24 19:55:30 +08:00
@zjq426
@bengtuo
那怎么判断重复数据,就是一个数据,之前可以已经爬过了
ksupertu
2015-07-24 21:28:06 +08:00
@qw7692336 bloomfilter

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/207930

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX