一个 24 小时跑的爬虫程序主机需要什么配置?

2018-03-15 13:10:13 +08:00
 ke1vin

我想做一个豆瓣小组发帖搜索引擎,主要是要爬指定豆瓣小组的数据,保存的数据包括文本和图片。

前几天上了腾讯云的车,但是感觉配置达不到要求( 2G 内存,50G 硬盘),什么样的配置可以跑?

3960 次点击
所在节点    问与答
15 条回复
golmic
2018-03-15 13:13:49 +08:00
看你抓的频率和范围吧,像豆瓣的小组更新频率并不高,再看看你要抓全部小组么。可以联系我详聊,层主是数据工程师。公众号 pydatame 有我联系方式。
tailf
2018-03-15 13:54:23 +08:00
先解决被封的问题再来说吧。。。。
Hzzone
2018-03-15 13:57:39 +08:00
一个爬虫主要有多好的配置……
murmur
2018-03-15 14:02:20 +08:00
需要超级多的代理
ke1vin
2018-03-15 14:06:41 +08:00
@Hzzone 我主要是在想硬盘多久会写满。。。
ke1vin
2018-03-15 14:07:30 +08:00
@murmur 代理是为了防止被封?降低访问频率应该可以破
ke1vin
2018-03-15 14:11:39 +08:00
@tailf 感觉问题不大,我主要是想硬盘如果写满怎么办
aoxiansheng
2018-03-15 14:18:39 +08:00
如果你想降低频率破封,你现在的配置足够了。
ke1vin
2018-03-15 14:24:11 +08:00
@aoxiansheng 硬盘呢,要不要担心写满的情况,我第一次开发爬虫程序。
em70
2018-03-15 14:34:14 +08:00
爬了页面,提取了需要的数据就删了啊,留着这些文件干嘛

50G 硬盘分 10 个 G 做数据库,能存个几千万条记录吧
em70
2018-03-15 14:35:21 +08:00
文本和图片上传 oss,七牛这些专业储存服务去,便宜
mhycy
2018-03-15 14:38:30 +08:00
@em70
看数据体积和存储方式,Pixiv 5KW 的元数据,占地 80G
tscat
2018-03-15 14:39:39 +08:00
1g 内存都爬的很开心啊。
50g 硬盘问题也不是特别大。除非你保存图片
2ME
2018-03-15 14:40:50 +08:00
图片多的话很快就塞满硬盘了 不过你策略不好的话可能还没爬满硬盘就被 ban 掉了 单爬数据就无所谓了 这配置跑爬虫绰绰有余
aoxiansheng
2018-03-15 14:55:20 +08:00
大哥你先干,有问题再解决。还没开始干,就想着解决问题了。
不够买云盘即可。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/438296

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX