跑爬虫程序, 每天都要跑几千万条数据, 公司想要租个服务器,V 友们可有什么推荐 ?

2018-08-27 22:58:18 +08:00
 studyaa

爬虫需求后期会很大,速度要快

3768 次点击
所在节点    问与答
9 条回复
summerwar
2018-08-27 23:34:32 +08:00
信息太少,没法推荐
ToT
2018-08-27 23:46:19 +08:00
能不能提供一些基本数字估计。当你写出来的时候,可能也就知道答案了。

参看 http://highscalability.com/blog/2011/1/26/google-pro-tip-use-back-of-the-envelope-calculations-to-choo.html
hundan
2018-08-28 00:22:34 +08:00
借楼问一下,如果要做扫全球 ip 这种大流量出口的工作,有没有好的推荐,不会被封不会被警告的,出口带宽大的
msg7086
2018-08-28 04:25:57 +08:00
需求后期会很大 —— 多大?
速度要快 —— 多快?
钱有多少?
流量要用多少?
IP 要多少个?要频繁换吗?
要做分布式节点吗?
国内外都要吗?

@hundan 最好不要寄希望于单个节点。
studyaa
2018-08-28 09:26:35 +08:00
@msg7086
五六个小时要跑几千万数据,
ip 肯定要频繁换,多少个的话我也不太清楚怎么算,一个首页面一个?几十万个?
分布式不太懂
国外的不需要
价钱的话公司没说,就说做下来所需要的配置..

还有感谢回答!
studyaa
2018-08-28 09:31:02 +08:00
@summerwar 每天需要大概五六个小时跑几千万数据, 会用到 selenium
服务器的配置也跟所需代理 ip 有关吗?
对服务器不太懂
为什么都需要在服务器上跑爬虫

感谢之前的回答!
studyaa
2018-08-28 09:39:11 +08:00
@ToT 嗯嗯! 我看看
msg7086
2018-08-28 12:41:30 +08:00
@studyaa 嗯,需求超出了我的能力范围,没法回答你了。
tennc
2018-08-28 14:51:09 +08:00
正规的服务器跑爬虫都会被封吧,要找就找那些 black 服务器

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/483788

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX