[有偿] 征大型爬虫的技术指导

我第一次接手一个比较大型的爬虫任务，要爬取一个千万级别的网站，所以要用到scrapy+redis多线程，分布式抓取，服务器配置等等，想找一个有这种经验的人讨教。我明白时间宝贵，所以愿意出钱作为学费，而且只需您辅助我的工作过程，给予一些指导。

mhycy

2015-02-26 22:00:25 +08:00

爬的是哪个站？有多少资源可用？

iannil

2015-02-26 22:53:20 +08:00

可以参考我这个回复 http://v2ex.com/t/127220#reply5

laotaitai

2015-02-27 01:57:31 +08:00

直接外包给我吧. 不过哈, 一般情况下, 少于5W的项目我不接. 哥是专业的玩爬虫的. 我写过爬取全世界60%左右连了网的电脑, 一共收集了3亿的资源的. 对, 你没看错, 就是爬你们的电脑, 不是爬网站.

xiaobo

2015-02-27 02:18:37 +08:00

@laotaitai 请问如何做到的个人电脑资料难道是通过木马收集的那全球60%的电脑得多少，不科学啊

njutree

2015-02-27 06:52:24 +08:00

@laotaitai 那么问题来了，全世界有多少电脑？

mrhuiyu

2015-02-27 08:28:00 +08:00

@laotaitai 话说···爬电脑？首先不礼貌的冒问一下···今天不是愚人节？额·····好吧那请问····假设电脑关机和非管理员用户登录电脑后无法访问指点盘符，那爬虫可以进去访问？

joshryo

2015-02-27 09:33:13 +08:00

3楼太谦虚了，居然还有40%连了网的电脑没爬。

xidianlz

2015-02-27 09:43:57 +08:00

3楼说的是扫描比较好吧不算爬虫

xFan

2015-02-27 09:51:37 +08:00

3楼歪楼以后没人理楼主了...

你们赶紧正回来,.

angerskon

2015-02-27 10:00:36 +08:00

3楼说的3亿的资源是指的3亿台电脑吗？照你说的60%来算，也就是说全球5亿左右的计算机联网。ipv4的地址一共42亿左右，除掉一些保留的，怎么也不止5亿吧。

crazycookie

2015-02-27 10:13:53 +08:00

楼上都被 3楼带歪了
其实有偿指导也是一件比较 bug的事情
这种分布式我在做，确实 scrapy + redis 可以完成这些
我用linode跑的国外的站，4台服务器，还算稳定

lucn

2015-02-27 10:56:32 +08:00

scrapy开发成本高，pyspider半小时搞定

gouwudang

2015-02-27 11:01:34 +08:00

楼主可以来我司工作，每天得爬上亿条数据

gouwudang

2015-02-27 11:01:45 +08:00

@gouwudang 不用交钱，我们给你钱

cxl008

2015-02-27 11:05:58 +08:00

scrapy+mongodb+redis 的方案分布40台机器。。爬取国内200多个安卓市场。。。。。。。。数据量到1亿左右。。没有3楼那么牛逼了。。。。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/173056

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.