[有偿] 征大型爬虫的技术指导

2015-02-26 21:59:32 +08:00
 professorz
我第一次接手一个比较大型的爬虫任务,要爬取一个千万级别的网站,所以要用到scrapy+redis多线程,分布式抓取,服务器配置等等,想找一个有这种经验的人讨教。我明白时间宝贵,所以愿意出钱作为学费,而且只需您辅助我的工作过程,给予一些指导。
9214 次点击
所在节点    Python
45 条回复
mhycy
2015-02-26 22:00:25 +08:00
爬的是哪个站?有多少资源可用?
iannil
2015-02-26 22:53:20 +08:00
可以参考我这个回复 http://v2ex.com/t/127220#reply5
laotaitai
2015-02-27 01:57:31 +08:00
直接外包给我吧. 不过哈, 一般情况下, 少于5W的项目我不接. 哥是专业的玩爬虫的. 我写过爬取全世界60%左右连了网的电脑, 一共收集了3亿的资源的. 对, 你没看错, 就是爬你们的电脑, 不是爬网站.
xiaobo
2015-02-27 02:18:37 +08:00
@laotaitai 请问如何做到的 个人电脑资料 难道是通过木马收集的 那全球60%的电脑 得多少,不科学啊
njutree
2015-02-27 06:52:24 +08:00
@laotaitai 那么问题来了,全世界有多少电脑?
fising
2015-02-27 08:00:18 +08:00
3楼吹牛逼不打草稿
mrhuiyu
2015-02-27 08:28:00 +08:00
@laotaitai 话说···爬电脑?首先不礼貌的冒问一下···今天不是愚人节?额·····好吧那请问····假设电脑关机和非管理员用户登录电脑后无法访问指点盘符,那爬虫可以进去访问?
jedyu
2015-02-27 08:37:07 +08:00
3楼是爬IP吧?
mozutaba
2015-02-27 09:29:51 +08:00
3楼是爬ip的开放服务?
joshryo
2015-02-27 09:33:13 +08:00
3楼太谦虚了,居然还有40%连了网的电脑没爬。
xidianlz
2015-02-27 09:43:57 +08:00
3楼说的是扫描比较好吧 不算爬虫
xFan
2015-02-27 09:51:37 +08:00
3楼歪楼以后没人理楼主了...

你们赶紧正回来,.
angerskon
2015-02-27 10:00:36 +08:00
3楼说的3亿的资源是指的3亿台电脑吗?照你说的60%来算,也就是说全球5亿左右的计算机联网。ipv4的地址一共42亿左右,除掉一些保留的,怎么也不止5亿吧。
thinkmore
2015-02-27 10:07:26 +08:00
3楼就是来骗回复的
crazycookie
2015-02-27 10:13:53 +08:00
楼上都被 3楼带歪了
其实有偿指导也是一件 比较 bug的事情
这种分布式我在做,确实 scrapy + redis 可以完成这些
我用linode跑的国外的站,4台服务器,还算稳定
binux
2015-02-27 10:34:02 +08:00
千万级别不算大型啊。。。
lucn
2015-02-27 10:56:32 +08:00
scrapy开发成本高,pyspider半小时搞定
gouwudang
2015-02-27 11:01:34 +08:00
楼主可以来我司工作,每天得爬上亿条数据
gouwudang
2015-02-27 11:01:45 +08:00
@gouwudang 不用交钱,我们给你钱
cxl008
2015-02-27 11:05:58 +08:00
scrapy+mongodb+redis 的方案 分布40台机器。。 爬取国内200多个安卓市场。。。。。。。。数据量到1亿左右。。没有3楼那么牛逼了。。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/173056

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX