[有偿] 征大型爬虫的技术指导

2015-02-26 21:59:32 +08:00
 professorz
我第一次接手一个比较大型的爬虫任务,要爬取一个千万级别的网站,所以要用到scrapy+redis多线程,分布式抓取,服务器配置等等,想找一个有这种经验的人讨教。我明白时间宝贵,所以愿意出钱作为学费,而且只需您辅助我的工作过程,给予一些指导。
9218 次点击
所在节点    Python
45 条回复
jason52
2015-02-27 11:06:36 +08:00
@gouwudang 哇,楼上在北邮人上发帖,最让我印象深刻的就是睡觉睡到自然醒。。。哈哈哈
Anybfans
2015-02-27 11:14:54 +08:00
突然感觉3L在360上班。。。
gouwudang
2015-02-27 11:15:49 +08:00
@jason52 谢谢关注,还在招人呢
mengskysama
2015-02-27 11:29:54 +08:00
之前我用了一台快到期的独服,24G内存,开了15台,特意申请了255个IP。
爬的是last.XX,用了近二十多天爬了将近1忆的专辑信息(几亿歌曲信息。

自己写的主从架构,只用了mysql,好像也没遇到什么瓶颈。
个人感觉爬其实挺好爬的。如果源没有限制特别死或者太坑爹反爬虫策略的话
nine
2015-02-27 11:45:38 +08:00
pyspider吧,很好用。。
2dog
2015-02-27 11:47:40 +08:00
@laotaitai 同学有兴趣挑战一下BAT的一家反抓取策略么?可外包,一天上亿条
laotaitai
2015-02-27 12:43:15 +08:00
@2dog 先简单给说说是个啥玩意呢. 爬什么? 拿来干什么?
sohoer
2015-02-27 12:52:56 +08:00
@2dog 有挑战才好玩,详细说说
2dog
2015-02-27 12:54:01 +08:00
@laotaitai 抓淘宝的价格数据,我们用了20台服务器 + 1万代理IP 依然被封的半身不遂
2dog
2015-02-27 12:54:11 +08:00
@sohoer 抓淘宝的价格数据,我们用了20台服务器 + 1万代理IP 依然被封的半身不遂
professorz
2015-02-27 13:25:20 +08:00
我是lz,我回来了。

@lucn pysipder稳定性,效率各方面怎么样呢?
@binux 我在byr上问有人@你了
@gouwudang 真的吗,我开学要做毕设,暑假去你们公司实习三个月吧?
@2dog 我的毕设就是跟电商网站数据抓取有关的,我对你们的工作很感兴趣,让我打个杂学学习吧^_^
laotaitai
2015-02-27 13:26:19 +08:00
@2dog 有点意思, 价钱大概多少?
2dog
2015-02-27 13:29:19 +08:00
@laotaitai 邮件沟通吧 2973723126@qq.com
inter
2015-02-27 14:18:54 +08:00
千万算个球大型。我们这一台服务器上的一个爬虫实例,一天就是上千万的请求。
其实还能更高,但是现在提不上去的原因是一个实例就把对方一台服务器的下行吃满了。我们还得想着怎么帮对方提高吞吐量,对方cdn配置有问题的时候还得帮他们做同步.
python真是弱啊,上亿的就几十台服务器了。我们这一台单核1g机器,跑两个实例。
1亿请求,200多个站点,这就是台好点的服务器的事情
Yannis1990
2015-02-27 14:53:17 +08:00
一直想知道 “千万级” 的网站是什么意思?

千万个页面?
cxl008
2015-02-27 15:14:21 +08:00
@2dog 求 哪里找这么多代理 ip 的?
professorz
2015-02-27 15:23:56 +08:00
@Yannis1990 嗯 千万个条目
mengskysama
2015-02-27 15:44:25 +08:00
@cxl008 www.66ip.cn/zz.html 估计都是扫出来的,无辜的网民
mikangchan
2015-02-27 18:16:32 +08:00
想求教下怎么精确控制内容...
数据量不大,不过图片较多,而且要精确控制一部分文字内容
sandideas
2015-02-27 19:05:59 +08:00
@cxl008 淘宝有卖。。便宜的狠

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/173056

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX