关于分布式爬虫的问题

2020-12-25 17:06:48 +08:00
 lieyan

请教一下,目前有没有那种开源的或者付费的分布式爬虫系统?可以进行深度爬取整个网站的那种?

优先考虑开源的,自己撸了一个,效率不大行。。。

1526 次点击
所在节点    程序员
10 条回复
czfy
2020-12-25 17:08:33 +08:00
深度爬取整个网站,这是想干嘛
付费的肯定有,八爪鱼之类的
不过你这想要深度爬取,可行性不是问题,风险才是问题
lieyan
2020-12-25 17:09:43 +08:00
@czfy 我这里风险不是问题,可行性差了点。。。我们做的都是合法的,爬取之前会得到用户的授权 。
lieyan
2020-12-25 17:10:59 +08:00
@czfy 八爪鱼不符合我们的业务,我们不做页面数据分析。。只需要爬取出来就 ok
manzhiyong
2020-12-25 17:12:15 +08:00
抓起来的都是获得过授权的
RudyS
2020-12-25 17:12:16 +08:00
我们自己开发
lieyan
2020-12-25 17:14:01 +08:00
@manzhiyong 这个。。。。不过我们业务特殊,没这个风险
lieyan
2020-12-25 17:14:29 +08:00
@RudyS 有啥建议吗?包括突破反爬技术这个你们是怎么弄的?
snappyone
2020-12-25 21:41:22 +08:00
@lieyan 你都合法了,还搞啥反爬?
Lemeng
2020-12-25 23:56:47 +08:00
爬整个站啊,好吧
sjmcefc2
2020-12-26 08:31:02 +08:00
teleport

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/738972

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX