有无爬取整站 url 的工具呢?

2014-10-31 10:20:19 +08:00
 llhh
大概几百万页面,只想拿到其url即可。
想自己写python,试了试,力不从心 囧~

所以上来问下有无一些现成的工具可以爬。

谢谢大家!
5264 次点击
所在节点    问与答
10 条回复
muziyue
2014-10-31 10:23:22 +08:00
老虎sitemap生成器:)
TONYHEAD
2014-10-31 10:24:16 +08:00
XENU
llhh
2014-10-31 10:29:16 +08:00
@muziyue
@TONYHEAD
这两个工具,3百万页面可以吗?
muziyue
2014-10-31 10:30:26 +08:00
@llhh 没试过,我现在十万多要跑一个下午……
iscraft
2014-10-31 10:40:17 +08:00
2楼说的xenu应该是最快的吧
llhh
2014-10-31 10:46:37 +08:00
@TONYHEAD
@muziyue
@iscraft
我现在用screaming frog seo spider比xenu要强一些。
可以正则爬取,选择ua,速度……十万的话3个小时,当然要看网站速度嘛。
jqw1992
2014-10-31 10:50:17 +08:00
http://www.zhihu.com/question/20788231 这个 chrome就可以了的
touch
2014-10-31 10:51:16 +08:00
python scrapy不是很好爬吗
sohu022
2014-10-31 11:18:44 +08:00
用Scrapy,把规则写好,把response.url保存下来就行了。
simapple
2014-10-31 11:33:27 +08:00
https://github.com/simapple/spider 去年早些时候写的,比较烂,希望能对你有帮助

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/142841

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX