一个要求很简单的爬虫，有没有相关的开源程序推荐？

2015-03-13 11:17:46 +08:00

zjuster

＃需求
- 指定某一个网站host
- 抽取该网站的网页URL，暂定抽取上限10000条（针对门户）；不满足的抽取5000条；否则全量抽取
- 只保存爬取的URL地址，不需要抽取任何内容，结果保存在txt文件中。
- 速度越快越好

谢谢

2495 次点击

所在节点

9 条回复

kchum

2015-03-13 11:35:59 +08:00

不爬内容怎么爬 URL
URL 就是内容的一部分

binux

2015-03-13 11:41:08 +08:00

google site:host

xiaogui

2015-03-13 12:47:35 +08:00

@binux 这是个不错办法，哈哈

MrGba2z

2015-03-13 13:30:17 +08:00

icedx

2015-03-13 13:36:29 +08:00

requests+bs4

frankzeng

2015-03-13 13:49:41 +08:00

你就爬一下首页，把url取下来，算一下不重复的有多少，如果不够就再爬url，这不是挺简单的逻辑吗

Battle

2015-03-13 14:32:16 +08:00

有一个东西叫火车头

bingu

2015-03-13 14:41:56 +08:00

wget ？

Tink

2015-03-14 10:30:29 +08:00

二楼这个办法不错，主要是ip的问题

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.