一个要求很简单的爬虫,有没有相关的开源程序推荐?

2015-03-13 11:17:46 +08:00
 zjuster

# 需求
- 指定某一个网站host
- 抽取该网站的网页URL,暂定抽取上限10000条(针对门户);不满足的抽取5000条;否则全量抽取
- 只保存爬取的URL地址,不需要抽取任何内容,结果保存在txt文件中。
- 速度越快越好

谢谢

2425 次点击
所在节点    问与答
9 条回复
kchum
2015-03-13 11:35:59 +08:00
不爬内容怎么爬 URL
URL 就是内容的一部分
binux
2015-03-13 11:41:08 +08:00
google site:host
xiaogui
2015-03-13 12:47:35 +08:00
@binux 这是个不错办法,哈哈
MrGba2z
2015-03-13 13:30:17 +08:00
icedx
2015-03-13 13:36:29 +08:00
requests+bs4
frankzeng
2015-03-13 13:49:41 +08:00
你就爬一下首页,把url取下来,算一下不重复的有多少,如果不够就再爬url,这不是挺简单的逻辑吗
Battle
2015-03-13 14:32:16 +08:00
有一个东西叫火车头
bingu
2015-03-13 14:41:56 +08:00
wget ?
Tink
2015-03-14 10:30:29 +08:00
二楼这个办法不错,主要是ip的问题

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/176576

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX