[求推荐] 整站Url抓取工具,只要Url,不要页面内容

2013-10-22 17:45:02 +08:00
 66beta
有个客户网站,栏目都没有列表页,很多页面都藏得很深。(无法进后台,无法看数据库)

有没有这样的工具,可以抓取全部的URL,就可以自己整理了:

http://localhost/aaa/001
http://localhost/aaa/002
http://localhost/aaa/003
http://localhost/aaa/004

http://localhost/bbb/001
http://localhost/bbb/002
http://localhost/bbb/003

就可以统计出aaa栏目下有哪些URL,bbb栏目下有哪些URL

现在进入http://localhost/aaa/,是直接跳转到aaa下最新的一篇,太苦逼了
4133 次点击
所在节点    问与答
5 条回复
wenjuncool
2013-10-22 18:27:06 +08:00
自己开发吧
soho176
2013-10-22 19:22:00 +08:00
用火车头 采集网址吧
manoon
2013-10-22 19:42:06 +08:00
循环生成
aaa/001
aaa/002
aaa/nnn

循环访问aaa/nnn
如果404 退出
如果200 加到列表
最后你需要的列表


应该很清晰了吧。
nsxuan
2013-10-22 19:49:20 +08:00
wget 即可把 有个 不下载 写入列表
66beta
2013-10-23 11:09:46 +08:00
@wenjuncool @manoon 不会写啊,会写就不来问了~

@soho176 试了下,不会玩,貌似不能自动向下采集URL

@nsxuan wget如何做到?google了下没找到

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/86469

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX