怎么批量下载网站上的提供的文件目录?

2015-08-22 10:43:30 +08:00
 ivanchou
site: http://satdat.ngdc.noaa.gov/dmsp/data/ 首先这是 apache 么?

然后其网站提供的 FTP 目录貌似不一样,而且访问速度极慢,不知道是不是网络问题。

然后尝试用 wget 下载 apache 目录的方法,但只能下载到 index.html 。
1968 次点击
所在节点    问与答
6 条回复
imn1
2015-08-22 11:23:41 +08:00
wget 可以拖全站的,自己再研究一下参数吧
ivanchou
2015-08-22 11:27:26 +08:00
@imn1 wget -r -np -nH – cut-dirs=3 -R index.html http://satdat.ngdc.noaa.gov/dmsp/data/
有什么问题么?
imn1
2015-08-22 11:29:53 +08:00
好久没做拖站这事,参数都忘光了
ivanchou
2015-08-22 11:35:22 +08:00
@imn1 我不确定这是不是 Apache, wget 能拖非 apache 的站点吗?
ivanchou
2015-08-22 11:54:35 +08:00
@imn1 还有 wget 会遵守 robots.txt 么?
imn1
2015-08-22 12:09:25 +08:00
跟什么服务器无关,就是 http 协议
robots 没研究过,理应遵守, wget 是从 html 内获取 link ,不是自己猜测

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/215078

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX