爬虫怎么下载图片,拿到 Document 后怎么存图片

2020-07-10 17:30:00 +08:00
 autoname

爬虫怎么下载图片,jsoup 拿到 Document 后怎么存图片

是解析 Document 里面的 src 路径 再请求一次吗,

请求一次 Document 不能保存里面的图片吗

要是几十张图片, 莫不是要再请求几十次,才能下载下来啊

有没有办法拿到 Document 里面的图片 src 直接可以下载的

只 get 一次

1773 次点击
所在节点    Java
6 条回复
M003
2020-07-10 17:42:03 +08:00
这你不是想多了么,浏览器访问,还都是根据 src 再次请求图片资源的.
l4ever
2020-07-10 18:01:24 +08:00
想什么呢, 你以为浏览器打开一个页面就请求了一次吗?
js/css/img 还不都是根据内容再去加载的?
autoname
2020-07-10 18:02:25 +08:00
@l4ever
@M003
太残忍了,一下就打醒我了
autoname
2020-07-10 18:03:24 +08:00
其实我是想,爬 dz 的验证码

这是图片直链,misc.php?mod=seccode&update=49424&idhash=cS0

但是不能这么直接访问是没效果的,虽然带上 cookie 啥的,验证码也会变,

但是回帖校验的时候还是提示错误, 得先请求一次这个地址,
misc.php?mod=seccode&action=update&idhash=cS0&0.0423275371233075&modid=undefined
然后去校验,才是正确的

问题是,这里面只能发送一次 get 请求, 到这个地址去更新验证
misc.php?mod=seccode&action=update&idhash=cS0&0.0423275371233075&modid=undefined

但 这个页面又不是验证码直链,得不到直链。就没办法解码了

不知道怎么弄了,求 dz 爬虫大佬指点
Wait845
2020-07-11 00:44:34 +08:00
dz 是什么敏感词🐎
autoname
2020-07-11 01:23:23 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/688959

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX