需要网页加载了图片后才能通过链接打开爬取怎么解决呢?

2022-09-05 21:59:50 +08:00
 bananahotell

业余爱好者,学 python 爬图片,看到美女图片网站 v2ph.com 练练手,但发现爬下来的图片很小、没内容,但是链接又是对的,最后才发现,即使把链接复制到浏览器里也无法打开,而是要打开原网页,一直下拉,把图片都加载出来了之后,才能通过链接打开图片。 所以,请教各位大佬,这样的情况怎么解决?

3586 次点击
所在节点    Python
29 条回复
we21x
2022-09-05 22:14:18 +08:00
估计是图片懒加载的问题。img 元素有个 data-src 属性,看看是不是原图的 URL ,如果是取这个属性就行
sutra
2022-09-05 22:17:43 +08:00
打开浏览器的 Developer Tools ,看看 Network ?
p1956
2022-09-05 22:26:44 +08:00
data\-src\=\"(.+?)\"
bananahotell
2022-09-05 22:44:35 +08:00
@we21x 是抓的 data-src 属性,而且这个就是图片的链接,但是无法下载,而且如我所说,即使把这个属性链接直接在浏览器里也无法打开图片,需要打开原图的网页,并在把这个图加载出来之后,才能打开
bananahotell
2022-09-05 22:46:51 +08:00
@sutra 那里面太专业东西的不懂,但是我直接查看网页源码是能看到图片链接的,不是通过 JavaScript 加载的。(或者说是其他什么问题?)
bananahotell
2022-09-05 22:47:46 +08:00
@p1956 获取链接的正则?但我的问题不在于没获取到链接
bananahotell
2022-09-05 22:52:15 +08:00
我仔细想了一下,我直接把图片链接复制到浏览器里打不开图片,但不是弹的 404 ,而是提示“access denied 。。。”,估计是网站的设置,防爬取
foam
2022-09-05 23:13:33 +08:00
header 带上 referer 就可以了
referer: https://www.v2ph.com/
p1956
2022-09-05 23:30:14 +08:00
p1956
2022-09-05 23:39:16 +08:00
发现有 cf 盾,挺麻烦的
imicksoft
2022-09-06 00:00:42 +08:00
量不大就模拟网页浏览采集
Tink
2022-09-06 00:32:20 +08:00
直接模拟网页吧
bananahotell
2022-09-06 00:42:31 +08:00
之前爬过豆瓣,经过这个网站和各位的回复,才发现爬虫还有太多东西,怪不得能写一大本书,最近买了本,慢慢啃了再来研究
bestmos
2022-09-06 02:01:11 +08:00
@bananahotell F12+捕获都不会那建议先学一下计算机网络基础
ijrou
2022-09-06 05:00:28 +08:00
一想到就是懒加载,,,看来你爬虫的技术不太行啊
sutra
2022-09-06 08:05:00 +08:00
哦,才看到 OP 说是“业余爱好者”。不过像 Developer Tools 里那些基本用法肯定避不开的。
opengps
2022-09-06 08:47:05 +08:00
知道了一个新网站
tankren
2022-09-06 08:50:37 +08:00
谷歌“爬虫 懒加载” 然后抄
我也是业余的 给单位的计划和财务写了几个小工具 大大减少人工时间 还是挺有成就感的
fumichael
2022-09-06 09:01:22 +08:00
这些全是图片的网站,一般会做防盗链处理,图片请求空 referer 是不会返回,可以看看请求 header 中是否有携带 referer
vite
2022-09-06 09:12:54 +08:00
戳开看了下,不单是 lazyload 和 referer 的问题,有 cloudflare 防护,新手建议还是换个站上手吧...

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/877923

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX