这个页面为什么抓取不到?

2020-04-03 14:20:38 +08:00
 stabc
这个:
https://www.amd.com/en/products/graphics/radeon-rx-590
浏览器正常打开没问题。
但是, 我用 wget, php 的 curl, nodejs 的 crawl 都获取不到数据,全都超时。这是咋回事?
1015 次点击
所在节点    问与答
5 条回复
b821025551b
2020-04-03 14:26:12 +08:00
curl 试了一下表示并没有问题。
cdlnls
2020-04-03 14:29:41 +08:00
f12 -> Network -> 找到那个请求 -> copy -> Copy as cURL
stabc
2020-04-03 14:34:08 +08:00
@cdlnls 试过了,还是不行
263
2020-04-03 14:45:42 +08:00
curl -A 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36' 'https://www.amd.com/en/products/graphics/radeon-rx-590'
stabc
2020-04-03 15:10:16 +08:00
@263 说了一下是『 access denied 』。我用我自己 copy 的 curl 的话,在 mac 的 terminal 下可以抓到,但是在 linux 下超时。在 php 和 js 代码里全超时。应该是他们做了防抓取,但是不知道是哪个地方不对……

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/659017

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX