为什么这个网址我怎么都抓不下内容来?

2017-10-20 16:41:25 +08:00
 Walter0108

网址: https://stats.nba.com/stats/scoreboard/?GameDate=10/18/2017&LeagueID=00&DayOffset=0

按理来说 urllib 就够用了,尝试了使用代理 IP 和伪装成浏览器,然而依然没有成功。。。

具体的表现是一直保持运行,没有响应。

求各位指教

3006 次点击
所在节点    Python
8 条回复
b821025551b
2017-10-20 19:02:09 +08:00
经 @hxsf 和好多位大神指示,header 里面只要同时有 UA 和 Accept-Language 就行了。

https://gist.github.com/thomasxu1991/0d9e5e7672cffbd9137fd065107dfa25
Walter0108
2017-10-20 20:13:57 +08:00
@b821025551b 十分感谢然鹅似乎仍然不 work。。。。http://paste.ubuntu.com/25778591/
byfar
2017-10-20 22:39:14 +08:00
curl 'https://stats.nba.com/stats/scoreboard/?GameDate=10/18/2017&LeagueID=00&DayOffset=0' -H 'Accept-Encoding: gzip, deflate, br' -H 'Accept-Language: zh-CN,zh;q=0.8,en;q=0.6' -H 'Upgrade-Insecure-Requests: 1' -H 'User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36' -H 'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8' -H 'Referer: https://www.v2ex.com/t/399301' -H 'Connection: keep-alive' -H 'Cache-Control: max-age=0' --compressed
Walter0108
2017-10-20 23:12:13 +08:00
@byfar 嗯 curl 测过了但是 py 依然失败。。。代码贴在 2 楼了😓
mingyun
2017-10-20 23:26:41 +08:00
3 楼正解
mianju
2017-10-21 07:51:54 +08:00
有时候可以借助这个神器 https://curl.trillworks.com
Walter0108
2017-10-22 00:46:34 +08:00
谢谢各位我解决了这个问题。楼上的代码和工具都很赞。
wingor
2017-10-24 17:56:59 +08:00
@mianju

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/399301

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX