1
konia 2017-10-26 17:42:10 +08:00
302 跳转吧,允许跳转应该就可以获取到了吧
|
2
konia 2017-10-26 17:49:54 +08:00 1
比如
> curl 'xxxxx/ft_gateway.cfm?id=3132758&ftid=1913909' -L -o x.pdf |
3
p2pCoder 2017-10-26 17:57:23 +08:00
https://dl.acm.org/ft_gateway.cfm?id=3132785&ftid=1913904&dwn=1&CFID=998859838&CFTOKEN=94606726
会 302 跳转 跳转 到 http://delivery.acm.org/10.1145/3140000/3132785/p1-pei.pdf?ip=218.17.206.98&id=3132785&acc=OPENTOC&key=4D4702B0C3E38B35%2E4D4702B0C3E38B35%2E4D4702B0C3E38B35%2EC42B82B87617960C&CFID=998859838&CFTOKEN=94606726&__acm__=1509011719_65cbe92e4daaceece431448128d58a22 这个是 实际 的访问路劲 跳转中 会设置 cookie, 一般来说,用 requests 的自动跳转没有问题(默认自动跳转),但是 按我最近工作上的经验,自动跳转可能出问题,你可以 不让 自动 跳转,然后 获得 响应中 headers 中的 location,然后再构造请求。 |
4
p2pCoder 2017-10-26 18:09:50 +08:00 1
你先用 requests 的 session 做,如果有问题,就 抓包,然后 设置 不允许 重定向,分步伪造请求。
|
5
darfux 2017-10-30 12:48:27 +08:00
ACM 目测加了 UA 检测,给你的爬虫套个 UA 就可以获得原始地址了(我已爬完 XD )
|