求助,有关爬论文的问题

2017-10-26 17:16:21 +08:00
 kkkanoooo
我想爬 https://www.sigops.org/sosp/sosp17/program.html 这个网站的所有论文,自己写的时候发现论文的链接和实际点开的链接不一样,想求助大神指点一下思路。
2437 次点击
所在节点    Python
5 条回复
konia
2017-10-26 17:42:10 +08:00
302 跳转吧,允许跳转应该就可以获取到了吧
konia
2017-10-26 17:49:54 +08:00
比如
> curl 'xxxxx/ft_gateway.cfm?id=3132758&ftid=1913909' -L -o x.pdf
p2pCoder
2017-10-26 17:57:23 +08:00
https://dl.acm.org/ft_gateway.cfm?id=3132785&ftid=1913904&dwn=1&CFID=998859838&CFTOKEN=94606726
会 302 跳转
跳转 到
http://delivery.acm.org/10.1145/3140000/3132785/p1-pei.pdf?ip=218.17.206.98&id=3132785&acc=OPENTOC&key=4D4702B0C3E38B35%2E4D4702B0C3E38B35%2E4D4702B0C3E38B35%2EC42B82B87617960C&CFID=998859838&CFTOKEN=94606726&__acm__=1509011719_65cbe92e4daaceece431448128d58a22
这个是 实际 的访问路劲
跳转中 会设置 cookie,
一般来说,用 requests 的自动跳转没有问题(默认自动跳转),但是 按我最近工作上的经验,自动跳转可能出问题,你可以 不让 自动 跳转,然后 获得 响应中 headers 中的 location,然后再构造请求。
p2pCoder
2017-10-26 18:09:50 +08:00
你先用 requests 的 session 做,如果有问题,就 抓包,然后 设置 不允许 重定向,分步伪造请求。
darfux
2017-10-30 12:48:27 +08:00
ACM 目测加了 UA 检测,给你的爬虫套个 UA 就可以获得原始地址了(我已爬完 XD )

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/401011

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX