写 packtpub 的爬虫时,碰到 post 无法成功获取的问题。内附福利给帮忙的朋友

2016-04-09 20:22:27 +08:00
 wzyefd

packtpub 在线看体验不是很好,网速慢,所以想爬下来放 ipad 上面慢慢看。订购了一个月的服务,在写爬虫的时候,碰到一个问题。

在 chrome 里面获取到 post 的 header , cookie ,和 post 去的 data 。

然后把这些字段放入 postman 里面模拟 post 请求发送给 packtpub 。但是每次都无法正常获取数据,提示 invalid token 。请各位帮忙。

我的操作是具体点开一本书,就是你能够看到书的详细内容了。从 chrome 里面的 审查元素-->network-->过滤出 auth 这个 http 请求,把 request headers 里面的所有字段 bulk edit 进 postman 的 headers (当然这个里面有重要的 cookie 值),然后把 Request payload 里面要发送的数据也 bulk edit 进 postman 里面的 body 选项卡。

照理说这样应该可以获得和浏览器里面一样的 response 才对啊。

各位可以做个测试,看看是什么原因。

测试账户: 251323229@qq.com / 密: 1qaz2wsx3edc

希望各位拿了福利帮个忙。

2357 次点击
所在节点    问与答
4 条回复
UnisandK
2016-04-09 20:34:32 +08:00
是不是 CSFR ,每次请求 token 都在变的
wzyefd
2016-04-09 20:37:54 +08:00
@UnisandK token 和 cookies 里面的 token 是一样的,每次都没有变化
nisekoi
2016-04-09 21:49:05 +08:00
wzyefd
2016-04-09 22:23:58 +08:00
@nisekoi 模拟登录是可以的,我用 scrapy 也实现,问题就是返回的 response 里面的 cookies 比浏览器里面的 cookies 少很多,所以我就直接把浏览器里面的 cookies 放入 request 的 headers 里面了。我说的无法获取的是具体的页面内容。

比如:

Request URL:https://www.packtpub.com/packt-lib-reader-api/global/auth
Request Method:POST

然后我附上了 cookies ,这里略去。
最后加上 request data :
{"token":"3bc5e840b2aef1b2284aa352795858af1540b086","additional_variables":{"nid":"24519","isbn":"9781785882951","url":"isbn=9781785882951&chapter=2&section=ch02lvl1sec14&section_name=NumPY"},"additional_calls":["books_saveRead"]}

这个就无法获取争取的值

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/269819

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX