写 packtpub 的爬虫时，碰到 post 无法成功获取的问题。内附福利给帮忙的朋友

packtpub 在线看体验不是很好，网速慢，所以想爬下来放 ipad 上面慢慢看。订购了一个月的服务，在写爬虫的时候，碰到一个问题。

在 chrome 里面获取到 post 的 header ， cookie ，和 post 去的 data 。

然后把这些字段放入 postman 里面模拟 post 请求发送给 packtpub 。但是每次都无法正常获取数据，提示 invalid token 。请各位帮忙。

我的操作是具体点开一本书，就是你能够看到书的详细内容了。从 chrome 里面的审查元素-->network-->过滤出 auth 这个 http 请求，把 request headers 里面的所有字段 bulk edit 进 postman 的 headers （当然这个里面有重要的 cookie 值），然后把 Request payload 里面要发送的数据也 bulk edit 进 postman 里面的 body 选项卡。

照理说这样应该可以获得和浏览器里面一样的 response 才对啊。

各位可以做个测试，看看是什么原因。

测试账户: 251323229@qq.com / 密: 1qaz2wsx3edc

希望各位拿了福利帮个忙。

wzyefd

2016-04-09 22:23:58 +08:00

@nisekoi 模拟登录是可以的，我用 scrapy 也实现，问题就是返回的 response 里面的 cookies 比浏览器里面的 cookies 少很多，所以我就直接把浏览器里面的 cookies 放入 request 的 headers 里面了。我说的无法获取的是具体的页面内容。

比如：

Request URL:https://www.packtpub.com/packt-lib-reader-api/global/auth
Request Method:POST

然后我附上了 cookies ，这里略去。
最后加上 request data ：
{"token":"3bc5e840b2aef1b2284aa352795858af1540b086","additional_variables":{"nid":"24519","isbn":"9781785882951","url":"isbn=9781785882951&chapter=2&section=ch02lvl1sec14&section_name=NumPY"},"additional_calls":["books_saveRead"]}

这个就无法获取争取的值

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/269819

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.