[第三问] 模拟登陆 post XML 格式参数和自动重定向

2016-08-01 17:06:25 +08:00
 Huayx9

感觉写这次电信网上营业厅的爬虫,把坑踩了个遍,还是不能完美解决各种问题。

通过抓包,整个登陆过程中的 http 的详细过程,大致如下

——————————————————

*0.LoginURL

*1.POST|(LoginServlet) --------- 登陆 form --------- referer:0.LoginURL--------- status_code:200

*2.POST ---------SSORuquetXML --------- refererr:LoginServlet ---------location:3--------status_code:302

*3.GET --------- referer:LoginServlet ---------location:4--------- status_code:302

*4.GET ---------referer:LoginServlet --------- location:5 --------- status_code:302

*5.GET --------- referer:LoginServlet --------- status_code:200

*6.GET ---------acount/init.action --------- referer:5

—————————————————— 我遭不住了。。。

1.XML 格式怎么 post , python 实现(是以字典格式,百度了发现都是解析 xml 文件之类的)?

2.XML 中有些 ID 参数是怎么生成的(审查元素,并没有相关的 JS 进行处理),我比对了不同账号,发现就一些 ID 参数不同?

3.在 request.session()中, cookies 并不能自动管理?(浏览器抓包是很多 cookies ,而代码实现,只有一条或者没有 Cookies )

再踩几个坑,再解决不了。。。我就放弃,感谢大家最近几天的耐心解答

2361 次点击
所在节点    Python
2 条回复
Huayx9
2016-08-01 17:07:17 +08:00
在 post 操作之后,后面如果有重定向,能由 reuqests 自动完成
Huayx9
2016-08-01 18:13:22 +08:00
我是傻逼。。你们别回复我

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/296391

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX