感觉写这次电信网上营业厅的爬虫,把坑踩了个遍,还是不能完美解决各种问题。
通过抓包,整个登陆过程中的 http 的详细过程,大致如下
——————————————————
*0.LoginURL
*1.POST|(LoginServlet) --------- 登陆 form --------- referer:0.LoginURL--------- status_code:200
*2.POST ---------SSORuquetXML --------- refererr:LoginServlet ---------location:3--------status_code:302
*3.GET --------- referer:LoginServlet ---------location:4--------- status_code:302
*4.GET ---------referer:LoginServlet --------- location:5 --------- status_code:302
*5.GET --------- referer:LoginServlet --------- status_code:200
*6.GET ---------acount/init.action --------- referer:5
—————————————————— 我遭不住了。。。
1.XML 格式怎么 post , python 实现(是以字典格式,百度了发现都是解析 xml 文件之类的)?
2.XML 中有些 ID 参数是怎么生成的(审查元素,并没有相关的 JS 进行处理),我比对了不同账号,发现就一些 ID 参数不同?
3.在 request.session()中, cookies 并不能自动管理?(浏览器抓包是很多 cookies ,而代码实现,只有一条或者没有 Cookies )
再踩几个坑,再解决不了。。。我就放弃,感谢大家最近几天的耐心解答
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.