import Requests
有三个 url ,登陆页面,表单提交页面,登陆返回页面
首先浏览器过程如下:
1.登陆要输入验证码,验证码在登陆页面显示
2.输入登录信息之后, post 表单到表单提交页面
3.然后页面跳转到登陆返回页面,也就是我要抓取的页面
我用爬虫模拟登陆,然后抓取登陆返回页面的信息
requests.get 登陆页面,然后提取页面中的验证码链接,但是验证码链接刷新,验证码就会变化
验证码页面 http://ah.189.cn/sso/VImage.servlet?random=0.17272478651825085 (参数在登陆页面是会变化的)
requests.port 表单提交页面(验证码,我通过 ocr 验证码图片来解决)
我现在有三个个问题:
谢谢
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.