各位学 python 的登录网站遇到验证码怎么办

2015-09-22 15:35:39 +08:00
 al0ne
最近刚刚入门爬虫。有的网站需要验证码。看到有的人说的是把验证码保存到本地手工输入。还有的用 pytesseract 这个库。各位有什么好办法吗
5086 次点击
所在节点    Python
17 条回复
virusdefender
2015-09-22 15:44:01 +08:00
去搜一下 验证码打码平台
gzq527
2015-09-22 15:55:16 +08:00
@virusdefender 没搜到呢
honeycomb
2015-09-22 16:16:29 +08:00
@gzq527 google?
qwjhb
2015-09-22 16:20:16 +08:00
半自动,手工输。
al0ne
2015-09-22 16:20:33 +08:00
@virusdefender 哦哦 就是连接一些自动打码的平台对吧
gzq527
2015-09-22 16:34:01 +08:00
@honeycomb 百度。。。我试试 google
Yeoman
2015-09-22 16:36:31 +08:00
研究一下 html js 什么的,验证码没准是明文有的么(没准还带 id 的)
gzq527
2015-09-22 16:38:21 +08:00
@honeycomb 专业打码平台,好牛啊, 0 秒延迟,这么快?
tdifg
2015-09-22 16:39:36 +08:00
@gzq527 要钱的,当然牛了…………其实也是人工的啊
tinyproxy
2015-09-22 17:44:52 +08:00
1. 如果你是为了写爬虫,别浪费时间在这上面,我最懒的方法是手动登陆进去,然后从 chrome 把 cookie 粘贴出来。
2. 完成目的后可以单独开一个坑做图像识别。
BikeMan
2015-09-22 18:43:10 +08:00
@tinyproxy 这个才是王道!
ClutchBear
2015-09-24 23:36:36 +08:00
@tinyproxy 这个拷贝出来的 cookie 是放到头部 headers 里面还是放到 cookies 参数里面?
requests.post(url, headers, cookies)为例的话,
tinyproxy
2015-09-26 07:58:17 +08:00
@ClutchBear cookie 本来就在 header 里面,具体看 http 协议报文格式。至于你用的 requests 库,我印象中放 cookies 就行,放 header 也行,但两个同时设置我就没有试过。
PS 这种问题你试一下比等我回复快多了吧。。。
ClutchBear
2015-09-26 09:16:11 +08:00
@tinyproxy 主要是我模拟登陆的网站是 hoopchina,我放到 headers 里面会返回一个 json 数据,15 分钟内多次登录或者密码错误次数太多...
Reed
2015-09-28 18:51:34 +08:00
下载下来,手动敲丫的,这个坑太深,直接带你去机器学习,慎重。
al0ne
2015-10-01 16:26:34 +08:00
@Reed 谢谢
symons
2015-10-02 03:27:00 +08:00
我之前是手动登录,然后把 cookie 从浏览器复制出来

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/222805

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX