各大网站登陆方式, 包括爬虫,麻麻再也不用担心我学习爬虫啦,哈哈

2019-03-07 10:01:18 +08:00
 CriseLYJ

python 模拟各大网站登陆方式,以及一些爬虫程序

模拟登录一些常见的网站

  1. requests
  2. selenium
  3. rsa
  4. phantomjs

项目地址

Github

关于

模拟登陆基本采用的是直接登录或者使用 selenium+webdriver 的方式,有的网站直接登录难度很大,比如 qq 空间,B 站,如果采用 selenium 就相对轻松一些。

虽然在登录的时候采用的是 selenium,为了效率,我们可以在登录过后得到的 cookie 维护起来,然后调用 requests 或者 scrapy 等进行数据采集,这样数据采集的速度可以得到保证。

已完成

tips of pull request

问题

另外

欢迎你们

  1. 项目写了一段时间后,发现代码的风格和程序的易用性,可扩展性,代码的可读性,都存在一定的问题,所以接下来最重要的是重构代码,让大家可以更容易的做出一些自己的小功能。
  2. 如果你觉得某个网站的登录很有代表性,欢迎在 issue 中提出

测试

Bilibili 自动登录测试正常,成功率 98%

web 微信

图虫爬虫

项目地址

Github

最后

15050 次点击
所在节点    Python
118 条回复
CriseLYJ
2019-03-08 11:14:52 +08:00
顶一下
guanhui07
2019-03-08 11:38:22 +08:00
赞一个
CriseLYJ
2019-03-08 11:46:45 +08:00
@guanhui07 多谢大哥
515576745
2019-03-08 12:56:34 +08:00
@Sxxiong 可以手动 sleep()一段时间,因为还没完全渲染。
Zeham
2019-03-08 14:01:53 +08:00
大佬
airdge
2019-03-08 14:07:21 +08:00
qzone 有验证码 这里面好像没有验证码模块 放服务器用不了的
CriseLYJ
2019-03-08 14:14:08 +08:00
@airdge 对的需要先手动验证一下
CriseLYJ
2019-03-08 14:26:47 +08:00
veeupup
2019-03-08 14:52:31 +08:00
CriseLYJ
2019-03-08 14:58:58 +08:00
@veeupup 感谢
CriseLYJ
2019-03-08 17:10:25 +08:00
顶一下在
fakeman
2019-03-09 00:21:16 +08:00
能研究下 google 的 requests 登陆方式么
CriseLYJ
2019-03-09 00:34:22 +08:00
@fakeman 啊啊啊
pythonee
2019-03-10 18:07:01 +08:00
验证码是不是还是关键?
这些网站是否有一定频率或反爬措施,这些是怎么处理呢?
CriseLYJ
2019-03-10 22:14:48 +08:00
@pythonee 对,一般网站的反爬都是验证码实现!
ligthdawn
2019-03-11 10:50:26 +08:00
@konikoo 老哥我本地的电脑,使用浏览器都要滑动验证,滑几次都不好使。这还是没使用 selenium,pyppeteer 之类的
konikoo
2019-03-11 11:09:35 +08:00
@ligthdawn 那换 pyppeteer 试试看,pyppeteer 效果挺好的。
Sxxiong
2019-04-26 00:26:10 +08:00
想问一下大佬 有 google 登录的经验么? 这几天卡在验证码那块了 谢谢

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/541987

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX