各大网站登陆方式, 包括爬虫,麻麻再也不用担心我学习爬虫啦,哈哈

2019-03-07 10:01:18 +08:00
 CriseLYJ

python 模拟各大网站登陆方式,以及一些爬虫程序

模拟登录一些常见的网站

  1. requests
  2. selenium
  3. rsa
  4. phantomjs

项目地址

Github

关于

模拟登陆基本采用的是直接登录或者使用 selenium+webdriver 的方式,有的网站直接登录难度很大,比如 qq 空间,B 站,如果采用 selenium 就相对轻松一些。

虽然在登录的时候采用的是 selenium,为了效率,我们可以在登录过后得到的 cookie 维护起来,然后调用 requests 或者 scrapy 等进行数据采集,这样数据采集的速度可以得到保证。

已完成

tips of pull request

问题

另外

欢迎你们

  1. 项目写了一段时间后,发现代码的风格和程序的易用性,可扩展性,代码的可读性,都存在一定的问题,所以接下来最重要的是重构代码,让大家可以更容易的做出一些自己的小功能。
  2. 如果你觉得某个网站的登录很有代表性,欢迎在 issue 中提出

测试

Bilibili 自动登录测试正常,成功率 98%

web 微信

图虫爬虫

项目地址

Github

最后

15021 次点击
所在节点    Python
118 条回复
CriseLYJ
2019-03-07 10:09:29 +08:00
顶一下
ThunderMonkey
2019-03-07 10:10:10 +08:00
已 star,正好学习
zhihaofans
2019-03-07 10:10:28 +08:00
厉害
kylix
2019-03-07 10:12:19 +08:00
顶一下,已 star
zhila
2019-03-07 10:12:46 +08:00
感谢大佬分享
zhihaofans
2019-03-07 10:13:13 +08:00
Done 的 github 打错了
CallMeReznov
2019-03-07 10:14:52 +08:00
zhangneww
2019-03-07 10:22:34 +08:00
支持一下!

项目里并没有 V2EX 的登录呀?
senggai
2019-03-07 10:25:03 +08:00
妙啊...
ARhen
2019-03-07 10:45:21 +08:00
厉害
toono
2019-03-07 10:48:50 +08:00
优秀
CriseLYJ
2019-03-07 10:56:50 +08:00
多谢支持,真心感谢
CriseLYJ
2019-03-07 10:58:41 +08:00
@zhihaofans 我去改掉,嘻嘻
hayi
2019-03-07 11:00:43 +08:00
@zhangneww 杠精
hellojay
2019-03-07 11:02:09 +08:00
厉害厉害
exceloo
2019-03-07 11:03:18 +08:00
验证码是怎么解决的?
bonfy
2019-03-07 11:06:59 +08:00
好像 repo 里没有 V2 啊,我没看错吧
coeo91
2019-03-07 11:12:23 +08:00
验证码怎么过的
newmind
2019-03-07 11:15:04 +08:00
这么多网站 也是个强人
zxcvsh
2019-03-07 11:29:57 +08:00
项目没看,但是楼主有自动化识别验证码方面的研究可以单独开贴讲解一下

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/541987

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX