各大网站登陆方式, 包括爬虫,麻麻再也不用担心我学习爬虫啦,哈哈

2019-03-07 10:01:18 +08:00
 CriseLYJ

python 模拟各大网站登陆方式,以及一些爬虫程序

模拟登录一些常见的网站

  1. requests
  2. selenium
  3. rsa
  4. phantomjs

项目地址

Github

关于

模拟登陆基本采用的是直接登录或者使用 selenium+webdriver 的方式,有的网站直接登录难度很大,比如 qq 空间,B 站,如果采用 selenium 就相对轻松一些。

虽然在登录的时候采用的是 selenium,为了效率,我们可以在登录过后得到的 cookie 维护起来,然后调用 requests 或者 scrapy 等进行数据采集,这样数据采集的速度可以得到保证。

已完成

tips of pull request

问题

另外

欢迎你们

  1. 项目写了一段时间后,发现代码的风格和程序的易用性,可扩展性,代码的可读性,都存在一定的问题,所以接下来最重要的是重构代码,让大家可以更容易的做出一些自己的小功能。
  2. 如果你觉得某个网站的登录很有代表性,欢迎在 issue 中提出

测试

Bilibili 自动登录测试正常,成功率 98%

web 微信

图虫爬虫

项目地址

Github

最后

15050 次点击
所在节点    Python
118 条回复
zhou00
2019-03-07 18:45:49 +08:00
感谢分享
lance7in
2019-03-07 19:29:59 +08:00
佩服佩服
CriseLYJ
2019-03-07 20:38:04 +08:00
多谢支持💗💗
CriseLYJ
2019-03-07 21:04:36 +08:00
🙆🏻‍♂️🙆🏻‍♂️🙆🏻‍♂️
lawler
2019-03-07 21:39:06 +08:00
@ligthdawn 你们公司有网监吧。这像是劫持带来的问题。。
CriseLYJ
2019-03-07 21:40:27 +08:00
可以回去再试试
515576745
2019-03-07 22:17:45 +08:00
淘宝那个之前研究过几天,发现用 selenium 基本都是暴毙,不管怎么修改 driver 内部属性淘宝还是能检测出来,直接出来滑动条。期待 lz 更新。~
另外知乎 lz 是自己分析 js 吗?我看好多网上的爬虫分析都是到 js 这块就放弃了。。
CriseLYJ
2019-03-07 22:19:50 +08:00
@515576745 淘宝确实有点棘手,毕竟是阿里的,全是大佬!
CriseLYJ
2019-03-07 22:39:33 +08:00
新增下载网易云的音乐!如果时间够多,我会尝试下载会员音乐!
CriseLYJ
2019-03-08 00:07:53 +08:00
帖子不能沉,
kajweb
2019-03-08 00:30:53 +08:00
https://mp.dayu.com
这个搞一下?
lovestudykid
2019-03-08 01:07:47 +08:00
有 reCAPTCHA 的登陆怎么搞
May725
2019-03-08 01:08:05 +08:00
强啊
enrolls
2019-03-08 01:41:38 +08:00
关于对无头的检测,@konikoo 提及的 navigator.plugins.length == 0 是特征之一。https://antoinevastel.com/bot%20detection/2017/08/05/detect-chrome-headless.html
theks
2019-03-08 02:39:58 +08:00
不错。如果能持续维护、适配就好了。加油。
CriseLYJ
2019-03-08 08:55:14 +08:00
@theks 会持续维护的,
CriseLYJ
2019-03-08 09:58:50 +08:00
顶一下
Sxxiong
2019-03-08 10:02:05 +08:00
大佬你好 我是个初学者 想问问 selenium+webdriver 能很好的判断网页加载完成吗 因为看到有时候浏览器标签页 logo 还在 loading 代码执行了登录 另外还有模拟点击的话 怎么避免网络影响 有没有适合初学者看的文档推荐一下
附一个用 request 没解决的网站: https://eu.battle.net/shop/zh/checkout/key-lookup
cmlhaha
2019-03-08 10:07:08 +08:00
顶一下,标记
CriseLYJ
2019-03-08 10:31:09 +08:00
@cmlhaha 多谢

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/541987

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX