各大网站登陆方式, 包括爬虫,麻麻再也不用担心我学习爬虫啦,哈哈

2019-03-07 10:01:18 +08:00
 CriseLYJ

python 模拟各大网站登陆方式,以及一些爬虫程序

模拟登录一些常见的网站

  1. requests
  2. selenium
  3. rsa
  4. phantomjs

项目地址

Github

关于

模拟登陆基本采用的是直接登录或者使用 selenium+webdriver 的方式,有的网站直接登录难度很大,比如 qq 空间,B 站,如果采用 selenium 就相对轻松一些。

虽然在登录的时候采用的是 selenium,为了效率,我们可以在登录过后得到的 cookie 维护起来,然后调用 requests 或者 scrapy 等进行数据采集,这样数据采集的速度可以得到保证。

已完成

tips of pull request

问题

另外

欢迎你们

  1. 项目写了一段时间后,发现代码的风格和程序的易用性,可扩展性,代码的可读性,都存在一定的问题,所以接下来最重要的是重构代码,让大家可以更容易的做出一些自己的小功能。
  2. 如果你觉得某个网站的登录很有代表性,欢迎在 issue 中提出

测试

Bilibili 自动登录测试正常,成功率 98%

web 微信

图虫爬虫

项目地址

Github

最后

15049 次点击
所在节点    Python
118 条回复
woshipanghu
2019-03-07 15:20:55 +08:00
美团外卖试试看 挺难搞定的
jucelin
2019-03-07 16:03:46 +08:00
LZ 试试这个 http://wsjs.saic.gov.cn
oszlso
2019-03-07 16:12:19 +08:00
登陆 Apple ID
saltxy
2019-03-07 16:34:37 +08:00
大佬,已 star
konikoo
2019-03-07 16:35:43 +08:00
淘宝的反爬虫很厉害,不知道 lz 这个的成功率是多少。
之前查过比较好的解决方案是用 pyppeteer
konikoo
2019-03-07 16:39:19 +08:00
@ligthdawn 用 pyppeteer, 不要用 selenium,webdriver 一启动就直接被判定为爬虫,之后哪怕手动输入密码都不会验证通过。
或者玄学一下,用 firefox59.0.2 这个版本。同样的脚本和 selenium。这个版本的火狐绝大概率不会出现反爬虫。
WaJueJiPrince
2019-03-07 16:45:53 +08:00
@konikoo 淘宝的判断 Selenium 的原理是什么呢?
laoyuan
2019-03-07 16:55:33 +08:00
没有煎蛋妹子图差评
konikoo
2019-03-07 17:04:08 +08:00
@WaJueJiPrince 你可以上网搜下,记得是会检查一个属性是不是为真。直接在浏览器的控制台也可以查看,手动启动和 selenium 启动之后的属性是相反的。
CriseLYJ
2019-03-07 17:18:23 +08:00
被禁言了。。。
ismyyym
2019-03-07 17:23:25 +08:00
你这个背景颜色,看着字好难受
CriseLYJ
2019-03-07 17:24:21 +08:00
@ismyyym 我争取换一个。。。。哈哈
aoe2ex
2019-03-07 17:27:03 +08:00
加星星,加星星
whitewolf
2019-03-07 17:28:50 +08:00
赶紧 star 一下 t
CriseLYJ
2019-03-07 17:31:51 +08:00
@whitewolf 多谢大哥照顾,哈哈
halfer53
2019-03-07 17:38:32 +08:00
@WaJueJiPrince window.navigator.webdriver === true,当然,这只是最基本的反爬虫
WaJueJiPrince
2019-03-07 17:40:23 +08:00
@halfer53 谢谢 这个看到了 但是感觉淘宝应该不会只是设置了这个
hiyouli
2019-03-07 17:49:18 +08:00
哎哟,这个不得了呢。
CriseLYJ
2019-03-07 18:06:20 +08:00
多谢支持
becauseIdo
2019-03-07 18:07:51 +08:00
66666

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/541987

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX