各大网站登陆方式, 包括爬虫,麻麻再也不用担心我学习爬虫啦,哈哈

2019-03-07 10:01:18 +08:00
 CriseLYJ

python 模拟各大网站登陆方式,以及一些爬虫程序

模拟登录一些常见的网站

  1. requests
  2. selenium
  3. rsa
  4. phantomjs

项目地址

Github

关于

模拟登陆基本采用的是直接登录或者使用 selenium+webdriver 的方式,有的网站直接登录难度很大,比如 qq 空间,B 站,如果采用 selenium 就相对轻松一些。

虽然在登录的时候采用的是 selenium,为了效率,我们可以在登录过后得到的 cookie 维护起来,然后调用 requests 或者 scrapy 等进行数据采集,这样数据采集的速度可以得到保证。

已完成

tips of pull request

问题

另外

欢迎你们

  1. 项目写了一段时间后,发现代码的风格和程序的易用性,可扩展性,代码的可读性,都存在一定的问题,所以接下来最重要的是重构代码,让大家可以更容易的做出一些自己的小功能。
  2. 如果你觉得某个网站的登录很有代表性,欢迎在 issue 中提出

测试

Bilibili 自动登录测试正常,成功率 98%

web 微信

图虫爬虫

项目地址

Github

最后

15043 次点击
所在节点    Python
118 条回复
Etuloser
2019-03-07 13:57:40 +08:00
CriseLYJ
2019-03-07 14:01:47 +08:00
谢谢你们🙏
martyartrt1
2019-03-07 14:05:15 +08:00
1688 搞一个
CriseLYJ
2019-03-07 14:09:24 +08:00
OOK
CriseLYJ
2019-03-07 14:09:54 +08:00
@martyartrt1 可以尝试
wutiaojian
2019-03-07 14:12:13 +08:00
验证码是滑块的,请问有么?
justff
2019-03-07 14:13:46 +08:00
淘宝登录脚本 测试结果是
File "taobao.py", line 32, in login
login_links.click()
selenium.common.exceptions.ElementNotVisibleException: Message: element not visi
ble
WaJueJiPrince
2019-03-07 14:14:18 +08:00
@CriseLYJ 嗨,我看了您的 github 中的采集淘宝的爬虫代码,您采用的是 Sphash 的方式,但是淘宝应该需要登陆才能采集商品页面吧?也就是当我点击一类商品的时候会出现这种页面
https://i.loli.net/2019/03/07/5c80b61730d91.png
也就是要求登陆,请问您是怎么解决的呢?而且我在代码中似乎没有看到有关 Cookie 的信息。
beneo
2019-03-07 14:18:05 +08:00
@WaJueJiPrince 我也有同样的疑问,哈哈
CriseLYJ
2019-03-07 14:22:21 +08:00
@wutiaojian bilibili 那个就是
WaJueJiPrince
2019-03-07 14:31:01 +08:00
@beneo 您破解过淘宝登陆的验证码的那个吗?淘宝现在好像又升级了,似乎能检测到 Selenium,您有什么解决方案吗?
CriseLYJ
2019-03-07 14:35:25 +08:00
等我写说明文档
tikazyq
2019-03-07 14:45:20 +08:00
支持,可以加入到 crawlab 做测试哈
CriseLYJ
2019-03-07 14:49:26 +08:00
@tikazyq 多谢啦
Liang
2019-03-07 14:52:13 +08:00
大众点评、美团
CriseLYJ
2019-03-07 14:52:52 +08:00
@Liang 比较挑战性哦
dadama
2019-03-07 14:52:59 +08:00
想问一下淘宝的登录,验证码
CriseLYJ
2019-03-07 14:53:00 +08:00
哈哈
ligthdawn
2019-03-07 15:18:56 +08:00
楼主有试过淘宝登录的吗?公司的电脑,不管上淘宝的哪个商品网页,一律要登录,手动拉滑动条都登录不了。因为前阵子一直在用 selenium 绕过淘宝的登录,也绕不过去,一直提示拉滑动条,后面不了了之。怀疑公司的 ip 给拉进淘宝的恶意名单了,不管上哪个淘宝商品网页就要登录,切到另一个淘宝商品网页又要登录,很烦。楼主有好办法吗?
littleangel
2019-03-07 15:19:29 +08:00
star 已递给大佬

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/541987

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX