Python 模拟各大网站登陆方式，以及一些爬虫程序，灰常适合学习爬虫的同学们哦！~~脚本几乎都是简单一点的，很容易上手，希望对小白有所帮助

2019-03-10 22:29:26 +08:00

CriseLYJ

python 模拟各大网站登陆方式，以及一些爬虫程序

写在最前面，欢迎各位大佬来提 PR，也可以来讲自己做爬虫的心得与体会，一些小技巧都可以！可以联系我！
啊！第三次发了，希望你们不要觉得烦，只是想做一些有意义的事情，勿怪！！多谢！！！
增加糗事百科，链家！
如果喜欢的话可以给个 star 谢谢
🌟分享一些各大网站登陆方式，和一些网站的爬虫程序，有的是通过 selenium 登录，有的是通过抓包直接模拟登录，有的是利用 scrapy,脚本几乎都不太大，很容易上手，希望对小白有所帮助,本项目用于研究和分享各大网站的模拟登陆方式，和爬虫程序，会持续更新。。。

关于

模拟登陆基本采用的是直接登录或者使用 selenium+webdriver 的方式，有的网站直接登录难度很大，比如 qq 空间，bilibili 等如果采用 selenium 就相对轻松一些。
虽然在登录的时候采用的是 selenium,为了效率，我们可以在登录过后得到的 cookie 维护起来，然后调用 requests 或者 scrapy 等进行数据采集，这样数据采集的速度可以得到保证。

项目地址

Completed

show

Bilibili 自动登录测试正常，成功率 98%

web 微信

图虫 Spider

淘宝 web

taobao.py 为模拟登录
剩下的文件为爬虫

Github

新增链家 Spider

1. 爬取淘宝各子标签，按销量排名商品信息，按分类保存至 MongoDB
2. 通过 pandas 进行数据分析
3 .将商品在各省分布、销量排行、地图分布等通过 matplotlib 绘图显示

guoke.spider 使用需谨慎，下载的比较快！ 10 秒能下载一堆，截图我就不展示了，已经删除,东西太多了😝

微博

sina.py 为模拟登录
spider 文件夹中为爬虫

1. 输入要爬取的博主 ID，获取 ajax 请求
2. 解析 json 数据，爬取博主所有微博，保存至 MySQL

网易云音乐

新增网易云音乐下载，之前的一个小 demo 应该还可以用，Crypto 包应该挺难搞的，安装之后还是导入不了，推荐去百度一下，百度上的这个解决方法有很多，我就不多赘述了嘿嘿！

知乎

知乎登录没有问题，不过要手动输入验证码
知乎登录遇到“ execjs._exceptions.ProgramError: TypeError: 'exports' 未定义”
原因以及解决办法：

1. 由于是你本地的 JScript 引擎只有一个默认的 JScript，所以会造成 json 未定义的错误。
2. execjs 会自动使用当前电脑上的运行时环境
3. 解决办法：安装一个 nodejs 的 V8 引擎就可以了

糗事百科

tips of pull request

欢迎大家一起来 pull request 💗
很重要很重，欢迎大家来提 PR
喜欢的记得过来给小弟个 star 支持一下哦！

3902 次点击

所在节点

16 条回复

CriseLYJ

2019-03-10 22:40:15 +08:00

顶一下下

Baymaxbowen

2019-03-10 22:44:28 +08:00

哈哈哈已经 star，现在还看上了 LZ 终端的背景图，能分享吗？

zxcvsh

2019-03-10 22:45:08 +08:00

手动用户名密码....

CriseLYJ

2019-03-10 22:46:27 +08:00

@zxcvsh 不是手动 😓 录制 gif 的时候那边没录进去

zxcvsh

2019-03-10 22:47:06 +08:00

@zxcvsh 打错了...看成手动验证了；滑动验证是距离检查吗？

CriseLYJ

2019-03-10 22:48:02 +08:00

@Baymaxbowen 链接： https://share.weiyun.com/5p9GKeO 密码：w25g8b
拿走吧昨天刚找到的图，挺喜欢的哈哈

CriseLYJ

2019-03-10 22:50:23 +08:00

@zxcvsh 嗯嗯

CriseLYJ

2019-03-10 23:05:10 +08:00

好好学习

CriseLYJ

2019-03-10 23:26:09 +08:00

别沉

Allianzcortex

2019-03-10 23:27:04 +08:00

这是总结+原创吗？

VanderMark6

2019-03-11 03:54:04 +08:00

感谢分享

CriseLYJ

2019-03-11 08:54:22 +08:00

@VanderMark6 不用谢哈

cat9life

2019-03-11 10:16:11 +08:00

这个可以有啊 1024

Heyavc

2019-03-11 10:27:34 +08:00

Nice Job，模拟登录值得学习，对一些自动化工程很有帮助。

CriseLYJ

2019-03-11 10:51:52 +08:00

@Heyavc 多谢支持

CriseLYJ

2019-03-11 10:52:04 +08:00

@cat9life 多谢支持

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/543118

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX