写在最前面,欢迎各位大佬来提 PR,也可以来讲自己做爬虫的心得与体会,一些小技巧都可以!可以联系我!
啊!第三次发了,希望你们不要觉得烦,只是想做一些有意义的事情,勿怪!!多谢!!!
增加糗事百科,链家!
如果喜欢的话可以给个 star 谢谢
🌟分享一些各大网站登陆方式, 和一些网站的爬虫程序,有的是通过 selenium 登录,有的是通过抓包直接模拟登录,有的是利用 scrapy,脚本几乎都不太大,很容易上手,希望对小白有所帮助,本项目用于研究和分享各大网站的模拟登陆方式,和爬虫程序,会持续更新。。。
模拟登陆基本采用的是直接登录或者使用 selenium+webdriver 的方式,有的网站直接登录难度很大,比如 qq 空间,bilibili 等如果采用 selenium 就相对轻松一些。
虽然在登录的时候采用的是 selenium,为了效率,我们可以在登录过后得到的 cookie 维护起来,然后调用 requests 或者 scrapy 等进行数据采集,这样数据采集的速度可以得到保证。
1. 爬取淘宝各子标签,按销量排名商品信息,按分类保存至 MongoDB
2. 通过 pandas 进行数据分析
3 .将商品在各省分布、销量排行、地图分布等通过 matplotlib 绘图显示
1. 输入要爬取的博主 ID,获取 ajax 请求
2. 解析 json 数据,爬取博主所有微博,保存至 MySQL
知乎登录没有问题,不过要手动输入验证码
知乎登录遇到“ execjs._exceptions.ProgramError: TypeError: 'exports' 未定义”
原因以及解决办法:
1. 由于是你本地的 JScript 引擎只有一个默认的 JScript,所以会造成 json 未定义的错误。
2. execjs 会自动使用当前电脑上的运行时环境
3. 解决办法:安装一个 nodejs 的 V8 引擎就可以了
欢迎大家一起来 pull request 💗
很重要很重,欢迎大家来提 PR
喜欢的记得过来给小弟个 star 支持一下哦!
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.