学 python 有些时间了,期间断断续续写了些东西,第一次来 V 站分享,求关照 :D
1. alibabaa 爬点
s.1688.com 搜索结果,主要功能是获取搜索请求返回数据包并解析,并未获取商品详情页面信息 传送门:
https://github.com/brunobell/freexici 2. qiushibaikee 爬点糗事百科的帖子和用户,思路是先爬取每个分类的前 35 页,把获取到的帖子和用户信息记录写入,然后读取爬取到的用户列表,爬取用户首页信息包括用户资料和一部分有关联和互动的用户,好像其实百科防的比较严没找到爬取每个用户发帖页面的思路 传送门:
https://github.com/brunobell/qiushibaikee 3. freexici 爬取西刺免费代理,由于免费代理基本是快消品,只是爬取每个分类最新 1 页内容,验证访问百度通过之后写入本地当前目录代理列表文件,运行时检测代理列表文件修改时间超过 24h 则自动更新 传送门:
https://github.com/brunobell/freexici 4. autouseragents 在线获取大量浏览器 or 爬虫的 UA ,使用 random_agent()方法即可返回随机 UA ,支持指定操作系统和浏览器类型 传送门:
https://github.com/brunobell/autouseragents