学 python 有些时间了,期间断断续续写了些东西,第一次来 V 站分享,求关照 :D
1. alibabaa 爬点
s.1688.com 搜索结果,主要功能是获取搜索请求返回数据包并解析,并未获取商品详情页面信息 传送门:
https://github.com/brunobell/freexici2. qiushibaikee 爬点糗事百科的帖子和用户,思路是先爬取每个分类的前 35 页,把获取到的帖子和用户信息记录写入,然后读取爬取到的用户列表,爬取用户首页信息包括用户资料和一部分有关联和互动的用户,好像其实百科防的比较严没找到爬取每个用户发帖页面的思路 传送门:
https://github.com/brunobell/qiushibaikee3. freexici 爬取西刺免费代理,由于免费代理基本是快消品,只是爬取每个分类最新 1 页内容,验证访问百度通过之后写入本地当前目录代理列表文件,运行时检测代理列表文件修改时间超过 24h 则自动更新 传送门:
https://github.com/brunobell/freexici4. autouseragents 在线获取大量浏览器 or 爬虫的 UA ,使用 random_agent()方法即可返回随机 UA ,支持指定操作系统和浏览器类型 传送门:
https://github.com/brunobell/autouseragents
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/294964
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.