分享几个自家造的 python 轮子 :)

2016-07-26 10:50:31 +08:00
 broono
学 python 有些时间了,期间断断续续写了些东西,第一次来 V 站分享,求关照 :D

1. alibabaa 爬点 s.1688.com 搜索结果,主要功能是获取搜索请求返回数据包并解析,并未获取商品详情页面信息 传送门: https://github.com/brunobell/freexici

2. qiushibaikee 爬点糗事百科的帖子和用户,思路是先爬取每个分类的前 35 页,把获取到的帖子和用户信息记录写入,然后读取爬取到的用户列表,爬取用户首页信息包括用户资料和一部分有关联和互动的用户,好像其实百科防的比较严没找到爬取每个用户发帖页面的思路 传送门: https://github.com/brunobell/qiushibaikee

3. freexici 爬取西刺免费代理,由于免费代理基本是快消品,只是爬取每个分类最新 1 页内容,验证访问百度通过之后写入本地当前目录代理列表文件,运行时检测代理列表文件修改时间超过 24h 则自动更新 传送门: https://github.com/brunobell/freexici

4. autouseragents 在线获取大量浏览器 or 爬虫的 UA ,使用 random_agent()方法即可返回随机 UA ,支持指定操作系统和浏览器类型 传送门: https://github.com/brunobell/autouseragents
2774 次点击
所在节点    分享创造
2 条回复
shindo10
2016-07-26 11:33:11 +08:00
先收藏了,感谢分享
pango
2016-07-27 12:55:24 +08:00
autouseragents 不错

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/294964

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX