收集整理 Python 爬虫的工具,求 PR

2018-08-07 11:13:29 +08:00
 plart

对于 Python 的学习,有个关键又极其适合练手的应用场景——网络爬虫。

之前在做类似项目的时候,发现总是会找不到合适的工具以及不清楚对应工具的应用方法及场景,所以想要整理一份小集合,希望可以帮助自己以及其他有需求的人,目前我简单整理了一下,但是有些说明是直接复制的英文,没有翻译,以及可能感觉格式、板式,尚需完善,但是自己暂时没有太多想法,希望有人可以帮助自己共同进步。

page 地址 page

项目地址(强烈建议 PR )https://github.com/lartpang/spyder_tool

3032 次点击
所在节点    Python
11 条回复
timboy
2018-08-07 11:22:40 +08:00
phantomjs 已经不被新版 selenium 支持了,得用 Headless Chrome( http://chromedriver.storage.googleapis.com/index.html)和 Headless Firefox(这个暂时没用过)
beny2mor
2018-08-07 11:22:52 +08:00
先观望( watch )下
timboy
2018-08-07 11:28:40 +08:00
charles 也可以做抓包
SpiderXiantang
2018-08-07 13:00:20 +08:00
工具:Fiddler/Chrome(调试 js)
渲染:Pyqt5/scrapy-splash
解析:lxml/re
下载:requests/aiohttp(异步)
队列:Queue(爬虫队列)
增速:thread/mutilprocessing/gevent
数据库:pymysql/redis/sqlalchemy(ORM)
其他:fack-user-agent
brucedone
2018-08-07 14:59:09 +08:00
https://github.com/BruceDone/awesome-crawler , 已经有类似的了,收集的也相对齐全
xFrank
2018-08-07 17:19:26 +08:00
缺失最重要组件:验证码识别
hellwys1
2018-08-07 17:58:29 +08:00
mark
tanglijun
2018-08-08 09:53:28 +08:00
还有最重要也是最容易忽略的一点:数据分析
这个归纳的挺好的 https://www.zhihu.com/question/20899988/answer/58388759
plart
2018-08-09 13:19:44 +08:00
@brucedone 感谢
plart
2018-08-09 13:21:32 +08:00
我会再考虑下这个仓库存在的必要性,或者说进一步进行提升。
plart
2018-08-19 19:41:38 +08:00
进行了一下想法的调整,感觉仓库存在是值得滴。

且行且看吧!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/477532

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX