https://github.com/intohole/xspider
- 本地磁盘队列,对各位只有单机,存储内存 cpu 不大的情况实现
- 针对不同链接 pattern,使用不同解析器;
- 结合 bloomfilter 过滤神器,达到减少内存占用
- 整个抽取器,json /正则/ xpath / css selector 等,还在构造中
- 对整个抓取流程结构化
现在不足点:
- 数据库存储问题
- 对抓取失败后,处理策略优化;
- 无可视化页面,对整个爬虫架构完善
- 无可自动抽取元素
爬虫架构本人在使用,写一些定制化的爬虫,期待你的建议~
不喜勿喷,可以略过~谢谢