xspider 爬虫小框架,专注策略实现爬虫

2018-06-13 13:48:39 +08:00
 intohole

https://github.com/intohole/xspider

  1. 本地磁盘队列,对各位只有单机,存储内存 cpu 不大的情况实现
  2. 针对不同链接 pattern,使用不同解析器;
  3. 结合 bloomfilter 过滤神器,达到减少内存占用
  4. 整个抽取器,json /正则/ xpath / css selector 等,还在构造中
  5. 对整个抓取流程结构化

现在不足点:

  1. 数据库存储问题
  2. 对抓取失败后,处理策略优化;
  3. 无可视化页面,对整个爬虫架构完善
  4. 无可自动抽取元素

爬虫架构本人在使用,写一些定制化的爬虫,期待你的建议~

不喜勿喷,可以略过~谢谢

3066 次点击
所在节点    程序员
12 条回复
glacer
2018-06-13 14:03:27 +08:00
mark
ihancheng
2018-06-13 14:13:56 +08:00
战马
cheesea
2018-06-13 17:07:02 +08:00
我想问一下,楼主这个框架,对比 scrapy/pyspider 有什么区别,或者说解决了什么问题?
itsme001
2018-06-13 18:02:42 +08:00
看到请求用的 requests 就停了.requests 默认的有些 http 头都是去不掉的.会被 requests 使用的下层库(urllib?httplib?)添加上去.玩具成熟点再发吧.
golmic
2018-06-13 18:09:01 +08:00
我还没看到 4L 那,只看到了
1. 抓取单线程
2. from xspider.spider.spider
就不打算继续看了
Leigg
2018-06-13 18:16:03 +08:00
有想法,不过最好有鲜明的优势,相较于 scrapy,pyspider 这些框架,不用把他们实现的你都实现,不然就是造轮子了。
总体建议是: 整体构思好再出发比较好,这是一个很锻炼 coding,架构能力的事情,还是支持楼主。
intohole
2018-06-13 18:35:55 +08:00
楼上们,没用你怎么知道不好呢? 好奇? 看到 requests 就停止了~
intohole
2018-06-13 18:36:21 +08:00
@cheesea 机器资源紧张,需要设计一些策略问题
intohole
2018-06-13 18:36:56 +08:00
@Leigg 这个有架构的~,这是我自己一些爬虫工具,磨练出来的
gouchaoer2
2018-06-13 19:26:49 +08:00
你可能不需要队列,mysql 足够
你可能不需要 bloomfilter,unique 索引足够
可能你不需要优化性能,因为爬虫就不是个 cpu/内存消耗的东西
xiangbohua
2018-06-13 19:51:45 +08:00
@gouchaoer2 网络请求、放反扒应该占用大多数时间吧
intohole
2018-06-13 20:39:05 +08:00
@gouchaoer2 其实什么都不用做 , 直接用 requests 就可以

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/462774

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX