用 nodejs 撸了个爬虫，使用 leveldb 做队列，非常简单可用

2017-03-25 20:32:24 +08:00

wl879

搜来搜去用 nodejs 做爬虫的介绍，都是些很基础的，如果只为学习是够用了，但如果想用它来做点什么，还都得是从头写起。其实，解析这部分重头写没什么好说的，不同网站不同规则吗，但做为爬虫最基本的队列呀，去重呀等很共性的功能部分，没找到有什么 nodejs 的框架能拿来就用。所以，所以（想介绍下自己的东西，还非得说一些是非铺垫，嗯，鄙视自己），说一个我写的很简单的框架吧。

Crawl-pet 养一只爬虫宠物吧，已上传 npm ，安装如下

npm install crawl-pet -g

已开源到 Github ： https://github.com/wl879/Crawl-pet

还有一篇使用的介绍： http://www.jianshu.com/p/1b9be0df5236

就请大家给看一看吧，怎么得，这回浏览量也的过 100 啊！

5931 次点击

所在节点

分享创造

7 条回复

a87150

2017-03-25 21:27:27 +08:00

过 100 了

wl879

2017-03-25 23:28:01 +08:00

呵呵，有很多是自己刷新出来的，简书里的浏览量才 50

FEDT

2017-03-26 00:59:58 +08:00

看看

phrack

2017-03-26 11:00:08 +08:00

对 nodejs 不了解，不过既然能跑 js ，我一直好奇一个问题。

我目前都是用 python 的爬虫，但是有一个问题， ajax 的页面，动态更新的内容只能自己去模拟请求，其实这样是非常恼人的，或者用 phantomjs ，但是也并不是那么舒服。

nodejs 能做到自动抓取 ajax 不？一是 ajax 刷新的页面内容，二是 ajax 的网络请求。