抓取新浪博客的命令行程序: dature

2018-03-21 10:21:58 +08:00
 Junyiz

dature 是基于 Node.js 的爬虫程序,可以抓取新浪博客某博主的全部博文,包含标题、正文、时间、分类、图片,并生成 HTML 文件。

安装

npm install -g dature

使用

dature sina_blog_uid

详见: https://www.npmjs.com/package/dature

4530 次点击
所在节点    Node.js
6 条回复
JohnChiu
2018-03-21 11:08:45 +08:00
赞!顶一下支持~
Junyiz
2018-03-22 15:25:40 +08:00
今天更新了生成 HTML 的模版
xuyl
2018-03-27 15:19:17 +08:00
试用了下,生产的模板有问题,Cannot read property 'title' of undefined,
xuyl
2018-03-27 15:25:29 +08:00
新浪博客?还以为是微博。。。
Junyiz
2018-03-27 17:40:16 +08:00
@xuyl 对的
Junyiz
2018-03-28 13:06:17 +08:00
已支持抓取 CSDN 博客

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/439972

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX