有没有什么抓取新浪博客做电子书的工具?

2017-10-05 12:38:58 +08:00
 weakish
抓取某博主的全部博文,生成 mobi 或 epub 电子书。

好像没找到现成的。GitHub 上单纯抓取的倒找到几个,但好像都是纯文字的,图片都不管。
3478 次点击
所在节点    问与答
14 条回复
takanasi
2017-10-05 12:45:09 +08:00
你愿意出多少钱?
weakish
2017-10-05 13:09:28 +08:00
@takanasi 呃,这是「问与答」,不是外包节点。我问下有没有现成的轮子,没有的话我可能自己造。
cynicalwalker
2017-10-05 13:13:56 +08:00
我只知道有抓知乎内容的,不过已经弃坑了
isCyan
2017-10-05 13:48:18 +08:00
关键词 新浪博客导出工具
weakish
2017-10-05 14:48:06 +08:00
@isCyan 没搜到什么有效的结果,搜到不少 GUI 的专有软件。主帖没说清楚,需求是开源。
Yvette
2017-10-05 14:48:35 +08:00
帮人找过没找到,后来花了几块钱去淘宝做了份导出到 PDF,效果比想象好。
weakish
2017-10-05 14:50:20 +08:00
@cynicalwalker 我去年写过抓知乎专栏的命令行工具(带图片,但不支持增量抓取) https://github.com/weakish/ceylon-zhihu 不知道现在还能不能用
isCyan
2017-10-05 14:51:25 +08:00
@weakish 没有,花钱吧,我说的就是 GUI 的专有软件,要不只能自己写,我之前也有找过
SENSIR
2017-10-05 15:26:42 +08:00
@weakish @cynicalwalker
歪个楼,我最近刚好在弄知乎读读日报的抓取,可以抓个人首页流和热门文章流,自动制作 mobi 文件(.net core 程式),感兴趣可以看一下…
https://github.com/ludoux/DuduSpider
TigerK
2017-10-05 16:34:00 +08:00
以前有一个博客备份工具,可以把新浪博客和百度空间的文章都下载下来,然后导出 html 文件的。
今年还继续更新呢,不过是要收费的,地址是 http://www.pt42.cn/blog_backup_index.htm
Junyiz
2018-01-24 18:16:06 +08:00
http://d.junyi.me/ 新浪博客导出工具,导出 html 文件
weakish
2018-01-24 21:38:52 +08:00
@Junyiz 一直显示「努力抓取中。。。」
Junyiz
2018-01-26 14:41:08 +08:00
@weakish 你再试试 ~~
Junyiz
2018-03-21 10:16:15 +08:00
@weakish 抓取某博主全部博文并生成 html 的命令行程序: https://www.npmjs.com/package/dature

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/395498

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX