求现成方案 [批量提取 douban book 某 tag 所有书的名字] ,然后再去 v1248,再自动化下载对应 book 的 epub 或 txt 格式,用讯飞引擎播读,地铁里闭目聆听, 所以是不能是很硬的书:)

2017-02-03 04:04:12 +08:00
 voidtools
这类爬虫应该很简单,但是有妹有 编译好的工具啊? 直接填 tag 名字,咔咔导出书单 list 。
然后配合 jdownloader 高级脚本, ( https://my.jdownloader.org/index.html)
去解析 ( http://v1248.com/index.htm?kw=学习正则表达式) 里有效的 baiduyun 的 link


希望有高人能研究一蛤。

比如 这类不硬的书
[互联网]( https://book.douban.com/tag/互联网)
[个人管理]( https://book.douban.com/tag/个人管理)
[科技]( https://book.douban.com/tag/科技)

Ps : it 、不硬的编程、网络攻防、自我管理方面的 epub , txt 很少的(不过千),因为义务 ocr 校对几乎不可能


欢迎留言推荐 [软] 书,我可以用 abbyy 来 ocr 为 epub 、 txt 或者双层 pdf (我并不校对,有的书不校对也妹关系)
1298 次点击
所在节点    问与答
1 条回复
voidtools
2017-02-03 04:27:25 +08:00
分享一条找书的搜索引擎参数
用 firefox 的 addon : add to searchbar 添加
[q="{searchTerms}*.epub" OR "{searchTerms}*.txt" OR "{searchTerms}*.pdf"]
![Clipboard_20170202.png]( https://ooo.0o0.ooo/2017/02/03/5893961fcc3ea.png)

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/337798

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX