本地有几十万本电子书,怎么搜索书中的文本内容?

358 天前
 devinmagic
请问各位技术达人,本地有二三十万本电子书,可以转为 txt 格式,总容量有上百 G ,请问有什么办法可以快速检索图书中的内容,例如搜索“曹雪芹”就能找到相对应的图书。自己有一台迷你小主机存储这些图书,可以在上面部署服务,谢谢各位了!
2028 次点击
所在节点    问与答
17 条回复
blankmiss
358 天前
我感觉很难哦 你的文本内容太大了
ysn2233
358 天前
meilisearch es pg ,能建全文索引的都行吧
manasheep
358 天前
AnyTXT Searcher
diivL
358 天前
建成 WEB, 然后用 google 的站内搜索
devinmagic
358 天前
@diivL 很多书都没版权,放到网上估计要被封
zihuyishi
358 天前
elasticsearch 不就是用来做这个的么,不知道现在中文支持的咋样了
Raynard
358 天前
notepad++?

没试过这么多,最多同时搜索过几百个,

或者上传到群晖试试?能搜索文件内的内容
wonderfulcxm
358 天前
可以转 txt 那就转了, 交给 ChatGPT 知识库,打造一个查询问答机器人。
Raynard
358 天前
@wonderfulcxm 费用爆表了,哈哈哈
BeautifulSoap
358 天前
一本 300kb 的 txt 文字量的话,20w 本共 57gb 的文字量,es 可以处理
或者本地跑个大语言模型,只不过对显卡要求有点高
hicdn
358 天前
sun1991
358 天前
grepWin or FileLocator
PbCopy111
358 天前
不如。。。直接用百度搜。。。然后自己再看书。
fanyingmao
358 天前
我是用 Calibre 管理电子书,可以建全文索引
xuanjiangsara
357 天前
@fanyingmao 对的。Calibre 已经可以全文索引查找了。就在平时搜索按钮左边。
haichao0808
354 天前
如果是在 linux 系统里面的话,可以试试 grep 或者 ag 命令,可以直接搜索文本内容,但是几百 G 估计比较久
flynaj
353 天前
Windows 自带的搜索就可以,不要把索引关了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1006221

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX