本地有几十万本电子书,怎么搜索书中的文本内容?

2024-01-05 16:37:41 +08:00
devinmagic  devinmagic
请问各位技术达人,本地有二三十万本电子书,可以转为 txt 格式,总容量有上百 G ,请问有什么办法可以快速检索图书中的内容,例如搜索“曹雪芹”就能找到相对应的图书。自己有一台迷你小主机存储这些图书,可以在上面部署服务,谢谢各位了!
2113 次点击
所在节点   问与答  问与答
17 条回复
blankmiss
blankmiss
2024-01-05 17:03:45 +08:00
我感觉很难哦 你的文本内容太大了
ysn2233
ysn2233
2024-01-05 17:08:30 +08:00
meilisearch es pg ,能建全文索引的都行吧
manasheep
manasheep
2024-01-05 17:10:38 +08:00
AnyTXT Searcher
diivL
diivL
2024-01-05 17:19:29 +08:00
建成 WEB, 然后用 google 的站内搜索
devinmagic
devinmagic
2024-01-05 18:33:59 +08:00
@diivL 很多书都没版权,放到网上估计要被封
zihuyishi
zihuyishi
2024-01-05 19:02:42 +08:00
elasticsearch 不就是用来做这个的么,不知道现在中文支持的咋样了
Raynard
Raynard
2024-01-05 21:11:23 +08:00
notepad++?

没试过这么多,最多同时搜索过几百个,

或者上传到群晖试试?能搜索文件内的内容
wonderfulcxm
wonderfulcxm
2024-01-05 21:43:25 +08:00
可以转 txt 那就转了, 交给 ChatGPT 知识库,打造一个查询问答机器人。
Raynard
Raynard
2024-01-05 21:55:16 +08:00
@wonderfulcxm 费用爆表了,哈哈哈
BeautifulSoap
BeautifulSoap
2024-01-05 21:58:31 +08:00
一本 300kb 的 txt 文字量的话,20w 本共 57gb 的文字量,es 可以处理
或者本地跑个大语言模型,只不过对显卡要求有点高
hicdn
hicdn
2024-01-05 22:33:19 +08:00
sun1991
sun1991
2024-01-06 10:50:05 +08:00
grepWin or FileLocator
PbCopy111
PbCopy111
2024-01-06 10:56:17 +08:00
不如。。。直接用百度搜。。。然后自己再看书。
fanyingmao
fanyingmao
2024-01-06 11:35:57 +08:00
我是用 Calibre 管理电子书,可以建全文索引
xuanjiangsara
xuanjiangsara
2024-01-06 19:27:25 +08:00
@fanyingmao 对的。Calibre 已经可以全文索引查找了。就在平时搜索按钮左边。
haichao0808
haichao0808
2024-01-09 13:45:09 +08:00
如果是在 linux 系统里面的话,可以试试 grep 或者 ag 命令,可以直接搜索文本内容,但是几百 G 估计比较久
flynaj
flynaj
2024-01-11 10:44:06 +08:00
Windows 自带的搜索就可以,不要把索引关了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1006221

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX