保存浏览过的网页并搜索有哪些好的方案

2023-02-28 11:43:05 +08:00
 FrankAdler

目前用 SingleFile 自动保存到 webdav ,但是搜索是个问题,理想情况是有个 web 界面,目前没有找到合适的工具,暂时是用命令行 find+grep ,感觉不太方便。

了解了下两个轻量级的全文搜索:ZincSearch 、blevesearch ,还没深入是看,但是感觉也应该需要想办法把网页内容导入到引擎里面,不知道还有没有其他的方案。

尽量轻量级一些,ES 太重了首先排除掉吧。

2852 次点击
所在节点    程序员
22 条回复
TrembleBeforeMe
2023-02-28 12:34:14 +08:00
FrankAdler
2023-02-28 13:09:51 +08:00
@TrembleBeforeMe 这个看起来好强,我先研究下看看
caomu
2023-02-28 13:15:48 +08:00
前段时间还讨论了一下
https://www.v2ex.com/t/916365
tool2d
2023-02-28 13:18:59 +08:00
自己写一个 vscode 插件,find in files 文本搜搜嘛可以了。

低频需求,性能要求不需要那么高。
FrankAdler
2023-02-28 13:44:06 +08:00
@caomu https://www.v2ex.com/t/798536 lockheart 提到的 https://historio.us 也是一种选择,感觉很类似私人引擎了
FrankAdler
2023-02-28 13:44:27 +08:00
@tool2d 可能还不如 find+grep 呢,就是要 ssh 下
vtexer
2023-02-28 13:47:10 +08:00
语雀的剪存
vtexer
2023-02-28 13:47:45 +08:00
飞书的剪存
fds
2023-02-28 13:55:35 +08:00
前两天看到 https://github.com/omnivore-app/omnivore 不过我没用过
tool2d
2023-02-28 13:57:08 +08:00
@FrankAdler mhtml 需要解包,至少不去搜索 base64 里的图片。

还需要定位跳转,搜出来结果,你总要看一下上下文吧。

还有一些不是 utf8 格式的页面需要转换,又或者不是一个个独立文件,文件多了后,是定期 zip 打包这种形式存在于磁盘上的。

退一万步,就算直接用 find 命令行,我也会写一个自己特化的管道过滤工具,码农不就是写工具的。
ipfox
2023-02-28 15:53:27 +08:00
chrome 插件 Chrono Power Action
Giftina
2023-02-28 16:42:22 +08:00
SingleFile 存到本地后搭配 hamsterbase 即可
Huelse
2023-02-28 16:53:10 +08:00
感觉有点像 onetab 的功能
abcdxe2v
2023-02-28 16:54:27 +08:00
@FrankAdler
historio.us 这个不行,很多网页抓取不到(可能是因为动态加载的原因)
由于我需要正则,所以我是 SingleFile 保存后,用 FileLocator Pro (因为是正则,所以无索引)
ztbz123
2023-02-28 17:09:46 +08:00
@abcdxe2v 我也这样,但 FileLocator Pro 检索和预览 HTML ,是源代码 html 标签的形式,html 标签和样式比较多,看着不太直观方便,有没有什么解决方法?比如,能不能设置 FileLocator Pro 预览 HTML 格式文件时,可通过浏览器预览展示
zictos
2023-02-28 17:10:59 +08:00
试过很多,没一个好用的,很多明明看过的文字却搜不到。现在很多网站又都是 js 动态加载,就更可能搜不到了
FrankAdler
2023-02-28 21:27:41 +08:00
@zictos archivebox 可以抓起 js 动态加载的(基于无头浏览器)
FrankAdler
2023-02-28 21:28:57 +08:00
@ztbz123 可能保存的时候不要 css 样式会好很多?毕竟内容才是最重要的
tinola
2023-03-01 10:35:41 +08:00
以前用网文快捕 CyberArticle 可以离线保存,后来不更新了,可惜。现在用 onetab.
edis0n0
2023-03-01 11:15:35 +08:00
@TrembleBeforeMe #1 这个要登录的页面就不行,好文章很多都要登陆才能看

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/919776

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX