几万条网页剪藏,且在不断增加中,如何便捷的管理与检索?

2020-12-04 04:47:46 +08:00
 gdm
今有文科的 C 教授,因论文研究需要,收藏了约三万条网页新闻内容,且每年还会增加两三千条。
任何资料多了,管理都很麻烦。目前 C 教授使用某古老版本的 FileMaker Pro 来管理这些网页内容,所有内容都由助理来录入新闻的日期、来源、正文、C 教授的评论,及 C 教授特有的几大 tags 。可是 FileMaker Pro 的性能其实也没很好,基本上要一年做一个 database,现在已经收集了十几年,所以,比如要在新闻里面找「 APEC 」,C 教授需要一个一个 database 的打开,然后搜索,效率低下,而且会破坏思路……
C 教授也使用 Evernote 来记笔记,所以在考虑改用 Evernote 来搜集,并逐渐将 FileMaker Pro 搜集好的内容转移到 Evernote 。我担心 Evernote 跑不动他这三万,最后还是要一两年一个号。而且 Evernote 有 tags 上限,最多十万,其实是不太够用的。
可能也可以新东西就 Evernote,毕竟 Evernote 的剪藏好用,而旧的三万条就转去某个便于检索的软件。这样分两个检索应该还不至于麻烦死人。
大家有什么建议的软件吗?
3554 次点击
所在节点    问与答
38 条回复
echowuhao
2020-12-04 14:40:34 +08:00
没有一个用 NAS 的。

买一个 NAS,我用的威联通有 Qsirch,chrome 有 Qsirch Helper 插件。

买个性能好的 NAS,全部 SSD 。 几万,几十万文件不在话下。

即使没有搜索需求那么多重要文件,也该考虑 NAS 备份了。
NasirQ
2020-12-04 14:59:43 +08:00
威联通+1
Qsirch 很好用
组个 RAID,备份安全。
tankren
2020-12-04 15:30:26 +08:00
至少弄个文件服务器或者 NAS 吧 多终端才方便
sun1991
2020-12-04 17:08:05 +08:00
无责任推荐 MyBase [http://www.wjjsoft.com/mybase.html], 最近正在考虑从 Evernote 转.
sillydaddy
2020-12-04 17:28:05 +08:00
@vsitebon 这些 tags 的列表是 obsidian 里面的结构吗?看着像是 wiki
sunbreak
2020-12-04 17:31:32 +08:00
vsitebon
2020-12-04 19:28:44 +08:00
@sillydaddy 是 Obsidian
gdm
2020-12-04 22:00:52 +08:00
@cmdOptionKana 这看起来蛮酷的,我觉得是个不错的方案

@TimePPT 文科教授没有购置服务器的经费,只能用办公室电脑本地搭建,助理可能都没听过 Linux,不太可能让他们弄这个

@AndyAO 不是十几个 tags 管理,而是写论文就是要集中你的主题,不可能分散到几百个主题里面,那写不出论文。所以教授用的 tags 不到十个。我也觉得他的需求近乎桌面搜索,但可能他对搜索结果的呈现要求比较高。
关键词比如「画像」,tags 比如「族群」,涉及象征政治学、agnotology 、社会动力学等理论,v2ex 看过的人应该不超过十个。

@vsitebon 一般人收集的东西啥都有,而 C 教授收集的东西用图书分类法来分的话,几乎全在一两个子类里面。

@echowuhao 谢谢,我会建议他试试看,不过 Linux 对他来说会是大问题

@sun1991 量少的时候 mybase 确实很不错,我担心的是 3 万以上的量,搜索会故障

@sunbreak 这看起来是阅读插件? C 教授不太有这类需求,因为他全都看过了
whatalittleboy
2020-12-04 22:12:29 +08:00
“Archivarius 3000 – 是一个搜索计算机上,局域网上和可移动驱动器( CD,DVD )上的文档和电子邮件. 文档可以使用关键字或使用查询语言进行搜索, 和在 Internet 搜索引擎一样”

虽然这个软件界面设计很古老,但全文检索真的牛逼,支持的格式还贼多;另外,网页可以用 chrome 插件 SlingFile 保存为单个 html 文件,图文都能原样式保存下来

https://sm.ms/image/uKWbn8Ix14Qp6fG

http://www.likasoft.com/cn/document-search/
echowuhao
2020-12-04 22:21:41 +08:00
nas 设置一下花几个小时 然后就都是网页访问 花 2000 块买一个回来玩玩就知道了 这可能是最好的方案了
Kyon945
2020-12-05 12:10:30 +08:00
SingleFile (浏览器扩展) 离线保存网页
简悦(浏览器扩展)网页上广告比较多的用简悦保存为离线 html
网页剪贴簿(浏览器扩展)+ Everything 本地 http 服务后给离线网页做笔记
Archivarius3000 ( Win )完美实现 PDF / markdown / html / mobi / epub / azw3 / txt 格式全文搜索
手机是 iPhone,用 iCloud 同步笔记到手机端,iPhone 自带的文件 APP 可以完美打开离线 html 网页/ PDF...

这大概是我的方案
AX5N
2020-12-06 20:39:23 +08:00
@gdm 你的教授的习惯是这样吗——看到不错的东西,保存下来后并且打上 tag 。等需要的时候,输入 tag,然后软件把所有的该 tag 下的文章给找出来。还是说不仅要搜索 tag,还要搜索正文内容?
panyuz
2021-10-10 21:52:29 +08:00
教授最后选择了哪个方案? @gdm
panyuz
2021-10-10 21:55:24 +08:00
@AndyAO 支持 near 的是哪个软件?
AndyAO
2021-10-11 06:09:31 +08:00
@panyuz FileLocator 布尔表达式
gdm
2021-10-11 08:36:54 +08:00
@panyuz 由于对检索速度太执着,目前使用了一个很古老的佛经搜索软件叫 accelon 3,最新的东西就在文件名上打好 tags,然后用 everything 来搜
voidtools
2022-08-26 12:04:33 +08:00
@AndyAO 帖子很久了,但是想问一下。有没有用过 filel0cator 的命令行模式我碰到一个问题。布尔正则表达式在图形化界面正常,在命令行模式就出现错误,无法解析。
voidtools
2022-08-26 12:06:57 +08:00
@AndyAO 帖子很久了,但是想问一下。有没有用过 filel0cator 的命令行模式我碰到一个问题。写了个布尔正则表达式在图形化界面正常,在命令行模式就出现错误,无法解析。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/731957

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX