几万条网页剪藏,且在不断增加中,如何便捷的管理与检索?

2020-12-04 04:47:46 +08:00
 gdm
今有文科的 C 教授,因论文研究需要,收藏了约三万条网页新闻内容,且每年还会增加两三千条。
任何资料多了,管理都很麻烦。目前 C 教授使用某古老版本的 FileMaker Pro 来管理这些网页内容,所有内容都由助理来录入新闻的日期、来源、正文、C 教授的评论,及 C 教授特有的几大 tags 。可是 FileMaker Pro 的性能其实也没很好,基本上要一年做一个 database,现在已经收集了十几年,所以,比如要在新闻里面找「 APEC 」,C 教授需要一个一个 database 的打开,然后搜索,效率低下,而且会破坏思路……
C 教授也使用 Evernote 来记笔记,所以在考虑改用 Evernote 来搜集,并逐渐将 FileMaker Pro 搜集好的内容转移到 Evernote 。我担心 Evernote 跑不动他这三万,最后还是要一两年一个号。而且 Evernote 有 tags 上限,最多十万,其实是不太够用的。
可能也可以新东西就 Evernote,毕竟 Evernote 的剪藏好用,而旧的三万条就转去某个便于检索的软件。这样分两个检索应该还不至于麻烦死人。
大家有什么建议的软件吗?
3552 次点击
所在节点    问与答
38 条回复
Ettup
2020-12-04 05:10:20 +08:00
TimePPT
2020-12-04 08:34:13 +08:00
有助理整理,且这么大的量,直接搭个 wiki 吧,后端检索如果想优化单接个 ES,有一点开发成本,但既然是刚需就有必要
err1y
2020-12-04 08:44:47 +08:00
https://www.v2ex.com/t/730574

这个项目想解决的一部分问题就包括你说的这个事情。未来半年到一年内差不多可以实现(现在还处于理念雏形阶段)
gdm
2020-12-04 08:52:43 +08:00
谢谢答复。为什么收藏比回复多啊?

@Ettup 然鹅教授办公室、laptop 、家里的电脑全都用 Windows……

@TimePPT 助理都是些大二大三的中文系女生,约等于打字员,没有维护能力。搭建好后几年教授要换电脑时又可能会发生灾难,所以教授倾向于使用成品软件……
AndyAO
2020-12-04 08:57:10 +08:00
我的收藏比这个教授更恐怖,不仅有大量的网页(Chrome 有保存到本地的扩展,很棒),还有很多很多的电子书(图片版都自动 OCR 了)。

方法是直接全文检索(Windows 有专门的接口),这方面的工具有很多支持,布尔表达式(NEAR 好用爆了)和正则表达式,几乎可以满足所有的需求。

目前不管是笔记,电子书还是检查,全部是在本地的,数据完全在自己手里,想怎么弄就怎么弄。
AndyAO
2020-12-04 08:58:32 +08:00
每次我查资料的时候,只要输入表达式,例如(结构化编程 NEAR 数学),然后我很快就能听到风扇巨大的轰鸣声,之后就把这两个词相邻的所有文档全给列出来了,而且我能一目了然的直接查看里面的内容根本就不用切换界面。
vsitebon
2020-12-04 09:09:28 +08:00
如果只是要保存内容,那就只保存纯文本文件(例如 markdown,方便后期索引);
然后用本地检索软件,例如 Filelocator 进行检索,然后因为有好几万个,tags 也有好几万个,那就专门在文本中直接保留原始的#标签,另外再整理一份完整的 #tag 列表,也可以专门去找打 tag 软件;
至于为了查看,那就用各种 markdown 查看软件(目前有朋友一万三千个笔记也是这样整理
不过他还会用 devonthink 来分析整理
gdm
2020-12-04 09:11:32 +08:00
@err1y 祝早日完成


@AndyAO 自己弄全文检索问题在于 tags 的管理,我以前和教授建讨论过 DocFetcher 配合 markdown,后来还是因为 tags 的问题放弃,因为 tags 对文科研究者而言是攸关论文主轴和理论框架的问题
AndyAO
2020-12-04 09:15:29 +08:00
感觉如果 tags 是标签的意思,例如印象笔记中的标签,那么不妨碍在本地使用全文检索,感觉对于程序员来说解决起来应该是非常简单的。
laike9m
2020-12-04 09:24:14 +08:00
建议不要用印象笔记。主要是因为印象笔记的搜索并不好,而且我<1w 的笔记量有时候已经很卡了。不过具体用什么,我也不知道,毕竟印象的剪藏还是无可匹敌的
gdm
2020-12-04 09:29:15 +08:00
@AndyAO 由于教授只使用不到十个 tags 来归纳他的三万剪藏,一个 tag 的结果会有几千条,呈现效率会比较恶心,而且打断思路。教授是文科的,不是程序员,他只想要一款由程序员精心制作的软件来帮他解决问题……

@vsitebon 这和最初讨论过的方案比较接近,但由于教授还需要在多台电脑上作业,打 tags 软件不太好同步


@laike9m 谢谢提醒,果然还是不能用 Evernote——虽然我最近发现做网页收集的文科教授们都很爱用这货
laike9m
2020-12-04 09:30:05 +08:00
@gdm 如果你找到更好的替代品可以提醒我一下。我因为历史原因还在用
vsitebon
2020-12-04 09:31:45 +08:00
@gdm 我的意思是直接在文本中加上对应的标签列,例如

# 新闻标题

#标签 1 #标签 2 #标签 3

{摘录日期}

{内容}

{评论(外部的另说)}

然后另外维护一个列表,包括#标签 1 #标签 2 #标签 3,然后用 Filelocator 每次检索的时候,直接加上标签 #标签 1,然后内容,支持的索引的话,纯文本文件会非常快。

如何解决图片内容以及 扫描版 pdf 的本地内容管理,这里还另外建议 ABBYY 。

理论上这个工作流,会很方便;但是如果希望自己每次填充标签的时候,能够有类似搜索建议的弹窗,那我现在就只能推荐各种本身支持 tag 的 markdown 软件,或,如上所说的,单独维护一个标签列表,每次在打标签的时候,同时检索一下之前也没有类似的标签。

所以最后问题落在,如何在每次输入#标签 1.1 的时候会建议#标签 1,
gdm
2020-12-04 09:43:39 +08:00
@vsitebon 我觉得他打 tags 是需要外部呈现的,可能会拿来 sort 或是怎样,总之他强调过多次 tags 对他而言很重要。可能是因为他论文还在构建,可能还存在某些逻辑上的欠缺或模糊,所以对我表述时并不是特别清晰
由于是很纯文科的教授,不太用理科的思维去思考,不过我会根据你的建议,向他介绍理科思维,谢谢


@laike9m 看了你的回复我终于明白为什么收藏人数大于回复人数了 XD
cmdOptionKana
2020-12-04 09:55:57 +08:00
TimePPT
2020-12-04 09:58:00 +08:00
@gdm 搭 wiki 当然是服务器上搭,直接 web 登录,换哪个电脑都没所谓了
AndyAO
2020-12-04 10:22:28 +08:00
@gdm #11

场景是这样吗?也就是十几个标签管理,上万个电子书,点开每个 tag,那么每次的话需要展示上千个文档.

你这里说一下我想到的东西,也许会对你有点用

1. 对于某个表达式进行搜索和排序,并且返回结果,速度应该是非常快的。如果你的软件做不到那么不太合适。
2. 展示几千个文档,这个当然是不可能的,也是不需要的。如果你的软件是直接这么列出来的,那么它本来就不适合这种场景。

**百度或谷歌搜索引擎就是这样的,返回速度非常快,但只会返回并渲染 10~20 个结果。这种解决方案在很多的其他 App 也都有,是很成熟的。**

前几天看到过有个人在做这方面的工作,好像也在 V2EX 发过贴,叫做归海数据.我曾经试用过,或许能解决这种情况?

https://i.loli.net/2020/12/04/KZhmpnQNWXqGFUl.png

***

还有就是我不太明白为什么会有『一个 tag 的结果几千条,呈现效率会比较恶心,而且打断思路』的情况出现,如果要搜索资料库的话,应该不会直接匹配搜索库的 1/10 。

按照我的理解,出现这种情况的话,教授可能会这样搜索,`tags:历史`如果真是这样的话,我是没有办法理解教授的行为,这种关键词能查出什么东西?返回的内容太多太多.

如果不是,**可以把教授的搜索关键词发上来**.
coolair
2020-12-04 10:55:10 +08:00
你可以去微博问问伞哥,他的收藏估计比 C 教授还多。
vsitebon
2020-12-04 10:56:10 +08:00
@gdm 其实关于标签管理,完全可以用类似杜威十进制或中国图书馆的类别进行管理,以下是我的笔记(标签管理)实例以及具体类别实例:

https://imgur.com/nwIdyFa

https://imgur.com/eIA4YOU

然后如果担心实在太多太多,那就将同类别的标签,新建一个页面,用于管理;因为类别大概率只会有几个(而且不会增加),但是类别内的关键词可能会大幅度增加,这样可以保证未来的可验证能力

而且我特地推荐这种纯文本+#标签的方式的原因是,我此前也用 Evernote Notion 等,当你仅需要保留文件内容检索的时候,这两者都会遇到性能瓶颈,因为他们并不是专门的检索应用;

专业的事情应该由专业的软件去做,笔记软件可以用任意能写纯文本的软件,裁剪用专门的裁剪插件,检索也可以用你所说的 Docfetcher 或者我提到的 fileLocator 。
vsitebon
2020-12-04 10:58:06 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/731957

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX