一个科研狗开发的文献管理软件 Paperlib

2022-06-24 04:09:19 +08:00
 SorryChen

我是一个在计算机视觉里蝶泳的科研狗,一个文献管理软件基本是我的刚需。从硕到博这么多年用了各种各样的软件:Papers 、Mendely 、Readcub Papers 、Zotero ,没有一款能让我满意舒服的。


现有的软件

诚然这些软件都是伟大的软件,但是或多或少都有些小问题,比如:

  1. 无法精准的抓取到会议论文的发表情况
  2. 功能做的不咋地,一堆用不上的功能,每年太贵的订阅费 = =
  3. 太丑太丑了,像上个世纪的界面(没错说的就是你 zotero )
  4. ......

我想要的

而我想要的就是一个简简单单的论文管理软件:

  1. 他必须能精准地匹配到会议论文的发表情况。我认为这是一个文献管理软件最重要的功能。其他领域可能看期刊很多,但是像我们领域,大部分论文都是会议论文,我想 NLP 应该跟我们 CV 也差不多。但是会议不像期刊,很多都要很久才有 DOI ,有的甚至没有 DOI ,所以市面上的这些软件,几乎没有一个能很好的精准的匹配会议论文 metadata 的。我想要他精准匹配到是不是发表到 ICLR ICML NIPS ECCV 等会议上。而我不想每次写论文对对着一堆 arxiv publication 一个一个去搜他们发表在哪里的去做校对。
  2. 不需要什么花里胡哨的管理功能,就简单的 Tag ,Folder ,加星,Note 。
  3. 能够方便地进行检索,普通搜索,全文搜索,高级语法搜索,让我在开会时候想跟老师讨论一个论文的时候不需要手忙脚乱的去翻文件夹或者 Google 。。。
  4. 作为计算机行当,虽然 Github 的 star 能够收藏论文的代码仓库,但是并不容易找,更多时候还是去 google 。如果这个软件能帮我自动搜 code repository 然后存在软件里就好了。
  5. 当我准备开始写自己论文的时候,如果有方便的方式一键复制 bibtex 就好了。体验就好像打开 spotlight 输入关键词,直接回车粘贴。
  6. 它有一个简洁的 UI ,清晰的图标,至少看着不是上个世纪的。毕竟颜值就是生产力。

于是,一年多以前,在博士刚开始的时候,我就开始着手自己开发一个,符合上述需求的软件。

跟周围同学分享了一下,大家都觉得挺好用的。之前因为觉得不完美,害怕推广了之后自己没精力维护。经过一年多的打磨,这个软件也伴随我一年多的科研,加两次论文投稿。我已经把大部分功能做到我满意的地步了。所以在这里分享一下,给有同样需要的科研狗们!它就是 Paperlib !


Paperlib

使用简介

亮点

  1. 从 arXiv ,doi.org ,DBLP ,IEEE ,openreview.net ,PaperwithCode ,Google Scholar ,为每一篇论文尽量匹配精确的信息以及代码仓库。
  2. 全文搜索,高级搜索。
  3. 快速导出,一键复制 BibTex 。
  4. 为论文评分,分配标签、文件夹,加星,方便进行分类管理。
  5. 可以云同步数据,macOS win 双平台。
  6. 完全开源。

缺点

  1. 这是按照我一个人的科研习惯打造的,我不确定是否大家用的习惯。
  2. 对比 zotero 这软件,说实话因为自己没怎么用,我可能还不知道它有什么极其强大的功能,也许 Paperlib 这里没有。
  3. 开发者只有我一个人,我无法像大公司那样按时修 Bug 。现在基本是就是我周末没事的时候修一修。(不过自己已经很久没遇到什么恶性 bug 了)
  4. 我的领域是计算机视觉,我不确定其他计算机领域的人,比如 NLP 啊,数据库啊,啥的,能不能准确匹配好论文元数据。如果不准确可以开 Issue ,在软件里我定义了一系列 metadata scrapers ,我们可以一起开发更多的符合计算机领域的。但是目前计划是仅仅覆盖到计算机领域。因为其他领域真的不了解。
  5. Electron 。关于 Electron ,可能大部分人都不喜欢吧。实际上 Paperlib 是有 macOS 原生 swiftUI 版本的 branch 的,完成了一些基础的功能。但是作为一个人开发的软件,平时又要科研,想要维护好 win 和 mac 双平台,实在是太难了。最后我只能转为使用 Electron 。如果有任何喜欢 Paperlib 想接手 swiftUI 版本的同学,我非常欢迎。现在我看了看资源占用实际上也没有很夸张,比 zotero 是小一些的。。。可能因为没那么多乱七八糟的功能吧。。

最后的最后,祝大家科研顺利吧!

网址: https://paperlib.app/en/

Github: https://github.com/GeoffreyChen777/paperlib

15574 次点击
所在节点    分享创造
287 条回复
SorryChen
2022-09-11 09:38:50 +08:00
@fl2d 这样怎么做快速检索呢……,现在可以方便的搜索,分类正是因为用了专门的数据库哇
fl2d
2022-09-11 09:47:43 +08:00
@SorryChen
首次同步的时候本地 app 根据文件夹里的记录重建数据库,搜索啥的还是数据库。后面是根据同步文件夹里记录的修改来修改数据库。不过想了一下同步逻辑,似乎确实挺麻烦的😂
SorryChen
2022-09-11 17:59:13 +08:00
@fl2d 这不就相当于我自己重写了整个数据库的冲突处理,我觉得太麻烦啦,目前的方案是我想到的最好的方案了。。。其他的觉得自己写不太靠谱了 😂
luistrong
2022-09-30 18:48:39 +08:00
体验了一下 OP 的软件,首先感谢制作了一款界面精美的软件。
只提一个个人觉得最需要完善的功能:内置 pdf 阅读,如果跳到第三方阅读器会对文献阅读产生很强的割裂感,很多时候只是极快速的浏览或查找多篇文献中的某个内容,没有内置 pdf 阅读器的这种时候会很不方便。
个人 15 年开始几乎把所有的文献软件都试过了,还是觉得 papers3 最好用,无奈 papers3 在 M 芯片上无法打开。选择 papers3 的一个很大的原因是可以把视图调整为一个窗口内上面是文献列表,下面直接显示 pdf 内容,这样真是极大的提高了阅读和查看的效率!!这真是文献完美的展现方式啊!!!希望这个软件也可以支持这种视图。
SorryChen
2022-09-30 19:54:51 +08:00
@luistrong 如果只是内置简单的 PDF 查看,这非常简单,但是如果想做到完美的 PDF 阅读体验,那很难,因为很难做到比专业做 PDF 浏览器的那些软件好。我现在就在用 Skim 读论文,非常轻量顺滑。

如果你想要快速浏览,不编辑标注等,那你可以尝试按空格键,就可以打开预览窗口,就像在 mac 的 Finder 里预览文件一样。

我也同意 Papers3 是最好的,我也非常喜欢,但是很可惜已经不更新了。但是我在使用 Paper3 的时候也没怎么用过这种上面列表下面 PDF 的视图。我想仔细问一下,这样做的好处具体是什么呢?是在一种什么样的工作环境下会进行这样的操作。期待您的回复。

如果还有别的 Paperlib 做的不好的地方,可以随意指出, 谢谢您的建议。
luistrong
2022-09-30 20:56:18 +08:00
@SorryChen #185
https://imgur.com/a/jBmH8RE
这个是我的 papers3 的页面布局,当有大量文献时,很多时候找灵感或者搜索关键词,一篇一篇找过去,pdf 的可视化窗口非常有用,尤其是搜索的时候。还有场景就是一次性下载很多文献批量导入后,这种布局能够很快过一遍,比预览的小窗体验好不少。
个人对于云功能、批注功能用的比较少,文献看多了,基本只是备注一下关键词,另外数据库啥的个人觉得只要能做到文献基本信息的识别就可以了(能够导出引用)。
搜索和下载文献还是交给浏览器吧,毕竟还要登录信息,浏览器的搜索引擎用谷歌和谷歌学术就足够了,一些很冷门的文献也没多少含金量(谷歌一般也都能搜到)。
luistrong
2022-09-30 21:03:38 +08:00
@SorryChen #185 你可以用 papers3 体验一下这种视图,真是好用到飞起,3.4.1 版本的 pdf 窗口可以记忆放大倍数,后面版本的都不行了。
SorryChen
2022-09-30 21:15:26 +08:00
@luistrong 我是知道这个视图的,只是我没感觉出对我个人的用处。我感觉还是工作习惯不同导致的。

关于检索,看起来你的研究领域是材料,跟我计算机差别很大,我想你们领域大部分论文来自 Journal , 而计算机领域大部分论文来自 Conference 。

区别就是,Conference 的发表,想在 google scholar 这些地方收录,很可能这个论文的 idea 已经过时了。。我们领域的论文 idea 更新特别特别快,所以需要非常及时的追新。所以像这些现存的软件的逻辑是,在各大期刊网站点击插件,从网页上抓信息,导入软件。这个时候因为已经都是发表了的论文了,通常 metadata 非常好找。然而,通常我们领域的工作流程都是在 arxiv 预印本 未发表的时候就会关注到一些工作。所以我们导入自己数据库的时机,不是他在各大期刊网站发表收录之后,而是他只有一个草稿 PDF 的时候。等他发表的时候,可能很久都过去了。而且,大量的会议论文不像是 Journal 是没有 DOI 的,这些现存的软件,几乎无法找到元数据。这也就是我做这个软件的初衷。

不同领域的人可能是无法感受到这个痛点的,因为工作流程不一样。
SorryChen
2022-09-30 21:15:46 +08:00
@luistrong 另外 papers3 已经在我的电脑上打不开了。。不支持了。。
SorryChen
2022-09-30 21:24:27 +08:00
@luistrong https://imgur.com/a/x9YxWOg

这就是个很好的对比,上面是 zotero ,下面是 paperlib 。甚至 19 年的回忆论文,zotero 都无法检索到发表信息。
SorryChen
2022-09-30 21:24:44 +08:00
@SorryChen 回忆->会议
luistrong
2022-09-30 21:25:59 +08:00
@SorryChen #189 嗯,确实,不用领域对软件需求差别很大,papers3 的最后那版在 M 芯片上还是能打开的。
SorryChen
2022-09-30 21:27:46 +08:00
@luistrong 确实,只有自己才懂自己的领域,我很懂我的领域,但我不懂别的领域,这是我很头疼的地方。我也不知道该怎么去找不同学科的人去问,心中满意的文献管理软件是什么样的。我认识的朋友学科太有限了。
luistrong
2022-09-30 21:28:59 +08:00
@SorryChen #190 的确,paperlib 界面美观度比 zotero 好很多
SorryChen
2022-10-01 01:50:59 +08:00
@luistrong 进行了一个拙劣的模仿

https://imgur.com/a/5ZB8F4l

😂😂😂
luistrong
2022-10-01 08:23:04 +08:00
@SorryChen #195 牛啊!期待新的版本!👍
luistrong
2022-10-01 08:51:12 +08:00
@SorryChen #195
有了上列表下 pdf 显示的视图后,如果右侧栏能支持调节宽度就好了。因为有时外接显示器,屏幕够大,pdf 的可查看性足够, 有时如果内置屏幕看的话,现在的右侧边栏还是太宽了,pdf 显示区域会受限。现在的右侧边栏显示的信息基本上列表都能体现了,而且现在的右侧边栏下部还有很大的空白,变窄后完全可用。
另外,不知道软件对论文的 support information ( si )如何关联,papers3 的处理方式是可以拖到软件的右下角,可以跟主 pdf 关联。( si 对于工科的论文来说是必备的文件,好一点的期刊 si 的页数会超过正文好几倍,重要性很高)
软件的搜索功能好像不行,高级搜索和普通搜索都无法搜出结果。
SorryChen
2022-10-01 14:12:21 +08:00
@luistrong 如果你是说补充材料的话,直接拖到右侧详情面板就可以了,任何格式都可以连接上。关于搜索,请问你是说在你使用的时候搜索不能用吗?具体表现是如何?
luistrong
2022-10-01 19:44:36 +08:00
@SorryChen #198 就是搜索栏打入一个词后,按下搜索键,没有任何反应。
SorryChen
2022-10-01 20:04:43 +08:00
@luistrong 这实在是太奇怪了,我在很多机子上测试都没这个问题,请问您是什么系统?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/861794

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX