一个科研狗开发的文献管理软件 Paperlib

2022-06-24 04:09:19 +08:00
 SorryChen

我是一个在计算机视觉里蝶泳的科研狗,一个文献管理软件基本是我的刚需。从硕到博这么多年用了各种各样的软件:Papers 、Mendely 、Readcub Papers 、Zotero ,没有一款能让我满意舒服的。


现有的软件

诚然这些软件都是伟大的软件,但是或多或少都有些小问题,比如:

  1. 无法精准的抓取到会议论文的发表情况
  2. 功能做的不咋地,一堆用不上的功能,每年太贵的订阅费 = =
  3. 太丑太丑了,像上个世纪的界面(没错说的就是你 zotero )
  4. ......

我想要的

而我想要的就是一个简简单单的论文管理软件:

  1. 他必须能精准地匹配到会议论文的发表情况。我认为这是一个文献管理软件最重要的功能。其他领域可能看期刊很多,但是像我们领域,大部分论文都是会议论文,我想 NLP 应该跟我们 CV 也差不多。但是会议不像期刊,很多都要很久才有 DOI ,有的甚至没有 DOI ,所以市面上的这些软件,几乎没有一个能很好的精准的匹配会议论文 metadata 的。我想要他精准匹配到是不是发表到 ICLR ICML NIPS ECCV 等会议上。而我不想每次写论文对对着一堆 arxiv publication 一个一个去搜他们发表在哪里的去做校对。
  2. 不需要什么花里胡哨的管理功能,就简单的 Tag ,Folder ,加星,Note 。
  3. 能够方便地进行检索,普通搜索,全文搜索,高级语法搜索,让我在开会时候想跟老师讨论一个论文的时候不需要手忙脚乱的去翻文件夹或者 Google 。。。
  4. 作为计算机行当,虽然 Github 的 star 能够收藏论文的代码仓库,但是并不容易找,更多时候还是去 google 。如果这个软件能帮我自动搜 code repository 然后存在软件里就好了。
  5. 当我准备开始写自己论文的时候,如果有方便的方式一键复制 bibtex 就好了。体验就好像打开 spotlight 输入关键词,直接回车粘贴。
  6. 它有一个简洁的 UI ,清晰的图标,至少看着不是上个世纪的。毕竟颜值就是生产力。

于是,一年多以前,在博士刚开始的时候,我就开始着手自己开发一个,符合上述需求的软件。

跟周围同学分享了一下,大家都觉得挺好用的。之前因为觉得不完美,害怕推广了之后自己没精力维护。经过一年多的打磨,这个软件也伴随我一年多的科研,加两次论文投稿。我已经把大部分功能做到我满意的地步了。所以在这里分享一下,给有同样需要的科研狗们!它就是 Paperlib !


Paperlib

使用简介

亮点

  1. 从 arXiv ,doi.org ,DBLP ,IEEE ,openreview.net ,PaperwithCode ,Google Scholar ,为每一篇论文尽量匹配精确的信息以及代码仓库。
  2. 全文搜索,高级搜索。
  3. 快速导出,一键复制 BibTex 。
  4. 为论文评分,分配标签、文件夹,加星,方便进行分类管理。
  5. 可以云同步数据,macOS win 双平台。
  6. 完全开源。

缺点

  1. 这是按照我一个人的科研习惯打造的,我不确定是否大家用的习惯。
  2. 对比 zotero 这软件,说实话因为自己没怎么用,我可能还不知道它有什么极其强大的功能,也许 Paperlib 这里没有。
  3. 开发者只有我一个人,我无法像大公司那样按时修 Bug 。现在基本是就是我周末没事的时候修一修。(不过自己已经很久没遇到什么恶性 bug 了)
  4. 我的领域是计算机视觉,我不确定其他计算机领域的人,比如 NLP 啊,数据库啊,啥的,能不能准确匹配好论文元数据。如果不准确可以开 Issue ,在软件里我定义了一系列 metadata scrapers ,我们可以一起开发更多的符合计算机领域的。但是目前计划是仅仅覆盖到计算机领域。因为其他领域真的不了解。
  5. Electron 。关于 Electron ,可能大部分人都不喜欢吧。实际上 Paperlib 是有 macOS 原生 swiftUI 版本的 branch 的,完成了一些基础的功能。但是作为一个人开发的软件,平时又要科研,想要维护好 win 和 mac 双平台,实在是太难了。最后我只能转为使用 Electron 。如果有任何喜欢 Paperlib 想接手 swiftUI 版本的同学,我非常欢迎。现在我看了看资源占用实际上也没有很夸张,比 zotero 是小一些的。。。可能因为没那么多乱七八糟的功能吧。。

最后的最后,祝大家科研顺利吧!

网址: https://paperlib.app/en/

Github: https://github.com/GeoffreyChen777/paperlib

15576 次点击
所在节点    分享创造
287 条回复
SorryChen
2022-11-10 21:03:19 +08:00
@Joydeee

1))相对可做,只需要写一个对应的 web importer 就可以了。
2 )不确定可不可以做。知网很封闭,不提供对外 API 。因此没有接口可以调用查询。想做只能像爬虫那样去爬知网,但是我猜知网一定有反爬机制。so 。。。
Joydeee
2022-11-10 21:47:10 +08:00
@SorryChen Zotero 中有知网抓取的插件,也许可以给作者大大一些参考:

https://github.com/l0o0/translators_CN/blob/master/translators/CNKI.js
SorryChen
2022-11-10 21:52:23 +08:00
@Joydeee 我看了这个应该只能完成 1 。1 很简单。难的是 2
Joydeee
2022-11-10 22:22:32 +08:00
@SorryChen 能够实现 1 已能够解决我的需求,并且能够帮助我提高较大的效率,因为毕设需要参考较多的中文学位论文
SorryChen
2022-11-10 22:24:18 +08:00
@Joydeee 这很容易,下个版本加上吧
SorryChen
2022-11-15 01:01:59 +08:00
@Joydeee 你好,请问您是在学校内网使用知网还是学校外的网络。我想知道学校内的知网的 url 是什么,比如这个论文

https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFDAUTO&filename=HBQX202205013&uniplatform=NZKPT&v=uO4w78FZQCVlJS1Dj6wFYIATpeh42a_oLSehfJOCUFUNM2186NNUo6Tb2TZwQ_kh

谢谢。
Joydeee
2022-11-16 09:26:21 +08:00
@SorryChen 您好,我平常使用的是学校内网( IP 登陆的方式),访问的 URL 与您的 URL 基本是相似的,除了最后的“v=”所接的参数值,在每次点击详情时,会略有不同。比如说:

https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CJFD&dbname=CJFDAUTO&filename=HBQX202205013&uniplatform=NZKPT&v=uO4w78FZQCVlJS1Dj6wFYIATpeh42a_oLSehfJOCUFWFic266HwtFOg5fBRhe_XF
SorryChen
2022-11-16 20:14:51 +08:00
@Joydeee 好的谢谢,这个功能大部分我已经完成了。知网列出的类型,除了图书我还没找到弄清楚怎么解析,其他的类型的文章都弄好了。只不过只能导入论文条目,无法下载 PDF 。因为 cnki 只能在校内网下载,我不在国内高校没法研究解析下载链接。。
whywaoxaks
2022-11-17 08:21:46 +08:00
原本是单设备使用,挺完美的。
whywaoxaks
2022-11-17 08:23:55 +08:00
原本是单设备使用,挺完美的。最近改成了多设备,发现同步稍微有点麻烦。如果能用 onedrive 一步搞定就好了。
SorryChen
2022-11-17 18:01:54 +08:00
@whywaoxaks 做不到,onedrive 这种网盘只能同步文件,无法控制数据库文件的冲突合并等。如果没有好的数据库,无法完成高性能的搜索全文搜索等功能,
SorryChen
2022-11-17 18:04:31 +08:00
@whywaoxaks 现在的数据库可以做到两台电脑毫秒级同步操作。且自动合并冲突以及离线修改数据库,复网自动同步。这是其他任何方案都做不到的。
whywaoxaks
2022-11-17 18:41:33 +08:00
@SorryChen 这个技术上的问题,我也能理解。我把 paperlib 推荐给了好几个工科男,但推荐给女性朋友的时候,我就有点含糊了。主要就是这个数据库的设置有点繁琐,尤其对文科女。
SorryChen
2022-11-17 18:50:05 +08:00
@whywaoxaks 确实是这样,不过这是我能找到目前最好的方案了,理论上我可以提供我部署好的云数据库,用户只需要注册个账号登陆就好了。但是我是个穷学生。。Paperlib 只有我一个人做,也没赞助。。所以我技术上可以做但是金钱上没能力。。。如果未来我能有赞助,这个问题也就很好解决了吧。。

事实上如果是朋友间,几个人共享一个云数据库完全可以,我现在和三个同学共享一个,数据个人之间是相互隔离的。免费的 500M 对于存三四个人的论文元数据绰绰有余。
SorryChen
2022-11-20 19:55:32 +08:00
@Joydeee 你好,这个功能推送更新了,你试试合不合适,我几乎不用知网,所以不太清楚各种使用场景。
Joydeee
2022-11-21 08:11:05 +08:00
@SorryChen 真的感谢作者大大!在知网上找到对应的论文之后,使用插件能够成功导入元数据,然后再将自行下载好的 PDF 拖进去就可以了,我的需求解决了哈哈哈
Joydeee
2022-11-22 08:58:04 +08:00
另外再向作者大大提个比较微小的需求,就是界面的窗口尺寸经手动调整之后,重启之后,窗口大小又恢复了初始的尺寸了,请问这个窗口大小可以记录下来然后下次重启还能保持住嘛?
SorryChen
2022-11-22 17:23:07 +08:00
@Joydeee 理论上应该可以
ikn0wzxc
2023-01-04 16:11:23 +08:00
有没有出 ipad 版本的想法
SorryChen
2023-01-04 17:28:14 +08:00
@ikn0wzxc 额精力有限,因为只有我一个人开发,自己平日还有科研压力,短期应该做不到。。😅

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/861794

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX