一个科研狗开发的文献管理软件 Paperlib

2022-06-24 04:09:19 +08:00
 SorryChen

我是一个在计算机视觉里蝶泳的科研狗,一个文献管理软件基本是我的刚需。从硕到博这么多年用了各种各样的软件:Papers 、Mendely 、Readcub Papers 、Zotero ,没有一款能让我满意舒服的。


现有的软件

诚然这些软件都是伟大的软件,但是或多或少都有些小问题,比如:

  1. 无法精准的抓取到会议论文的发表情况
  2. 功能做的不咋地,一堆用不上的功能,每年太贵的订阅费 = =
  3. 太丑太丑了,像上个世纪的界面(没错说的就是你 zotero )
  4. ......

我想要的

而我想要的就是一个简简单单的论文管理软件:

  1. 他必须能精准地匹配到会议论文的发表情况。我认为这是一个文献管理软件最重要的功能。其他领域可能看期刊很多,但是像我们领域,大部分论文都是会议论文,我想 NLP 应该跟我们 CV 也差不多。但是会议不像期刊,很多都要很久才有 DOI ,有的甚至没有 DOI ,所以市面上的这些软件,几乎没有一个能很好的精准的匹配会议论文 metadata 的。我想要他精准匹配到是不是发表到 ICLR ICML NIPS ECCV 等会议上。而我不想每次写论文对对着一堆 arxiv publication 一个一个去搜他们发表在哪里的去做校对。
  2. 不需要什么花里胡哨的管理功能,就简单的 Tag ,Folder ,加星,Note 。
  3. 能够方便地进行检索,普通搜索,全文搜索,高级语法搜索,让我在开会时候想跟老师讨论一个论文的时候不需要手忙脚乱的去翻文件夹或者 Google 。。。
  4. 作为计算机行当,虽然 Github 的 star 能够收藏论文的代码仓库,但是并不容易找,更多时候还是去 google 。如果这个软件能帮我自动搜 code repository 然后存在软件里就好了。
  5. 当我准备开始写自己论文的时候,如果有方便的方式一键复制 bibtex 就好了。体验就好像打开 spotlight 输入关键词,直接回车粘贴。
  6. 它有一个简洁的 UI ,清晰的图标,至少看着不是上个世纪的。毕竟颜值就是生产力。

于是,一年多以前,在博士刚开始的时候,我就开始着手自己开发一个,符合上述需求的软件。

跟周围同学分享了一下,大家都觉得挺好用的。之前因为觉得不完美,害怕推广了之后自己没精力维护。经过一年多的打磨,这个软件也伴随我一年多的科研,加两次论文投稿。我已经把大部分功能做到我满意的地步了。所以在这里分享一下,给有同样需要的科研狗们!它就是 Paperlib !


Paperlib

使用简介

亮点

  1. 从 arXiv ,doi.org ,DBLP ,IEEE ,openreview.net ,PaperwithCode ,Google Scholar ,为每一篇论文尽量匹配精确的信息以及代码仓库。
  2. 全文搜索,高级搜索。
  3. 快速导出,一键复制 BibTex 。
  4. 为论文评分,分配标签、文件夹,加星,方便进行分类管理。
  5. 可以云同步数据,macOS win 双平台。
  6. 完全开源。

缺点

  1. 这是按照我一个人的科研习惯打造的,我不确定是否大家用的习惯。
  2. 对比 zotero 这软件,说实话因为自己没怎么用,我可能还不知道它有什么极其强大的功能,也许 Paperlib 这里没有。
  3. 开发者只有我一个人,我无法像大公司那样按时修 Bug 。现在基本是就是我周末没事的时候修一修。(不过自己已经很久没遇到什么恶性 bug 了)
  4. 我的领域是计算机视觉,我不确定其他计算机领域的人,比如 NLP 啊,数据库啊,啥的,能不能准确匹配好论文元数据。如果不准确可以开 Issue ,在软件里我定义了一系列 metadata scrapers ,我们可以一起开发更多的符合计算机领域的。但是目前计划是仅仅覆盖到计算机领域。因为其他领域真的不了解。
  5. Electron 。关于 Electron ,可能大部分人都不喜欢吧。实际上 Paperlib 是有 macOS 原生 swiftUI 版本的 branch 的,完成了一些基础的功能。但是作为一个人开发的软件,平时又要科研,想要维护好 win 和 mac 双平台,实在是太难了。最后我只能转为使用 Electron 。如果有任何喜欢 Paperlib 想接手 swiftUI 版本的同学,我非常欢迎。现在我看了看资源占用实际上也没有很夸张,比 zotero 是小一些的。。。可能因为没那么多乱七八糟的功能吧。。

最后的最后,祝大家科研顺利吧!

网址: https://paperlib.app/en/

Github: https://github.com/GeoffreyChen777/paperlib

15563 次点击
所在节点    分享创造
287 条回复
SorryChen
2022-06-24 17:10:22 +08:00
@CaptainD 你看左上角,他在转圈么,左下角,有提示在什么 scraper 抓取嘛?我猜测是不是网络不好的问题,有最大 timeout 的,如果网络不好等一会应该会有失败提示
jaylong
2022-06-24 17:12:13 +08:00
对生物领域论文匹配 meta 效果不太好,但还是要赞一下楼主的创作和分享精神。
SorryChen
2022-06-24 17:14:08 +08:00
@jaylong 这个问题肯定啦。。。因为我是 CV 领域的,所以我不太知道别的领域应该去哪里找论文数据。现有的 scraper 都是我们这边领域的,像 DBLP CVF IEEE 啥的,如果你愿意贡献你们领域的 scraper 代码,欢迎提 issue ,scraper 写起来并不难,可以改造成生物版本的 paperlib ~
ttgo
2022-06-24 17:24:11 +08:00
昨天我记得只有十几二十个星,现在已经小 100 了 腻害
SorryChen
2022-06-24 17:26:50 +08:00
@ttgo 发帖的时候,是 10 个星,都是亲友团,现在承蒙大家厚爱,成为了我最多 star 的项目,感恩
menc
2022-06-24 17:27:13 +08:00
请问除了 tag ,能不能支持加一些备注给 paper 呢,paper 多了有时候可能需要写一两句话备忘,比如 key idea 或者哪里有坑之类的(
SorryChen
2022-06-24 17:28:12 +08:00
@menc 你的这个想法,跟我需求很像哈哈,你点开编辑,下面的 note 就是这个作用啦,我也喜欢一句话总结一个论文哈哈
CaptainD
2022-06-24 17:32:20 +08:00
@SorryChen #81 刚才应该是我拖拽的位置不对,我拖到了 folders 下面,我拖到中间位置可以下载,但是出了新的问题

PDFScraper error: MissingPDFException: Missing PDF

我拖的是一个普通的 PDF ,可以正常打开的
SorryChen
2022-06-24 17:33:48 +08:00
@CaptainD 哈。。。这么奇怪的问题,感觉是读取不到你的 PDF ,你是 mac ?还是 win ?难道是权限问题?如果不介意,可以加个微信我详细排查下么? vx base64:Z2VvZmZyZXljaGVuNzc3
CaptainD
2022-06-24 17:52:48 +08:00
@SorryChen #89 这个问题我在 mac 和 PC 都发现了,可能是因为我的 PDF 名称有特殊符号导致读取失败,我改名之后可以正常读取,但超时没有找到结果,可能是因为期刊比较老了,我换了几篇其他的都能正常工作,非常感谢做出这个工具
SorryChen
2022-06-24 17:54:04 +08:00
@CaptainD 哈是这样哦。。可能属于不太常见的文章题目我这里没遇到过,如果不介意的话,能分享下那个文章的名字嘛,我尽量去修复这个问题。
CaptainD
2022-06-24 18:00:43 +08:00
@SorryChen #91 是这篇文章,可能比较老了且专业差距有点大,不用太在意这个问题~
https://onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291099-1085%28199805%2912%3A6%3C823%3A%3AAID-HYP656%3E3.0.CO%3B2-Z
SorryChen
2022-06-24 18:16:02 +08:00
@CaptainD 我尝试了这个论文,原因是因为它的封面上的标题,和他真正发表的标题不一样,所以,最终搜到 google scholar scraper 依旧失败了,事实上手动改成全名,然后重新 scrape 一下就搜到了。但是也让我发现了一个 google scholar 里面的 bug 就是 publication time 没搜索到,下个版本会修复。
allAboutDbmss
2022-06-24 18:45:51 +08:00
可以有一个网页版本吗?
SorryChen
2022-06-24 18:47:39 +08:00
@allAboutDbmss 改网页并不难,但是网页版有一个大问题是,我不知道怎么处理和 PDF 文件的关系,因为这个软件,是和 PDF 强相关的。如果网页的话,PDF 存在哪呢,如果用 PWA 技术,我不知道这个技术的文件读取啥的功能做的如何了。
admin926
2022-06-24 18:55:05 +08:00
UI 很漂亮,支持作者,用用看,一直用的 zotero ,你不说我还没发现界面的确是丑了点,哈哈哈哈
SorryChen
2022-06-24 18:56:52 +08:00
@admin926 非常需要 zotero 深度用户来对比哈,欢迎一切意见建议
ElsaGranger
2022-06-24 18:56:54 +08:00
可能会有 iOS 的版本吗,想在 iPad 上面做笔记
SorryChen
2022-06-24 18:58:13 +08:00
@ElsaGranger 难度有点大了,如果有更多的开发者加入才有可能吧,一个人做不来那么多。。而且我自己也得科研。。

我几乎没用过 ipad 看论文,所以没什么这方面的需求,看论文都是用电脑看的。
c0pper
2022-06-24 19:01:08 +08:00
老哥能说一下是怎么抽时间做的?怎么我搞 cv 是赶一个会议 ddl 到赶另一个会议 ddl

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/861794

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX