针对 MIR(音乐信息检索) 领域工程研究概况,下面列出一些全世界最具有影响力的工程成果和相关组织,排名某些情况下可分先后。
lib | 派系(名牌大学) | 组织(大佬、学术、名著) | 语言 |
---|---|---|---|
librosa | 美国纽约大学 NYU | Rosa 实验室 | Python |
aubio | 英国 QueenMary 大学 | C4DM 小组 | C/Python |
essentia | 西班牙 UPF 大学 | MTG 小组 | C++/Python |
madmom | 奥地利 JKU 大学 | CP 研究所 | Python |
- | 德国 FAU 大学 | AudioLabs 实验室 | - |
audioFlux | 中国 JLD 大学(家里蹲) | 校内码农 | C/Python |
注:
librosa,美国出品,目前业界内常用的库,其过程命令式的接口实现设计,方便易用、易理解的同时,也加剧了其性能短板,大规模数据跑起来特别慢。
Rosa 实验室,大佬们的论文和各种资源令人目不暇接,但这在美国高校中只是冰山一角,整体反映出其行业背后“教研产创”生态的强壮和勃勃生机。
aubio,更确切的应该是 qm-dsp 才是 C4DM 的项目,Chris Cannam 大神出品,偏向 mir/onset 这一块,可惜关注度不高,aubio 算是其简化版本,却打出一片名声,由于是简化版本,工具感较重一些,原版本相对丰富的音频特征并不突出,不太适合研发使用。
英国作为老牌资本主义,QueenMary 大学产出的 Sonic/Vamp 业界也是赫赫有名,音频领域积累十分雄厚,和美国某种程度上不分伯仲,留学政策又相对友好,有意向计算机音频、音乐领域的同学,十分建议到此取经。
essentia,其 MTG 小组也是 Vamp 插件的重量级产出方,当前库社区较活跃一些,功能上音频特征更全面一些,支持移动端,但整个设计体系感较弱,像一锅乱炖,使用上相比其它库不太方便,和 nn 有部分耦合。
madmom,mir/onset 这块特别出色,但整体耦合 nn 相关。
AudioLabs 实验室,工程上较为松散,缺乏有代表性的库,但每一小块拿出来,都是世界顶级水准,做音频这个行业,无论理论还是工程实践,其资源都是干货满满。
audioFlux,音频特征较为全面,支持移动端,提供尽可能细粒度、体系化的特征维度和组合,但某些变换的逆操作尚未实现。
开源无国界,开源者有自己的国界
前两天发布了一篇名为“这个小项目,上周被国外 AI 新闻网站报道,前些天又上了 github 热榜”的帖子,没想到引起了一些关注,甚至再次进入了 Github Trending !在这里感谢各位 V2 大佬们的支持,你们的支持给了我很大的动力和信心,让我能够继续完善和优化这个小项目。
从大家的评论中可以看出,V2 社区里有不少关注音频、数字信号领域的研究者或者从事相关业务的人。有人提到了降噪音、音频驱动马达振动、乐器调音器、孤立词识别、ECG 信号分类、音源分离等业务问题。当然,audioFlux 能够做的不仅仅是这些,如果大家有其他数字信号、深度学习或具体业务方面的问题,欢迎随时与我讨论。
同时,也非常感谢大家提出的宝贵意见和建议,我会尽快整理并加入到 TodoList 中,以便更好地改进和完善这个小项目。再次感谢各位的支持和关注!
如果你对这个项目感兴趣或有意向加入其中,非常欢迎你的加入,和我一起完善这个项目。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.