音频文件生成乐谱的工具有吗?

2023-09-06 09:53:34 +08:00
 junchenghe
现在在扒谱的时候,花费了太多时间,所以想有没有一种工具可以直接通过上传音频文件,在选择某种乐器类型,提取出音乐特征,最终生成乐谱,同时可以在线进行编辑的一个工具呢?

在找了很多工具之后,有的工具是可以提供部分功能,暂未找到可以在一个工具上一键生成的,所以我现在想是不是可以开发这么一套工具。当然我在查阅了很多资料后,发现在提取特征这一步很有难度。我理解大概处理流程如下,如有非常了解的朋友,我们可以聊聊!

1.音频文件上传,根据选择需要分离的音频类型,分离出其中的音频,如(鼓、人声、吉他、贝斯),当然这一步可能是需要对音频降噪、增强等
2.根据分离出的音频,提取其中的音乐特征,提取的方式有多种(短时傅里叶变换、离散余弦变换、离散小波变换、梅尔频谱和梅尔倒谱、恒 Q 变换)等算法,当然还有很多的开源库:librosa 、essentia 等
3.通过提取出的音乐特征与乐谱中需要表示的音乐标记作映射
4.最后通过这些音乐特征来绘制乐谱,生成乐谱。

当然这里面最难的肯定是对音乐特征的提取,由于在音频中可能会参杂很多的其他杂音,导致通过人工智能、机器学习也很难去分析出其中的音乐特征值。有兴趣的话,可以邮件联系我,我们一起探讨下吧!

email:aGVqdW5jaGVuZzk0QGdtYWlsLmNvbQ==
2719 次点击
所在节点    程序员
34 条回复
wekecher
2023-09-06 10:44:46 +08:00
AudioScore Ultimate 、ScoreCloud 呢?
murmur
2023-09-06 10:48:27 +08:00
别探讨了,现在最新的 ai 模型已经能扒钢琴、鼓、人声、吉他、贝斯了,然后单一乐器转换 midi 就很好了

不过依然需要显卡

我不知道你的理解有什么问题,但是我知道最新的模型总共有 40gb
cq65617875
2023-09-06 10:49:11 +08:00
@murmur 来个地址 我观摩观摩?
murmur
2023-09-06 10:50:20 +08:00
@cq65617875 uvrs 还是 uvr5 ,这个因为软件是个图片我也认不清楚,我下载的是 4g 的基本版,群友说下载完整模型是 40g

实测 5800u 跑一首歌需要 10 分钟,3050 不认卡没法用 gpu 加速
cnuser002
2023-09-06 11:22:46 +08:00
@murmur 谢谢,很感兴趣,我去试试
lvtuyukuai
2023-09-06 11:30:43 +08:00
ispinfx
2023-09-06 11:31:26 +08:00
转可用谱还是很难的,出来后离不开一些人工的修改。当然如果你只是随便要具能听的 MIDI ,当我没说。。
tingyunsay
2023-09-06 11:58:12 +08:00
转出来了,和弦怎么配更还原,这些都是问题,简单的和弦自己也能听出来,扒谱本身就是根据每个人的思路去定制化的东西,你要通用那就只能给出最基础的和弦音了吧
murmur
2023-09-06 11:58:42 +08:00
@lvtuyukuai UVR5 是有二级模型的,先用 1 级模型分离人声和伴奏,然后二级模型再拆解乐器,目前最好的模型 cpu 跑一次要 1 个小时,所以才要显卡加速,建议直接下网友弄好的网盘版系在
junchenghe
2023-09-06 12:03:08 +08:00
@murmur 有链接吗?您说的 uvr5 这个是做音频分离,但是分离出的乐器音频到分析其中的音乐特征的生成乐谱的,我暂时还没看到有的,您有知道的吗?
junchenghe
2023-09-06 12:05:36 +08:00
@tingyunsay 是的,像吉他这种和声还原是很难的,每个人编排都不一样,但是像鼓,都是标准记谱,应该是可以做的
murmur
2023-09-06 12:21:35 +08:00
junchenghe
2023-09-06 13:10:22 +08:00
@murmur 好的,感谢
iX8NEGGn
2023-09-06 14:15:12 +08:00
太难了,钢琴应该是最好处理的了,都无法做到。
比如 2020 年时字节就发了篇钢琴转录的论文,并提供了代码,准确度有百分之九十五以上,虽然生成的 midi 用来听还不错,但想生成人类友好可读的谱子,感觉很难。
tingyunsay
2023-09-06 14:16:30 +08:00
@junchenghe 我倒是真希望有这么个好用的工具出来,现在找一张参考性还不错的谱子太难了,要自己扒谱太耗费时间,mark 一下,楼主加油
iX8NEGGn
2023-09-06 14:42:03 +08:00
音轨分离和音符转录反倒不是最难的,已经有较为成熟的开源项目,最难的反倒是最后一步,如何将提取到的音符的音高和时值转化为谱子。
因为人类弹奏时的时值是不标准的,比如同样是四分音符,前一个按下的可能是 0.5 秒,后一个按下的是 0.3 秒,很难确定该把它量化成四分音符还是十六分音符,时值更短的音符就更会出现这种情况了,这会导致音符对不齐,得到的谱子是错乱的。
murmur
2023-09-06 14:52:13 +08:00
@tingyunsay 其实可以花钱买,yamaha music data 可以买日语歌,tw 的什么著出版社可以买流行歌的谱子,基本都是 1usd 一张的价格
murmur
2023-09-06 14:53:36 +08:00
@iX8NEGGn 这不就是标准的量化么,大概是 15 年前做 midi 的时候还一群人吹牛逼说人的演奏不准确所以 midi 的音符也不应该是固定位置和固定量化,后来这群吹逼的人闭嘴之后所有的乐器都是做了量化的
murmur
2023-09-06 14:55:39 +08:00
这里典型的其实就是精忠报国,这首歌你无论机器测速还是自己 tap tempo 都是测不出整数值的,说明鼓手可能是真的手打出来,后面的流行歌随便找个测速软件都能测出整数

有个例外是锦鲤抄,按 3/4 测速和 6/8 是不一样的,一个是 87.5 一个是 175
iX8NEGGn
2023-09-06 15:00:43 +08:00
@murmur 你能推荐一个将人类弹奏的 midi 量化得比较好的软件吗,就钢琴流行曲五六级级别的曲子就行,我试了很多,没一个量化后能达到友好可读级别的,更别说古典奏鸣曲哪些难度的了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/971299

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX