基于这个开源小项目,做哪些受欢迎的 ChatGPT 插件模型?

2023-04-03 13:42:51 +08:00
 829939

本人研二,专业深度学习音频领域研发,去年在校做了一个开源小项目,是关于音频特征提取和分析的,可以针对音频领域的各种业务做原型开发,目前规划的音频领域的研究任务方向:

  1. 智能调音器, 针对吉他弦乐乐器的调音,识别音高和拨动的哪一根琴弦,
  2. 旋律提取,从音乐音频中识别旋律音高轮廓,主要针对人声唱歌主旋律声音的基频提取,
  3. 音轨分离,从音乐音频中分离出人声,钢琴、吉他、鼓、贝斯等多个乐器声音
  4. 和弦估算,识别音乐音频中和弦,和弦类型有大小三、挂 2/4 、属七、属九和弦以及各个类型的转位,包括起始和持续时间
  5. 钢琴转录,针对钢琴乐器音频的复音识别,确定复音的端点、音高组合、持续时间,转录为 midi 或曲谱
  6. .....

如果做成 ChatGPT 插件模型哪些会更受欢迎?这些方向应用场景和需求怎么样?
欢迎大家参与论讨或给出新的方向建议!!! 后续按大家讨论建议汇总, 确认几个研究方向后按优先级逐步开发实现并开源贡献。

项目地址: https://github.com/libAudioFlux/audioFlux

4467 次点击
所在节点    程序员
55 条回复
james0517
2023-04-03 18:07:12 +08:00
@fanjk AMD 做机器学习还是算了:工具链匮乏、库资源匮乏、开发和迭代兼容性的代价较大。
4070 可以看看
stonepy
2023-04-03 18:07:55 +08:00
@829939 好的,谢谢大佬
CMLab
2023-04-03 18:24:08 +08:00
@findex 可以分享一下这款软件,我看之前是否有体验过
chatWell1
2023-04-03 19:58:28 +08:00
@829939 音频指纹深度学习方式如何做,大佬可否给个思路建议?
zw1234
2023-04-03 20:27:46 +08:00
能否用 chatgpt 生成歌词和旋律,然后合成歌曲,ai 写歌...
829939
2023-04-03 21:27:18 +08:00
@chatWell1 音频指纹上面有提到两种方式:1 、基于时频分析的方式,2 、基于深度学习的方式。 都可以用到库里提供的方法提取一些音频特征。
829939
2023-04-03 21:42:08 +08:00
@zw1234 chatGPT 目前应该可以生成歌词和旋律,接着还可以给旋律配乐,目前输出只能是文本形式,更成熟的生产力可能需要更专业的 prompt 和后续 audio 输出的支持。
xbcslzy
2023-04-03 23:03:37 +08:00
看评论区这些如果实现了又要释放一波生产力了, 不过最近 B 站多位博主暂时停更了 要开始反对 AI 了
clemente0620
2023-04-04 10:27:46 +08:00
能做乐器迁移吗? 比如 吉他换成钢琴
chatWell1
2023-04-04 10:43:52 +08:00
@clemente0620 google Magenta 这个项目有你所说的类似功能
olderwang
2023-04-04 18:14:53 +08:00
好奇,是否可以做声音的音色模拟啥的,通过输入目标音频,提取对应的音色,然后赋值给新的视频中对应的音频,感觉这个功能可以做些热门视频本地方言化,在地方论坛或者抖音地方中获取不错的流量
ppxiale
2023-04-04 18:25:22 +08:00
@olderwang 我觉得你这个可以有,小时候我们那边什么士兵突击方言版、各种热门电影的方言版片段都挺火的,不过我觉得这块可能还有个问题不好解决,就是方言对应的语料库这些,类似于语言翻译这块,不仅仅是声音音色识别,口音只是方言的一个特色,很多语义其实也需要解决
olderwang
2023-04-04 18:30:45 +08:00
@ppxiale 嗯,是这样,音频领域和文字领域很多都是相辅相成的,入口出口都有很大价值,能操作的点还是很多的,期待大佬们的作品
insmoin
2023-04-04 21:30:56 +08:00
@CMLab GUI 版 https://github.com/azuwis/pianotrans/ 还原度能达到 90%以上吧, b 站搜 AI 扒谱能搜到很多, 只能是钢琴的
insmoin
2023-04-04 21:58:17 +08:00
@CMLab "给 chat 一个 mp3 , 使用你的插件模型 音轨分离 --->旋律提取(人声)+和弦估算(伴奏)---->钢琴转率(不一定钢琴乐器),这些走通,估计 chat 上会飘起来"

今天看到个 HuggingGPT 通过特定的 prompt 来分解用户需求成不同任务, 调用多种绘画 AI 来实现类似多模态的功能 思路挺不错的 我觉得这个思路可以拿来实现你说的这个
https://www.bilibili.com/video/BV1mT411s7Qr

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/929397

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX