基于这个开源小项目，做哪些受欢迎的 ChatGPT 插件模型？

本人研二，专业深度学习音频领域研发，去年在校做了一个开源小项目，是关于音频特征提取和分析的，可以针对音频领域的各种业务做原型开发，目前规划的音频领域的研究任务方向：

智能调音器，针对吉他弦乐乐器的调音，识别音高和拨动的哪一根琴弦，
旋律提取，从音乐音频中识别旋律音高轮廓，主要针对人声唱歌主旋律声音的基频提取，
音轨分离，从音乐音频中分离出人声，钢琴、吉他、鼓、贝斯等多个乐器声音
和弦估算，识别音乐音频中和弦，和弦类型有大小三、挂 2/4 、属七、属九和弦以及各个类型的转位，包括起始和持续时间
钢琴转录，针对钢琴乐器音频的复音识别，确定复音的端点、音高组合、持续时间，转录为 midi 或曲谱
.....

如果做成 ChatGPT 插件模型哪些会更受欢迎？这些方向应用场景和需求怎么样？
欢迎大家参与论讨或给出新的方向建议！！！后续按大家讨论建议汇总，确认几个研究方向后按优先级逐步开发实现并开源贡献。

项目地址： https://github.com/libAudioFlux/audioFlux

olderwang

2023-04-04 18:14:53 +08:00

好奇，是否可以做声音的音色模拟啥的，通过输入目标音频，提取对应的音色，然后赋值给新的视频中对应的音频，感觉这个功能可以做些热门视频本地方言化，在地方论坛或者抖音地方中获取不错的流量

ppxiale

2023-04-04 18:25:22 +08:00

@olderwang 我觉得你这个可以有，小时候我们那边什么士兵突击方言版、各种热门电影的方言版片段都挺火的，不过我觉得这块可能还有个问题不好解决，就是方言对应的语料库这些，类似于语言翻译这块，不仅仅是声音音色识别，口音只是方言的一个特色，很多语义其实也需要解决

insmoin

2023-04-04 21:58:17 +08:00

@CMLab "给 chat 一个 mp3 , 使用你的插件模型音轨分离 --->旋律提取（人声）+和弦估算（伴奏）---->钢琴转率（不一定钢琴乐器），这些走通，估计 chat 上会飘起来"

今天看到个 HuggingGPT 通过特定的 prompt 来分解用户需求成不同任务, 调用多种绘画 AI 来实现类似多模态的功能思路挺不错的我觉得这个思路可以拿来实现你说的这个
https://www.bilibili.com/video/BV1mT411s7Qr

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/929397

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.