分享一个音频 AIGC 开源项目,适合想要转行 AIGC 方向的同学

2023-12-25 10:02:37 +08:00
 gues

Amphion:一个开源的音频、音乐和语音生成项目。由大名鼎鼎的 OpenMMLab 联合香港中文大学(深圳)联合推出的。硅谷大佬也给这个项目带货,打了 A+++级: https://www.bilibili.com/video/BV18w411V7iq/

支持如下功能:

GitHub:github.com/open-mmlab/Amphion

以上功能均可在 HuggingFace 上使用。

地址:huggingface.co/amphion

2718 次点击
所在节点    程序员
17 条回复
raycool
2023-12-25 10:22:19 +08:00
不错,现在 TTS 的研究也越来越多了
对 openai 的 TTS 效果还是蛮感兴趣的,感觉是目前天花板。
wswlaz
2023-12-25 10:22:37 +08:00
TTS 不支持中文吗
gues
2023-12-25 10:53:01 +08:00
@wswlaz 可以提要求来支持中文
gues
2023-12-25 10:53:32 +08:00
@raycool 是的,现在 TTS 和音效生成、音乐生成都很火,很多应用场景和工作机会,还没那么卷
yao978318542
2023-12-25 10:57:04 +08:00
好像不支持中文啊
flyqie
2023-12-25 11:53:55 +08:00
@raycool #1

目前 tts 天花板应该是微软吧?
gues
2023-12-25 12:02:30 +08:00
@yao978318542 有兴趣的话,可以上手来加一下。我去反馈给开源团队
capgrey
2023-12-25 13:34:29 +08:00
GitHub 仓库演示的《稻香》,我哭死😭
qW7bo2FbzbC0
2023-12-25 13:47:25 +08:00
顺路问下,声音模型怎么训练?我看 github 上 svc 项目很多都声明不适用声音模型训练,而国内很多文章或者教程都是用 sovit 或者 svc 来出效果?
Pepega
2023-12-25 14:44:13 +08:00
很感兴趣,我目前看到的 tts 最赚钱的例子是直播打赏,请问训练出个性化声音的 tts 成本高吗,让用户自己训练自己的 tts 呢?
link:dHRzLm1vbnN0ZXI=
dorm
2023-12-25 14:58:32 +08:00
适用了一下,声音非常沙哑,就像是嗓子有痰似的
AdminRoot123
2023-12-25 15:19:42 +08:00
用了一下中文效果贼差 文字读的都不正确很长的噪音
gues
2023-12-25 21:38:51 +08:00
@AdminRoot123 模型应该还没有用中文数据训练过
gues
2023-12-25 21:39:02 +08:00
@dorm 哪个声音?
dorm
2023-12-26 09:37:37 +08:00
@gues singing_voice_conversion 上传了一个《向天再借五百年》 target Singer 随便选一个都是很沙哑的
gues
2023-12-27 09:58:11 +08:00
@dorm 音频可以私信发给我一下嘛? 我们看看。系统还在升级,1 月份会有一个更有的版本
dorm
2023-12-27 13:49:07 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1003122

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX