分享一个音频 AIGC 开源项目，适合想要转行 AIGC 方向的同学

2023-12-25 10:02:37 +08:00

gues

Amphion：一个开源的音频、音乐和语音生成项目。由大名鼎鼎的 OpenMMLab 联合香港中文大学（深圳）联合推出的。硅谷大佬也给这个项目带货，打了 A+++级： https://www.bilibili.com/video/BV18w411V7iq/

支持如下功能：

文本转语音（ TTS ）：高性能，支持主流模型及架构，可生成自然的声音。
歌声转换（ SVC ）：可将某人歌声转换成其他人歌声，内置张学友、陈奕迅、王菲等已训练好的声音。
文本转音频（ TTA ）：可通过文本提示，生成逼真的声效、语音以及音乐，类似于 AudioLDM 。

GitHub：github.com/open-mmlab/Amphion

以上功能均可在 HuggingFace 上使用。

地址：huggingface.co/amphion

2718 次点击

所在节点

程序员

17 条回复

raycool

2023-12-25 10:22:19 +08:00

不错，现在 TTS 的研究也越来越多了
对 openai 的 TTS 效果还是蛮感兴趣的，感觉是目前天花板。

wswlaz

2023-12-25 10:22:37 +08:00

TTS 不支持中文吗

gues

2023-12-25 10:53:01 +08:00

@wswlaz 可以提要求来支持中文

gues

2023-12-25 10:53:32 +08:00

@raycool 是的，现在 TTS 和音效生成、音乐生成都很火，很多应用场景和工作机会，还没那么卷

yao978318542

2023-12-25 10:57:04 +08:00

好像不支持中文啊

flyqie

2023-12-25 11:53:55 +08:00

@raycool #1

目前 tts 天花板应该是微软吧？

gues

2023-12-25 12:02:30 +08:00

@yao978318542 有兴趣的话，可以上手来加一下。我去反馈给开源团队

capgrey

2023-12-25 13:34:29 +08:00

GitHub 仓库演示的《稻香》，我哭死😭

qW7bo2FbzbC0

2023-12-25 13:47:25 +08:00

顺路问下，声音模型怎么训练？我看 github 上 svc 项目很多都声明不适用声音模型训练，而国内很多文章或者教程都是用 sovit 或者 svc 来出效果？

Pepega

2023-12-25 14:44:13 +08:00

很感兴趣，我目前看到的 tts 最赚钱的例子是直播打赏，请问训练出个性化声音的 tts 成本高吗，让用户自己训练自己的 tts 呢？
link：dHRzLm1vbnN0ZXI=

dorm

2023-12-25 14:58:32 +08:00

适用了一下，声音非常沙哑，就像是嗓子有痰似的

AdminRoot123

2023-12-25 15:19:42 +08:00

用了一下中文效果贼差文字读的都不正确很长的噪音

gues

2023-12-25 21:38:51 +08:00

@AdminRoot123 模型应该还没有用中文数据训练过

gues

2023-12-25 21:39:02 +08:00

@dorm 哪个声音？

dorm

2023-12-26 09:37:37 +08:00

@gues singing_voice_conversion 上传了一个《向天再借五百年》 target Singer 随便选一个都是很沙哑的

gues

2023-12-27 09:58:11 +08:00

@dorm 音频可以私信发给我一下嘛？我们看看。系统还在升级，1 月份会有一个更有的版本

dorm

2023-12-27 13:49:07 +08:00

@gues https://file.io/PPaCceZyAqhS

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1003122

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.