做了一个自然语音生成的 AI 模型，大家提点意见

2023-10-24 10:09:16 +08:00

Simon95

自己做了一个语音生成的网站，www.zideai.com
不是普通的文字转语音，支持克隆声线，并且生成出来的是自然语音，就是没有机械感。
语音模型是自己写的，自己训练的
和大模型结合做了个 Demo ，感觉这种交互模态不错，起码很自然。演示视频 https://www.bilibili.com/video/BV1tg4y1d7Ee/
网站上也可以体验下，但部署的 GPU 有限，有可能进不去。
用的 webrtc 直连 GPU ，延迟在 3s 左右，后面再优化语音模型可以做到对话零延迟。
优势：
1. 接近于真人的自然发声，包括停顿，韵律等。
2. 可以用一段 3s 的语音克隆声线，视频里有展示。
3. 全中文数据训练的，所以说话没有老外的感觉。
4. 模型可以支持多语言，就是用日语的声音生成中文的语音（暂时还没训练）。
缺点：
1. 生成可能还不太稳定，声线容易跑偏。
2. 很耗 GPU ，是传统语音生成的很多倍。
后续：
训练成本太高了，一个人做吃不消。。。不知道有没有前景，可以的话出一些硬件。比如智能音箱？和手办对话？大家给点意见。

3951 次点击

所在节点

分享创造

51 条回复

LDa

2023-10-24 11:02:35 +08:00

天这个太自然了！

passerby233

2023-10-24 11:04:26 +08:00

棒！

maocat

2023-10-24 11:06:18 +08:00

虽然是痴心妄想，但我还是想问，开源吗/dog

Simon95

2023-10-24 11:08:08 +08:00

@maocat 我也想开，但是和大佬们的没法比，主要是数据比较多而已。。。

8X96ZltB8D7WggD7

2023-10-24 11:14:35 +08:00

训练成高的化，多买点显卡，本地训练不行吗，比云 GPU 便宜很多吧

Simon95

2023-10-24 11:18:34 +08:00

@scp3041 买不起，百万起的东西。

qweruiop

2023-10-24 13:01:38 +08:00

op 开源下呗，学习学习。。。

xming

2023-10-24 13:30:36 +08:00

英语能行吗

jifengg

2023-10-24 13:31:05 +08:00

中文效果很好，继续关注

wpyfawkes

2023-10-24 13:38:55 +08:00

发音挺自然,但是断句和停顿不是那么自然.😂
期待楼主更加牛 X 的版本.

shadio

2023-10-24 13:52:02 +08:00

语音接近真人，但停顿轻重这些还不太准备。不过已经很不错了。支持 ssml 吗，方便用户后续微调。

linshuizhaoying

2023-10-24 14:23:39 +08:00

就这个语气一直都是很低沉的。。。其他表现还可以的

Metre

2023-10-24 14:43:19 +08:00

前几天看了 heygen ，看完之后我就不想让我小孩学习外语了。。。

isSamle

2023-10-24 16:00:05 +08:00

这很容易被利用吧，骚扰电话+获取录音+AI 生成+各种非法使用

zoharSoul

2023-10-24 16:12:16 +08:00

可以当成 tts 用吗?

asrpub

2023-10-24 16:21:42 +08:00

角色用的是固定的 prompt 吧？

zagfai

2023-10-24 18:56:30 +08:00

说不来粤语嘿嘿

Simon95

2023-10-24 19:31:36 +08:00

@shadio 估计支持 ssml 难度比较大，因为有上下文理解能力，就是会根据文本信息和声音信息自己生成情绪，语气等

Simon95

2023-10-24 19:32:18 +08:00

@zoharSoul 就是 tts ，就是应用场景估计和传统的有区别，需要好好想想

Simon95

2023-10-24 19:33:04 +08:00

@zagfai 小众方言难做啊，我就是说粤语的，配音没听出来一口广普味？

第 1 页／共 3 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/984779

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX