做了一个自然语音生成的 AI 模型,大家提点意见

2023-10-24 10:09:16 +08:00
 Simon95
自己做了一个语音生成的网站,www.zideai.com
不是普通的文字转语音,支持克隆声线,并且生成出来的是自然语音,就是没有机械感。
语音模型是自己写的,自己训练的
和大模型结合做了个 Demo ,感觉这种交互模态不错,起码很自然。演示视频 https://www.bilibili.com/video/BV1tg4y1d7Ee/
网站上也可以体验下,但部署的 GPU 有限,有可能进不去。
用的 webrtc 直连 GPU ,延迟在 3s 左右,后面再优化语音模型可以做到对话零延迟。
优势:
1. 接近于真人的自然发声,包括停顿,韵律等。
2. 可以用一段 3s 的语音克隆声线,视频里有展示。
3. 全中文数据训练的,所以说话没有老外的感觉。
4. 模型可以支持多语言,就是用日语的声音生成中文的语音(暂时还没训练)。
缺点:
1. 生成可能还不太稳定,声线容易跑偏。
2. 很耗 GPU ,是传统语音生成的很多倍。
后续:
训练成本太高了,一个人做吃不消。。。不知道有没有前景,可以的话出一些硬件。比如智能音箱?和手办对话?大家给点意见。
3795 次点击
所在节点    分享创造
51 条回复
Simon95
2023-10-26 09:53:02 +08:00
@sanebow 这是不同的技术分支,起源是 AudioLM 为代表的一系列论文
1044523901
2023-10-26 22:22:39 +08:00
效果不错,干倒语音生成 TTS 厂商。
fenglingyu
2023-10-27 10:40:47 +08:00
很厉害
DanielNg23
2023-10-27 21:03:42 +08:00
太牛了!要不要来我们这边打一下黑客马拉松😊,线上/线下均可参加😄,来线下能提供 7 天住宿顺便来大理到处玩玩⛰️,最高有 AWS 提供的 2.5 万美金算力支持💰💰💰 https://mp.weixin.qq.com/s/MTqByjk8j_ekAMfcxgtP1g
blackboar
2023-10-30 18:39:14 +08:00
感觉可以做电诈供应商啊哈哈
zoharSoul
2023-12-18 21:45:24 +08:00
@Simon95 #22 并发怎么样啊 大佬 有比较具体的指标吗? 比如什么样配置的机器可以支持什么程度的并发, tp99 大概多少
Miller5991
360 天前
试了一下感觉还不错,值得鼓励
Miller5991
360 天前
op 还会持续迭代吗?感觉还是有点不太自然,不过换气很流畅
irrwood
352 天前
感觉很棒啊!
Simon95
347 天前
@Miller5991 已经更新了,有兴趣可以试试
xljiulong2031
281 天前
楼主现在用不了了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/984779

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX