做了一个自然语音生成的 AI 模型,大家提点意见

2023-10-24 10:09:16 +08:00
 Simon95
自己做了一个语音生成的网站,www.zideai.com
不是普通的文字转语音,支持克隆声线,并且生成出来的是自然语音,就是没有机械感。
语音模型是自己写的,自己训练的
和大模型结合做了个 Demo ,感觉这种交互模态不错,起码很自然。演示视频 https://www.bilibili.com/video/BV1tg4y1d7Ee/
网站上也可以体验下,但部署的 GPU 有限,有可能进不去。
用的 webrtc 直连 GPU ,延迟在 3s 左右,后面再优化语音模型可以做到对话零延迟。
优势:
1. 接近于真人的自然发声,包括停顿,韵律等。
2. 可以用一段 3s 的语音克隆声线,视频里有展示。
3. 全中文数据训练的,所以说话没有老外的感觉。
4. 模型可以支持多语言,就是用日语的声音生成中文的语音(暂时还没训练)。
缺点:
1. 生成可能还不太稳定,声线容易跑偏。
2. 很耗 GPU ,是传统语音生成的很多倍。
后续:
训练成本太高了,一个人做吃不消。。。不知道有没有前景,可以的话出一些硬件。比如智能音箱?和手办对话?大家给点意见。
3795 次点击
所在节点    分享创造
51 条回复
zoharSoul
2023-10-24 19:52:42 +08:00
@Simon95 #19 感觉用作听书不错啊, 就是不知道速度和价格怎么样
Simon95
2023-10-24 20:12:10 +08:00
@zoharSoul 速度实时没问题,最后价格一个小时语音估计要两块钱左右,现在是免费的。
zoharSoul
2023-10-24 20:17:18 +08:00
@Simon95 #22 明白了, 到时候说不定有机会用用 hah
starcode
2023-10-24 20:26:25 +08:00
可以合作合作,我有一个录音的 APP ,后续需要录音转文字 API 和文字转录音 API 等。
yanyao233
2023-10-24 20:36:10 +08:00
帅啊!
bihui
2023-10-24 21:34:53 +08:00
您用了别人的开源技术吗?
antkites
2023-10-24 22:42:28 +08:00
@Simon95 大佬,太厉害了,不过还是多问一句能开源吗,学习学习,嘿嘿
Simon95
2023-10-24 23:24:48 +08:00
@antkites 等后面安排吧,目前生成的还不太稳定。
OneMan
2023-10-25 00:14:10 +08:00
@Simon95 有联系方式吗,合作聊聊
Simon95
2023-10-25 00:26:52 +08:00
@OneMan 微信 nonamehorse
jianchang512
2023-10-25 00:27:29 +08:00
这个不错,正找相关的开源项目呢,没找到合适的。
facebook 的 https://github.com/facebookresearch/seamless_communication
对中文效果似乎很不好。


用于影视翻译配音领域,前景大大的
Simon95
2023-10-25 00:34:16 +08:00
@jianchang512 多语言怎么讲呢,说实话我不太感冒,感觉都是证明学术有多厉害实际上不好用。影视配音是最终目标。
youthfire
2023-10-25 00:49:16 +08:00
之前用过一个国外开源的, 缺点就是中文语音有国外腔。实际上相比 TTS ,这类虽然更自然,离谱起来也可能更离谱。目前看到最好的还是 openai 在 ios 客户端上的语音效果,应该早晚会作为 whisper 的一部分提供 api 收费服务。
unii23i
2023-10-25 09:22:46 +08:00
不错啊,之前用国外的生成语音说话很别扭,这个真多了
siknet
2023-10-25 10:02:47 +08:00
断字断句好像有点问题

你试试这句

新西兰比澳大利亚通过率高,有新西兰签证在澳大利亚中转的话好像有 3-7 天的免签时间
Simon95
2023-10-25 10:32:39 +08:00
@siknet 断句没有预处理的,如果没有标点或者空格隔开的话,模型根据语义自动断句。有标点空格模型可能会知道有断句,但是也不不一定会断,总之比较玄幻,只能提示。
OneMan
2023-10-25 11:19:23 +08:00
支持英语吗
Sylarlong
2023-10-25 13:39:56 +08:00
这个太厉害了,点赞
shuzhi123
2023-10-25 16:39:51 +08:00
这个太厉害了,点赞
sanebow
2023-10-26 09:33:39 +08:00
纯外行,请教一下现在这类新的语音合成技术和传统 tts 有什么本质区别,有什么代表性 paper 可以阅读了解吗

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/984779

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX