有没有具备感情的 tts?

2023-06-22 14:26:25 +08:00
 shalingye
如题,想把一些日语文字转换成具有感情的音频,有没有开源的仓库?付费的服务也可以。



背景:小组想把某 galgame 中缺少的语音补全,已经利用 vits 训练好了模型,对话也提取出来了,但发现普通 tts 缺乏感情,导致最终的音频很机械。
2568 次点击
所在节点    问与答
19 条回复
renmu
2023-06-22 14:30:53 +08:00
自己读,然后用再转换
DTCPSS
2023-06-22 14:31:55 +08:00
不要纯靠 TTS
自己充满感情地读一遍后用 Voice Conversion 转成目标说话人的声音
shalingye
2023-06-22 14:34:50 +08:00
@DTCPSS
@renmu
太多了,而且人读需要成本
hymzhek
2023-06-22 14:42:33 +08:00
shalingye
2023-06-22 14:47:02 +08:00
@hymzhek 谢谢,不过这个仓库已经很久没更新了
fox
2023-06-22 14:54:23 +08:00
初音未来?
shalingye
2023-06-22 15:01:26 +08:00
@fox 非也
x77
2023-06-22 15:29:00 +08:00
pochy06
2023-06-22 16:12:28 +08:00
要不试试 bark ,支持情绪化的一些语音生成
https://github.com/suno-ai/bark
whatalittleboy
2023-06-22 16:50:05 +08:00
shalingye
2023-06-22 17:27:17 +08:00
@x77 不太符合...
shalingye
2023-06-22 17:27:42 +08:00
@spico1026 已测试,感情很不稳定...每次生成很随机
findex
2023-06-22 21:33:11 +08:00
同求啊
strp
2023-06-22 22:47:13 +08:00
男声的话 iOS 的 British Voice 2 还有 Russian Voice 1 我觉得都挺有感情的。Japanese Voice 1 是男声 Voice 2 是女声。
id80108900
2023-06-23 00:41:56 +08:00
现阶段不敢奢求感情,只求『自然』点。
shalingye
2023-06-23 03:16:05 +08:00
@id80108900
@findex
@whatalittleboy
已测试 emotion-vits ,其携带感情向量,基本达到预期效果。然而,项目错误太多,经过艰难险阻后最终也没有办法训练出模型,只能曲线救国使用它的面板制作前置 tts 语音,然后借助前置语音用自己的模型在 so-vits 面板上推理出最终的效果。
id80108900
2023-06-23 14:03:31 +08:00
@shalingye 我挺相信人工智能的,说不定过些日子,就有突破了。
shalingye
2023-06-23 16:36:30 +08:00
进展:已成功开启 emotion-vits 训练,等晚上用面板推理实际文件。
shalingye
2023-06-23 16:39:49 +08:00
@strp 不太符合需求,因为不仅仅是需要感情,还有一些情景的考虑,这些变量应该让人来选择。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/950851

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX