在 github 开源了一个带 web 界面的中英文音色克隆工具

2023-11-20 12:42:37 +08:00
 jianchang512
开源地址: https://github.com/jianchang512/clone-voice






>
> 这是一个声音克隆工具,可使用你的或者其他声音的音色,将一段文字合成为使用该声音说话的音频。
>
> 使用非常简单,没有 GPU 也可以使用,github 下载预编译版本,双击 app.exe 打开一个 web 界面,鼠标点点快速体验,笔记本电脑就可使用,。
>
> 支持 **中文**、**英文**、**日语**、**韩语** 4 种语言,可在线从麦克风录制声音。
>
> 为保证合成效果,建议录制时长 5 秒到 20 秒,发音清晰准确,不要存在背景噪声。
>
> 英文效果很棒,中文效果还凑合,下载体验下吧
>



项目基于 coqui-tts ,早就想使用这个来做音色克隆了,只是他们一直不支持中文,直达 9 月份才支持。

使用 flask 搞了一个简单的本地 web 界面,可在线录制声音或上传已有的一段声音作为音色,然后输入一段文字,即可生成使用该声音的音频。

目前支持中、英、日、韩 四种语言,英文效果最棒,中文勉强吧。

已提供预编译版,window 上下载压缩包解压,双击 run.bat 即可使用。

其实直接拉取 coqui-tts 也可以,本项目基本只是一个 coqui-tts 的简单包装,没多大技术含量,初衷是降低 ai 使用难度,让小白快速上手体验,不必配备 N 卡,即使笔记本也可使用。

## Youtube 演示

<amp-youtube data-videoid="NL5cIoJ9Gjo" layout="responsive" width="480" height="270"></amp-youtube>
1918 次点击
所在节点    分享创造
12 条回复
GeekGao
2023-11-20 13:14:39 +08:00
有 docker 部署方式吗
jianchang512
2023-11-20 13:19:39 +08:00
@GeekGao 米有。
seeyourface
2023-11-20 13:44:22 +08:00
可以把声音翻译成另一种语言吗,音色不变
jianchang512
2023-11-20 19:25:55 +08:00
@seeyourface 下次更新会增加声音转声音的。但直接翻译的不支持

这种目前貌似只有目标英语情况下效果还可以

可以先识别为文字,翻译后再以原声音色生成新声音
siknet
2023-11-21 13:48:26 +08:00
百度云下载也太慢了...下载完我传个阿里云吧
jianchang512
2023-11-21 16:44:38 +08:00
@siknet 可以 github 下载啊,阿里云没咋用过,没限制吗
siknet
2023-11-21 18:30:09 +08:00
噢,看见 github 的下载了
阿里云限速没百度云那么夸张,几百 k 到几兆都有
siknet
2023-11-21 20:20:23 +08:00
试了下,很厉害啊,就是分词有点问题
jianchang512
2023-11-21 20:39:36 +08:00
@siknet 其实就是调用了下 coqui-xttsv2

他们直到九月份才支持中文,以前都无法用于中文,还有待完善
1044523901
2023-11-21 21:02:47 +08:00
牛逼 加上 docker 部署就完美了,最近刚好有这个需求,赶快学习下~
wqnmlgbzml
338 天前
这个很好呀!一直在找这样的开源项目。
Llesue
311 天前
玩了一下,英文中文分词都有问题……

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/993440

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX