v 友有好的本地文本转语音的框架推荐吗,除了 ebook2audiobook

69 天前
syh2  syh2

最近看到了开源项目 DrewThomasson/ebook2audiobook 非常火,我上班路上最起码有 1 个多小时的开车路程,所以想将一些技术类文章、书籍转换成语音,自己随意听听。

奈何试了几台机器都不行,要么是 Linux 版本太低,要么是一个类似日文的框架没办法安装,报错;然后它的一键脚本也不太适合我,它会自动安装 conda ,然后会干扰到我本来的 Python 环境,就很迷。

用 colab 试了一下,人声还是稍微有点不自然,而且好像有些英文单词,发音是接近日文的发音,及其怪异。

想问问下 v 友们,有没有类似成熟的本地模型?然后朗读声音比较自然的。

963 次点击
所在节点   问与答  问与答
7 条回复
neteroster
neteroster
69 天前
https://funaudiollm.github.io/cosyvoice2/

https://github.com/RVC-Boss/GPT-SoVITS

https://github.com/fishaudio/fish-speech

其中后两个还支持少样本声音克隆,可以搞点自己喜欢的声音样本做克隆生成
neteroster
neteroster
69 天前
@neteroster #1 CosyVoice 也支持,没记清楚
ijk0
ijk0
69 天前
https://github.com/santinic/audiblez 最近看到了这个项目,有兴趣可以了解一下
syh2
syh2
68 天前
@neteroster #1 已感谢,确实是我想要的,等我试一下。
syh2
syh2
68 天前
@ijk0 #3 Thanks , 已在测试安装中
ijk0
ijk0
65 天前
@syh2 测试效果咋样呀
syh2
syh2
65 天前
@ijk0 #6 我试了,对英文的转换效果还行,基本和以前读书的时候的英语听力的感觉差不多,但是停顿非常奇怪,模型生成出来的句子,会有很奇怪的停顿,而且是句子还没结束的时候,这个还是比较影响整个句子的理解的。还没试中文的,貌似直接用那个模型选中文,它直接识别成"chinese character",然后直接朗读"chinese character"出来了。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1106281

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX