请问 ChatGPT 官方移动端的语音输出是用什么实现的?

2023-10-20 21:06:46 +08:00
 bywenshu
如题,我感觉它的语音输出比较自然,想问一下 OpenAI 有没有相关的文字转语音 API ?
1063 次点击
所在节点    OpenAI
10 条回复
em70
2023-10-20 21:49:24 +08:00
是 openai 训练的一个叫 next to audio 的模型提供的服务,API 可能 11 月 6 日会发布

希望这种周边模型像 whisper 一样能开源出来
bywenshu
2023-10-20 22:27:53 +08:00
@em70 感谢,但我在谷歌上边没找到你说的这个模型的信息啊……你这消息是从哪里来的?
em70
2023-10-20 22:37:51 +08:00
@bywenshu #2 twitter 上看到的,还没发布,可能正式发布不是这个名字.已知信息是.openai 用大模型技术做的语音合成
youthfire
2023-10-20 22:40:26 +08:00
@em70 #1 开源的那个 whisper 快吗?我没跑过,用的 api 速度倒是非常快,就是量大了也费钱
yanyao233
2023-10-21 08:35:25 +08:00
@youthfire 现在有 whisper jax ,whisper cpp ,这两个比官方的 whisper 开源版快很多,可以试一试。模型 api 用的就是 large v2 ,应该效果是一样的
bywenshu
2023-10-21 09:44:45 +08:00
@youthfire
@yanyao233 啊? whisper 不是语音转文字吗?
yanyao233
2023-10-21 09:46:18 +08:00
@bywenshu 我顺着 #4 回复的,whisper 确实就是个语音转文字
youthfire
2023-10-21 09:48:39 +08:00
@bywenshu #6 因为一楼正好提到了 whisper 。它本身就有开源免费又有收费 api 两套方案,就顺便问问速度差距。因为之前在其他网站看到说开源的速度很慢,自己也没跑过。
yiencho
2023-10-21 12:59:45 +08:00
就是文本转语音,api 还没开放给普通用户,我看到开放给 spotify 的新闻了,下面这个

https://newsroom.spotify.com/2023-09-25/ai-voice-translation-pilot-lex-fridman-dax-shepard-steven-bartlett/

spotify 用它来生成多语言的播客
em70
2023-10-21 13:32:57 +08:00
@youthfire #4 有个 whisperX 的分支,就算用 CPU 都非常快,据说比原版快 70 倍,没实测过,量不大还是 API 划算

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/983908

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX