想问下语音大模型的前后端技术选型,以及采用什么通讯协议比较好?

7 天前
 SeleiXi
最近需要做一个语音大模型( voice in voice out 的)的后端,需求是要低延迟传输(要实现下面链接的 GPT-4o voice 这种语音通话的功能,所以对延迟非常敏感),想问下前端/后端/app 端的技术选型以及采用什么通讯协议会比较好?
<amp-youtube data-videoid="XOXMwsq7ACs" layout="responsive" width="480" height="270"></amp-youtube>
1323 次点击
所在节点    程序员
10 条回复
GeekGao
7 天前
如果考虑招人较容易的话,可以尝试:

前端:React.js(组件化、虚拟 DOM)
后端:Node.js(非阻塞 IO 、高并发)
通信协议:WebSocket/WebRTC
xiuming
7 天前
WEB:React.js Vue.js
App:原生
后端:golang
通信协议: http3 、kcp 、WebRTC
mmdsun
7 天前
换汤不换药,这种你参考支持音视频通话的 IM 系统就行,基本都是低延时实时通信。
纯自己搞就 netty 写 im 那块的 + 音视频的推流服务器。
firechat
6 天前
可以考虑用我们的这个 https://github.com/wildfirechat/ServerVoipDemo 项目,已经实现了服务器和客户端打音视频电话,你们做好音视频内容和对接可以快速实现视频上类似的功能。
COW
6 天前
服务端:Java ( Netty )/Go
PC 端:Electron (跨平台)
移动端:原生
协议:WebRTC
SeleiXi
6 天前
@xiuming
@COW
go 的话具体用哪些技术栈比较好呢
COW
6 天前
@SeleiXi golang 天生支持高并发,原生的 net 库应该就支持,所以不需要像 Java 哪样再搞个 Netty ,不过你要处理 WebSocket/WebRTC 协议的话,应该还需要额外的库支持(仅供参考,没有用 golang 实践过)
Leon6868
5 天前
我最近正好也在做这个,经过大量选型后我认为最方便的还是 ws+mp3 切片,至少语音延迟在传输上能达到 110ms 的延迟。

感兴趣的话欢迎深入交流,我的邮箱是 cXRiYm9zajVzQG1vem1haWwuY29t
Leon6868
5 天前
@Leon6868 #8 其实 4o 的延迟也不低,而且主要在于 VAD 、模型推理上
SeleiXi
5 天前
@Leon6868 嗯嗯,发了邮件了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1087985

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX