想问下语音大模型的前后端技术选型，以及采用什么通讯协议比较好？

最近需要做一个语音大模型（ voice in voice out 的）的后端，需求是要低延迟传输（要实现下面链接的 GPT-4o voice 这种语音通话的功能，所以对延迟非常敏感），想问下前端/后端/app 端的技术选型以及采用什么通讯协议会比较好？
<amp-youtube data-videoid="XOXMwsq7ACs" layout="responsive" width="480" height="270"></amp-youtube>

GeekGao

43 天前

如果考虑招人较容易的话，可以尝试：

前端:React.js(组件化、虚拟 DOM)
后端:Node.js(非阻塞 IO 、高并发)
通信协议:WebSocket/WebRTC

xiuming

42 天前

WEB:React.js Vue.js
App:原生
后端:golang
通信协议： http3 、kcp 、WebRTC

mmdsun

42 天前

换汤不换药，这种你参考支持音视频通话的 IM 系统就行，基本都是低延时实时通信。
纯自己搞就 netty 写 im 那块的 + 音视频的推流服务器。

firechat

42 天前

可以考虑用我们的这个 https://github.com/wildfirechat/ServerVoipDemo 项目，已经实现了服务器和客户端打音视频电话，你们做好音视频内容和对接可以快速实现视频上类似的功能。

COW

42 天前

服务端：Java （ Netty ）/Go
PC 端：Electron （跨平台）
移动端：原生
协议：WebRTC

COW

42 天前

@SeleiXi golang 天生支持高并发，原生的 net 库应该就支持，所以不需要像 Java 哪样再搞个 Netty ，不过你要处理 WebSocket/WebRTC 协议的话，应该还需要额外的库支持（仅供参考，没有用 golang 实践过）

Leon6868

41 天前

我最近正好也在做这个，经过大量选型后我认为最方便的还是 ws+mp3 切片，至少语音延迟在传输上能达到 110ms 的延迟。

感兴趣的话欢迎深入交流，我的邮箱是 cXRiYm9zajVzQG1vem1haWwuY29t

Leon6868

41 天前

@Leon6868 #8 其实 4o 的延迟也不低，而且主要在于 VAD 、模型推理上

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1087985

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.