请教如何做一个在线口译系统

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 1092 days ago, the information mentioned may be changed or developed.

请教一下各位大佬，一位老同学做科研找上门来合作项目，想做一个在线的口译训练系统。

前端需要能够识别演讲者的语言（耳机），学生的语言（麦克风），还需要实时翻译成目标语言（中英文）。

对这块真的不是很熟悉，请教一下大家怎么实现，或者有没有相关的学习资料。

如果有现成的 demo 可以参考就更好了了。

谢谢大家。

请教

口译

语言

演讲者

15 replies • 2023-05-14 22:56:39 +08:00

paradox8599

May 11, 2023 via Android

昨晚正好在看这个，但只是游戏社交用：

https://nmori.github.io/yncneo-Docs/

https://github.com/VRCWizard/TTS-Voice-Wizard

superliy

May 11, 2023

用 chatgpt ？

ruanimal

May 11, 2023

语音转文字，然后调用 chatgpt ？

rsy

May 11, 2023

用现成的音频转写翻译服务就可以了
https://sight.youdao.com/service/voice

Alias4ck

May 11, 2023

stt 服务,openai 的 whisper( https://github.com/openai/whisper),在官方 github 的 discussion 里面有很多相关的 application(huggingface 上面也有很多),还有可以在 cpu 上跑的比如这个 https://github.com/ggerganov/whisper.cpp
它的 examples 里面有 https://whisper.ggerganov.com/stream/, 实时翻译的 wasm 应用
我看一楼给的最后一个项目也是基于 c#的 whisper wrapper

rb6221

May 11, 2023

TTS ，然后接个翻译 api

metalvest

May 11, 2023

上面说的都是很成熟的技术了，但要形成产品还不够，因为这个系统的重点在于训练，关键是要建库塞一堆课程，然后根据学生的成绩制定训练和学习计划，然后搞个收费标准。

lff0305

May 11, 2023 via Android

公司做过类似的，不算复杂
前端调用 API 从麦克风采集音频，拿到音频以二进制形式通过 Web socket 发到后端，后端拿到之后把音频数据发给 ASR 把音频转换成文字，然后就是处理文字，比如翻译之类的

最后把处理过的结果通过 tts 转换成音频数据，从 Web socket 返回，

前端拿到音频数据后播放

Asr tts 主流的云厂商都有提供