离线语音识别方案

请教下各位，实现离线语音识别能力(较长时间的语音转写，仅包含中文即可)，有什么简单的方案吗？

看了下 deepspeech 的一些实现，预训练的包效果都不怎么样，自己训练的难度不小。

或者有什么方案可以利用系统的能力，比如 windows 有一个 sapi，可以实现长时间的语音转文本吗？(10 分钟以上)

qq316107934

2021-01-24 18:07:29 +08:00

同想知道比较好的离线中文语音识别方案，最好是流式的

zjsxwc

2021-01-24 18:15:20 +08:00

科大讯飞的翻译机不都可以在没有网络的地方翻译使用吗

processzzp

2021-01-24 18:19:37 +08:00

去讨论手机应用窃听的帖子下面看看吧，那里个个都拍胸脯说语音识别完全不是问题，还能不依赖麦克风工作。

手动 [Doge]

mmlmml1

2021-01-24 18:37:45 +08:00

如果是 Apple 平台的话，macOS 和 iOS 自带有 Speech 库，有离线识别的功能，不过效果一般，还要用户权限授权

12tall

2021-01-25 08:41:55 +08:00

https://alphacephei.com/vosk/ 之前有用过，但是效果并不是特别理想

jiabing520a

2021-01-25 09:47:31 +08:00

系统和浏览器一般都自带接口，但是似乎有 BUG，概率出现进度条在走，实际上没声音播放 api.uuin.top/tts/

Flymachine

2021-01-25 10:17:17 +08:00

科大讯飞有这技术，中文识别率还可以吧。我买过用它技术的录音笔

Flymachine

2021-01-25 10:18:25 +08:00

科大讯飞的技术支持中英文语音实时转文字，纯英文录音非实时转文字。

lemon94

2021-01-25 14:21:26 +08:00

前科大讯飞员工，恰好是翻译机项目组的。看上边有人提到就出来吐槽下，离线翻译的识别率真的惨不忍睹。。。

orannge

2021-01-25 19:32:11 +08:00

讯飞的可以试试，当然和在线是不能比的。

@processzzp 不同场景准确率要求不一样吧，日常使用要求基本准确，用作广告甚至可以只识别关键字

exploreexe

2023-02-05 22:17:05 +08:00

科大讯飞的翻译机就是个纯垃圾，还有脸卖 2000 多。。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.