语音识别都有开源的模型了，商业化的 API 意义在哪里？

4 天前

bushnerd

之前一直使用讯飞的 PC 语音输入法，最近发现一些模型比如 https://www.modelscope.cn/models/damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary 还有 whisper 的效果也很不错。还有使用豆包用的多，大概用了半年，语音识别体感上几乎没有任何错误。

那么科大讯飞的语音识别好像没啥太大意义啊？这么快就被超越了？

3367 次点击

所在节点

问与答

30 条回复

paradoxs

4 天前

求问一下：现在哪个开源的 OCR 模型做的最好？最容易接入使用的？

noobjalen

4 天前

请问有没有现成的 GUI 推荐呢。

noobjalen

4 天前

@noobjalen https://github.com/CheshireCC/faster-whisper-GUI 好像找到一个

z1829909

4 天前

@bushnerd 开源模型效果达不到，只是毛坯，在模型能力之上还要做一些工程化。
而且你自己部署成本可不一定比讯飞的低，只是模型免费，显卡人力也要钱，讯飞内部的调度可以节省算力闲置造成的浪费。

z1829909

4 天前

而且讯飞内部对一些大客户肯定是做了订制优化单独训的模型。
开源模型只对一些轻度用户是满足的，而这个客户群体用 api 更合适。反而是大量使用的用户有订制离线部署的需求。

jeray

4 天前

聊天的语音识别很简单；
比如涉会议，各个领域会议，专业词汇，音频识别文字技术，普通模型就不行了。但是这块，科大讯飞依旧很能打

takeit

4 天前

开源模型没你想象得这么美好

NoOneNoBody

4 天前

商业模型在专业领域是更强的
一篇化学论文宣读，试试开源模型和商业模型比较？

例如粤语，广府粤语和港式粤语用词就有不少区别，还有广东其他地区的粤语，如顺德话，还有广西的粤语，母语非粤语的人根本听不出来区别在哪
我一个听不懂吴语的人，更别说搞清苏北话和苏州话的区别了

ysc3839

3 天前

无 GPU 环境，比如各类云服务部署的情况

jeesk

3 天前

1. 开源的相册那么多，买 icloud, google driver 的意义在哪儿？

第 2 页／共 2 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1119495

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX