语音识别都有开源的模型了,商业化的 API 意义在哪里?

4 天前
bushnerd  bushnerd

之前一直使用讯飞的 PC 语音输入法,最近发现一些模型比如 https://www.modelscope.cn/models/damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary 还有 whisper 的效果也很不错。 还有使用豆包用的多,大概用了半年,语音识别体感上几乎没有任何错误。

那么科大讯飞的语音识别好像没啥太大意义啊?这么快就被超越了?

3367 次点击
所在节点   问与答  问与答
30 条回复
paradoxs
paradoxs
4 天前
求问一下:现在哪个开源的 OCR 模型做的最好?最容易接入使用的?
noobjalen
noobjalen
4 天前
请问有没有现成的 GUI 推荐呢。
noobjalen
noobjalen
4 天前
z1829909
z1829909
4 天前
@bushnerd 开源模型效果达不到,只是毛坯,在模型能力之上还要做一些工程化。
而且你自己部署成本可不一定比讯飞的低,只是模型免费,显卡人力也要钱,讯飞内部的调度可以节省算力闲置造成的浪费。
z1829909
z1829909
4 天前
而且讯飞内部对一些大客户肯定是做了订制优化单独训的模型。
开源模型只对一些轻度用户是满足的,而这个客户群体用 api 更合适。反而是大量使用的用户有订制离线部署的需求。
jeray
jeray
4 天前
聊天的语音识别很简单;
比如涉会议,各个领域会议,专业词汇,音频识别文字技术,普通模型就不行了。但是这块,科大讯飞依旧很能打
takeit
takeit
4 天前
开源模型没你想象得这么美好
NoOneNoBody
NoOneNoBody
4 天前
商业模型在专业领域是更强的
一篇化学论文宣读,试试开源模型和商业模型比较?

例如粤语,广府粤语和港式粤语用词就有不少区别,还有广东其他地区的粤语,如顺德话,还有广西的粤语,母语非粤语的人根本听不出来区别在哪
我一个听不懂吴语的人,更别说搞清苏北话和苏州话的区别了
ysc3839
ysc3839
3 天前
无 GPU 环境,比如各类云服务部署的情况
jeesk
jeesk
3 天前
1. 开源的相册那么多, 买 icloud, google driver 的意义在哪儿?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1119495

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX