语音识别都有开源的模型了,商业化的 API 意义在哪里?

3 天前
bushnerd  bushnerd

之前一直使用讯飞的 PC 语音输入法,最近发现一些模型比如 https://www.modelscope.cn/models/damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary 还有 whisper 的效果也很不错。 还有使用豆包用的多,大概用了半年,语音识别体感上几乎没有任何错误。

那么科大讯飞的语音识别好像没啥太大意义啊?这么快就被超越了?

3325 次点击
所在节点   问与答  问与答
30 条回复
evill
evill
3 天前
有部分需要这个功能的人,他们不具有部署模型的能力。
成本问题,部署模型是固定的高成本,接 API 按量付费。
接 API 省心,不用运维模型 不关心模型升级(顶多换个 API)
xiaoqidev
xiaoqidev
3 天前
API 有返点,甚至 50% 以上
zero47
zero47
3 天前
这不就是 saas 的意义吗,个人使用频率低,性价比不高。企业要考虑扩容,维护成本大。
AndrewCotton
AndrewCotton
3 天前
目前的模式看,有点类似云服务刚刚开始假设,所有公司跑马圈地的时候。不论是 chatgpt 或者 deepseek ,都是从 llm 发展出来的模型。确实有开源模型。但是:
1. 不论是不是开源,维护这种模型的效果都需要人力物力成本。
2. 现在免费的 API 不代表永远免费。
3. 公司的商业业务不能因为免费 API 收费了就破产。
4. 商业化 API 融资嘎嘎快。
以上。
Stevenv
Stevenv
3 天前
开源是为了更好的做商业。
dzdh
dzdh
3 天前
100 并发部署 whisper-large-v3-turbo 。
粗算一下 假设 4u 服务器 4 ~ 5 块高性能起码 6GB 显存的 GPU 、CPU 、足够内存 SSD 。最低最低离谱到没边的价格,15 万,稍微好点的大几十。
一年托管费电信百兆单线 2 万。

现在阿里/腾讯/华为/火山一个接口。语音识别 0.00015 元/秒 / 0.00008 元/秒 https://help.aliyun.com/zh/model-studio/getting-started/models#9e21336740rk2

你自己说你做个产品用哪个方案(除了军政央医)。3 天能出产品快速试错,新账号还送几小时的额度。
ala2008
ala2008
3 天前
有资源当然可以私有部署,但和云服务器一样,运维什么的是一个问题。不得不说,开源真棒
yplam
yplam
3 天前
降低边缘设备成本,这样几十元的玩具都可以接入大模型,然后每年收你几十元会员费,非常好的商业模式。
Goooooos
Goooooos
3 天前
个人用户偶尔用用,还得花几万买社保自己部署吗?
bluesenzhu
bluesenzhu
3 天前
另外一个角度是:类似开源和闭源软件
Nosub
Nosub
3 天前
知乎上有一句,我觉得是对的,先问是不是,再问为什么。

抛开成本,使用接入的便利性不谈,

首先在线语音识别 API 比开源大模型早,这个答案就是回答了你的问题,

七八年前讯飞语音识别 API 就有了,七八年前有 funasr 和 whisper 吗。

你这个逻辑就是剪映这么好,为什么还需要什么其他字幕软件一个逻辑。
showonder
showonder
3 天前
方便
你要喝牛奶,自己养一头牛每公斤牛奶成本不到 3 块钱,还新鲜,但是你为啥在超市买 10 块钱一公斤的牛奶呢?
KIRAYOMATO
KIRAYOMATO
2 天前
我目前用下来识别最准确的还是剪映,whisper 和 paraformer 准确性都差很多
Nosub
Nosub
2 天前
多说一句,我最近一直在实现 funasr 的本地化移植工作( Windows/Linux/Macos ),也算支持下国产大模型,毕竟支持 whisper 的客户端太多了,支持 funasr 的几乎没有,我之前一直不愿意接入本地模型就是因为使用成本太高,一个模型动辄几个 GB ,ct-punc mode ,asr-model ,vad-mode 加起来差不多有 3 个 GB ,连放在哪儿储存给用户下载使用都是个问题,当然这是开发者应该解决的事情,储存成本和使用成本,哪个不是成本。
JackMaMa
JackMaMa
2 天前
@xiaoqidev 讯飞有吗?想要
bushnerd
bushnerd
2 天前
好像是我问的问题不对,我的意思是讯飞的智能语音的护城河在哪里?如果一些小企业把这模型拿去,也去部署一个对外服务,可以说研发成本几乎为 0 啊。
coefuqin
2 天前
@bushnerd whisper 在带地方乡音不标准的普通话下,识别率很低。你知道的,大家大部分能把普通话说到二级甲等的都很少了。
coefuqin
2 天前
@bushnerd 大厂的模型都是针对性优化的,你看王者荣耀的语音识别,就是纯地方方言乡音的识别率都很高的。开源的没有经过任何微调的 whisper 比得过?
mingtdlb
2 天前
你这问题就像都有私有云了,还有公有云干嘛
yufeng0681
2 天前
@bushnerd #16 隐私,信息安全,可靠性,客服体验。。商业化的事情,不能只看技术能力。 你作为一家企业去选择 API 的时候,就会综合考虑。不仅仅考虑价格维度。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1119495

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX