语音识别都有开源的模型了，商业化的 API 意义在哪里？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

This topic created in 409 days ago, the information mentioned may be changed or developed.

之前一直使用讯飞的 PC 语音输入法，最近发现一些模型比如 https://www.modelscope.cn/models/damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary 还有 whisper 的效果也很不错。还有使用豆包用的多，大概用了半年，语音识别体感上几乎没有任何错误。

那么科大讯飞的语音识别好像没啥太大意义啊？这么快就被超越了？

语音识别

开源模型

商业化API

31 replies • 2025-04-02 08:54:14 +08:00

evill

Mar 19, 2025

有部分需要这个功能的人，他们不具有部署模型的能力。
成本问题，部署模型是固定的高成本，接 API 按量付费。
接 API 省心，不用运维模型不关心模型升级(顶多换个 API)

xiaoqidev

Mar 19, 2025

API 有返点，甚至 50% 以上

zero47

Mar 19, 2025

这不就是 saas 的意义吗，个人使用频率低，性价比不高。企业要考虑扩容，维护成本大。

AndrewCotton

Mar 19, 2025

目前的模式看，有点类似云服务刚刚开始假设，所有公司跑马圈地的时候。不论是 chatgpt 或者 deepseek ，都是从 llm 发展出来的模型。确实有开源模型。但是：
1. 不论是不是开源，维护这种模型的效果都需要人力物力成本。
2. 现在免费的 API 不代表永远免费。
3. 公司的商业业务不能因为免费 API 收费了就破产。
4. 商业化 API 融资嘎嘎快。
以上。

infreboot

Mar 19, 2025

开源是为了更好的做商业。

dzdh

Mar 19, 2025

100 并发部署 whisper-large-v3-turbo 。
粗算一下假设 4u 服务器 4 ～ 5 块高性能起码 6GB 显存的 GPU 、CPU 、足够内存 SSD 。最低最低离谱到没边的价格，15 万，稍微好点的大几十。
一年托管费电信百兆单线 2 万。

现在阿里/腾讯/华为/火山一个接口。语音识别 0.00015 元/秒 / 0.00008 元/秒 https://help.aliyun.com/zh/model-studio/getting-started/models#9e21336740rk2

你自己说你做个产品用哪个方案（除了军政央医）。3 天能出产品快速试错，新账号还送几小时的额度。

ala2008

Mar 19, 2025

有资源当然可以私有部署，但和云服务器一样，运维什么的是一个问题。不得不说，开源真棒

yplam

Mar 19, 2025

降低边缘设备成本，这样几十元的玩具都可以接入大模型，然后每年收你几十元会员费，非常好的商业模式。

Sezxy

Mar 19, 2025

个人用户偶尔用用，还得花几万买社保自己部署吗？

bluesenzhu

Mar 19, 2025

另外一个角度是：类似开源和闭源软件

Nosub

Mar 19, 2025

知乎上有一句，我觉得是对的，先问是不是，再问为什么。

抛开成本，使用接入的便利性不谈，

首先在线语音识别 API 比开源大模型早，这个答案就是回答了你的问题，

七八年前讯飞语音识别 API 就有了，七八年前有 funasr 和 whisper 吗。

你这个逻辑就是剪映这么好，为什么还需要什么其他字幕软件一个逻辑。

showonder

Mar 19, 2025

方便
你要喝牛奶，自己养一头牛每公斤牛奶成本不到 3 块钱，还新鲜，但是你为啥在超市买 10 块钱一公斤的牛奶呢？

KIRAYOMATO

Mar 19, 2025 via Android

我目前用下来识别最准确的还是剪映，whisper 和 paraformer 准确性都差很多

Nosub

Mar 19, 2025

多说一句，我最近一直在实现 funasr 的本地化移植工作（ Windows/Linux/Macos ），也算支持下国产大模型，毕竟支持 whisper 的客户端太多了，支持 funasr 的几乎没有，我之前一直不愿意接入本地模型就是因为使用成本太高，一个模型动辄几个 GB ，ct-punc mode ，asr-model ，vad-mode 加起来差不多有 3 个 GB ，连放在哪儿储存给用户下载使用都是个问题，当然这是开发者应该解决的事情，储存成本和使用成本，哪个不是成本。