之前一直使用讯飞的 PC 语音输入法,最近发现一些模型比如 https://www.modelscope.cn/models/damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary 还有 whisper 的效果也很不错。 还有使用豆包用的多,大概用了半年,语音识别体感上几乎没有任何错误。
那么科大讯飞的语音识别好像没啥太大意义啊?这么快就被超越了?
![]() |
1
evill 1 天前
有部分需要这个功能的人,他们不具有部署模型的能力。
成本问题,部署模型是固定的高成本,接 API 按量付费。 接 API 省心,不用运维模型 不关心模型升级(顶多换个 API) |
2
xiaoqidev 1 天前
API 有返点,甚至 50% 以上
|
![]() |
3
zero47 1 天前
这不就是 saas 的意义吗,个人使用频率低,性价比不高。企业要考虑扩容,维护成本大。
|
4
AndrewCotton 1 天前
目前的模式看,有点类似云服务刚刚开始假设,所有公司跑马圈地的时候。不论是 chatgpt 或者 deepseek ,都是从 llm 发展出来的模型。确实有开源模型。但是:
1. 不论是不是开源,维护这种模型的效果都需要人力物力成本。 2. 现在免费的 API 不代表永远免费。 3. 公司的商业业务不能因为免费 API 收费了就破产。 4. 商业化 API 融资嘎嘎快。 以上。 |
![]() |
5
Stevenv 1 天前 ![]() 开源是为了更好的做商业。
|
![]() |
6
dzdh 1 天前
100 并发部署 whisper-large-v3-turbo 。
粗算一下 假设 4u 服务器 4 ~ 5 块高性能起码 6GB 显存的 GPU 、CPU 、足够内存 SSD 。最低最低离谱到没边的价格,15 万,稍微好点的大几十。 一年托管费电信百兆单线 2 万。 现在阿里/腾讯/华为/火山一个接口。语音识别 0.00015 元/秒 / 0.00008 元/秒 https://help.aliyun.com/zh/model-studio/getting-started/models#9e21336740rk2 你自己说你做个产品用哪个方案(除了军政央医)。3 天能出产品快速试错,新账号还送几小时的额度。 |
7
ala2008 1 天前
有资源当然可以私有部署,但和云服务器一样,运维什么的是一个问题。不得不说,开源真棒
|
![]() |
8
yplam 1 天前
降低边缘设备成本,这样几十元的玩具都可以接入大模型,然后每年收你几十元会员费,非常好的商业模式。
|
![]() |
9
Goooooos 1 天前
个人用户偶尔用用,还得花几万买社保自己部署吗?
|
![]() |
10
bluesenzhu 1 天前
另外一个角度是:类似开源和闭源软件
|
![]() |
11
Nosub 1 天前 ![]() 知乎上有一句,我觉得是对的,先问是不是,再问为什么。
抛开成本,使用接入的便利性不谈, 首先在线语音识别 API 比开源大模型早,这个答案就是回答了你的问题, 七八年前讯飞语音识别 API 就有了,七八年前有 funasr 和 whisper 吗。 你这个逻辑就是剪映这么好,为什么还需要什么其他字幕软件一个逻辑。 |
![]() |
12
showonder 1 天前
方便
你要喝牛奶,自己养一头牛每公斤牛奶成本不到 3 块钱,还新鲜,但是你为啥在超市买 10 块钱一公斤的牛奶呢? |
13
KIRAYOMATO 1 天前 via Android
我目前用下来识别最准确的还是剪映,whisper 和 paraformer 准确性都差很多
|
![]() |
14
Nosub 1 天前
多说一句,我最近一直在实现 funasr 的本地化移植工作( Windows/Linux/Macos ),也算支持下国产大模型,毕竟支持 whisper 的客户端太多了,支持 funasr 的几乎没有,我之前一直不愿意接入本地模型就是因为使用成本太高,一个模型动辄几个 GB ,ct-punc mode ,asr-model ,vad-mode 加起来差不多有 3 个 GB ,连放在哪儿储存给用户下载使用都是个问题,当然这是开发者应该解决的事情,储存成本和使用成本,哪个不是成本。
|
16
bushnerd OP 好像是我问的问题不对,我的意思是讯飞的智能语音的护城河在哪里?如果一些小企业把这模型拿去,也去部署一个对外服务,可以说研发成本几乎为 0 啊。
|
![]() |
19
mingtdlb 1 天前
你这问题就像都有私有云了,还有公有云干嘛
|
![]() |
20
yufeng0681 1 天前
@bushnerd #16 隐私,信息安全,可靠性,客服体验。。商业化的事情,不能只看技术能力。 你作为一家企业去选择 API 的时候,就会综合考虑。不仅仅考虑价格维度。
|
![]() |
21
paradoxs 1 天前
求问一下:现在哪个开源的 OCR 模型做的最好?最容易接入使用的?
|
22
noobjalen 1 天前
请问有没有现成的 GUI 推荐呢。
|
23
noobjalen 1 天前
|
24
z1829909 1 天前 via Android
@bushnerd 开源模型效果达不到,只是毛坯,在模型能力之上还要做一些工程化。
而且你自己部署成本可不一定比讯飞的低,只是模型免费,显卡人力也要钱,讯飞内部的调度可以节省算力闲置造成的浪费。 |
25
z1829909 1 天前 via Android
而且讯飞内部对一些大客户肯定是做了订制优化单独训的模型。
开源模型只对一些轻度用户是满足的,而这个客户群体用 api 更合适。反而是大量使用的用户有订制离线部署的需求。 |
26
jeray 22 小时 12 分钟前
聊天的语音识别很简单;
比如涉会议,各个领域会议,专业词汇,音频识别文字技术,普通模型就不行了。但是这块,科大讯飞依旧很能打 |
27
takeit 21 小时 16 分钟前
开源模型没你想象得这么美好
|
28
NoOneNoBody 20 小时 57 分钟前
商业模型在专业领域是更强的
一篇化学论文宣读,试试开源模型和商业模型比较? 例如粤语,广府粤语和港式粤语用词就有不少区别,还有广东其他地区的粤语,如顺德话,还有广西的粤语,母语非粤语的人根本听不出来区别在哪 我一个听不懂吴语的人,更别说搞清苏北话和苏州话的区别了 |
![]() |
29
ysc3839 13 小时 59 分钟前
无 GPU 环境,比如各类云服务部署的情况
|
30
jeesk 3 小时 37 分钟前
1. 开源的相册那么多, 买 icloud, google driver 的意义在哪儿?
|