V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
bushnerd
V2EX  ›  问与答

语音识别都有开源的模型了,商业化的 API 意义在哪里?

  •  
  •   bushnerd · 1 天前 via iPhone · 3114 次点击

    之前一直使用讯飞的 PC 语音输入法,最近发现一些模型比如 https://www.modelscope.cn/models/damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary 还有 whisper 的效果也很不错。 还有使用豆包用的多,大概用了半年,语音识别体感上几乎没有任何错误。

    那么科大讯飞的语音识别好像没啥太大意义啊?这么快就被超越了?

    30 条回复    2025-03-20 10:12:24 +08:00
    evill
        1
    evill  
       1 天前
    有部分需要这个功能的人,他们不具有部署模型的能力。
    成本问题,部署模型是固定的高成本,接 API 按量付费。
    接 API 省心,不用运维模型 不关心模型升级(顶多换个 API)
    xiaoqidev
        2
    xiaoqidev  
       1 天前
    API 有返点,甚至 50% 以上
    zero47
        3
    zero47  
       1 天前
    这不就是 saas 的意义吗,个人使用频率低,性价比不高。企业要考虑扩容,维护成本大。
    AndrewCotton
        4
    AndrewCotton  
       1 天前
    目前的模式看,有点类似云服务刚刚开始假设,所有公司跑马圈地的时候。不论是 chatgpt 或者 deepseek ,都是从 llm 发展出来的模型。确实有开源模型。但是:
    1. 不论是不是开源,维护这种模型的效果都需要人力物力成本。
    2. 现在免费的 API 不代表永远免费。
    3. 公司的商业业务不能因为免费 API 收费了就破产。
    4. 商业化 API 融资嘎嘎快。
    以上。
    Stevenv
        5
    Stevenv  
       1 天前   ❤️ 1
    开源是为了更好的做商业。
    dzdh
        6
    dzdh  
       1 天前
    100 并发部署 whisper-large-v3-turbo 。
    粗算一下 假设 4u 服务器 4 ~ 5 块高性能起码 6GB 显存的 GPU 、CPU 、足够内存 SSD 。最低最低离谱到没边的价格,15 万,稍微好点的大几十。
    一年托管费电信百兆单线 2 万。

    现在阿里/腾讯/华为/火山一个接口。语音识别 0.00015 元/秒 / 0.00008 元/秒 https://help.aliyun.com/zh/model-studio/getting-started/models#9e21336740rk2

    你自己说你做个产品用哪个方案(除了军政央医)。3 天能出产品快速试错,新账号还送几小时的额度。
    ala2008
        7
    ala2008  
       1 天前
    有资源当然可以私有部署,但和云服务器一样,运维什么的是一个问题。不得不说,开源真棒
    yplam
        8
    yplam  
       1 天前
    降低边缘设备成本,这样几十元的玩具都可以接入大模型,然后每年收你几十元会员费,非常好的商业模式。
    Goooooos
        9
    Goooooos  
       1 天前
    个人用户偶尔用用,还得花几万买社保自己部署吗?
    bluesenzhu
        10
    bluesenzhu  
       1 天前
    另外一个角度是:类似开源和闭源软件
    Nosub
        11
    Nosub  
       1 天前   ❤️ 1
    知乎上有一句,我觉得是对的,先问是不是,再问为什么。

    抛开成本,使用接入的便利性不谈,

    首先在线语音识别 API 比开源大模型早,这个答案就是回答了你的问题,

    七八年前讯飞语音识别 API 就有了,七八年前有 funasr 和 whisper 吗。

    你这个逻辑就是剪映这么好,为什么还需要什么其他字幕软件一个逻辑。
    showonder
        12
    showonder  
       1 天前
    方便
    你要喝牛奶,自己养一头牛每公斤牛奶成本不到 3 块钱,还新鲜,但是你为啥在超市买 10 块钱一公斤的牛奶呢?
    KIRAYOMATO
        13
    KIRAYOMATO  
       1 天前 via Android
    我目前用下来识别最准确的还是剪映,whisper 和 paraformer 准确性都差很多
    Nosub
        14
    Nosub  
       1 天前
    多说一句,我最近一直在实现 funasr 的本地化移植工作( Windows/Linux/Macos ),也算支持下国产大模型,毕竟支持 whisper 的客户端太多了,支持 funasr 的几乎没有,我之前一直不愿意接入本地模型就是因为使用成本太高,一个模型动辄几个 GB ,ct-punc mode ,asr-model ,vad-mode 加起来差不多有 3 个 GB ,连放在哪儿储存给用户下载使用都是个问题,当然这是开发者应该解决的事情,储存成本和使用成本,哪个不是成本。
    JackMaMa
        15
    JackMaMa  
       1 天前
    @xiaoqidev 讯飞有吗?想要
    bushnerd
        16
    bushnerd  
    OP
       1 天前 via iPhone
    好像是我问的问题不对,我的意思是讯飞的智能语音的护城河在哪里?如果一些小企业把这模型拿去,也去部署一个对外服务,可以说研发成本几乎为 0 啊。
    coefuqin
        17
    coefuqin  
       1 天前
    @bushnerd whisper 在带地方乡音不标准的普通话下,识别率很低。你知道的,大家大部分能把普通话说到二级甲等的都很少了。
    coefuqin
        18
    coefuqin  
       1 天前
    @bushnerd 大厂的模型都是针对性优化的,你看王者荣耀的语音识别,就是纯地方方言乡音的识别率都很高的。开源的没有经过任何微调的 whisper 比得过?
    mingtdlb
        19
    mingtdlb  
       1 天前
    你这问题就像都有私有云了,还有公有云干嘛
    yufeng0681
        20
    yufeng0681  
       1 天前
    @bushnerd #16 隐私,信息安全,可靠性,客服体验。。商业化的事情,不能只看技术能力。 你作为一家企业去选择 API 的时候,就会综合考虑。不仅仅考虑价格维度。
    paradoxs
        21
    paradoxs  
       1 天前
    求问一下:现在哪个开源的 OCR 模型做的最好?最容易接入使用的?
    noobjalen
        22
    noobjalen  
       1 天前
    请问有没有现成的 GUI 推荐呢。
    noobjalen
        23
    noobjalen  
       1 天前
    z1829909
        24
    z1829909  
       1 天前 via Android
    @bushnerd 开源模型效果达不到,只是毛坯,在模型能力之上还要做一些工程化。
    而且你自己部署成本可不一定比讯飞的低,只是模型免费,显卡人力也要钱,讯飞内部的调度可以节省算力闲置造成的浪费。
    z1829909
        25
    z1829909  
       1 天前 via Android
    而且讯飞内部对一些大客户肯定是做了订制优化单独训的模型。
    开源模型只对一些轻度用户是满足的,而这个客户群体用 api 更合适。反而是大量使用的用户有订制离线部署的需求。
    jeray
        26
    jeray  
       22 小时 12 分钟前
    聊天的语音识别很简单;
    比如涉会议,各个领域会议,专业词汇,音频识别文字技术,普通模型就不行了。但是这块,科大讯飞依旧很能打
    takeit
        27
    takeit  
       21 小时 16 分钟前
    开源模型没你想象得这么美好
    NoOneNoBody
        28
    NoOneNoBody  
       20 小时 57 分钟前
    商业模型在专业领域是更强的
    一篇化学论文宣读,试试开源模型和商业模型比较?

    例如粤语,广府粤语和港式粤语用词就有不少区别,还有广东其他地区的粤语,如顺德话,还有广西的粤语,母语非粤语的人根本听不出来区别在哪
    我一个听不懂吴语的人,更别说搞清苏北话和苏州话的区别了
    ysc3839
        29
    ysc3839  
       13 小时 59 分钟前
    无 GPU 环境,比如各类云服务部署的情况
    jeesk
        30
    jeesk  
       3 小时 37 分钟前
    1. 开源的相册那么多, 买 icloud, google driver 的意义在哪儿?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5259 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 05:49 · PVG 13:49 · LAX 22:49 · JFK 01:49
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.