V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
x77
V2EX  ›  程序员

帮忙推荐个语音识别服务

  •  
  •   x77 · 2023-07-07 13:35:05 +08:00 · 839 次点击
    这是一个创建于 507 天前的主题,其中的信息可能已经有所发展或是发生改变。

    客户端给服务器发一段录音,服务器返回识别后的文本。

    • 服务器音频输入支持 mp3 、aac

    对于移动端格式不是问题,服务器需要什么格式,客户端就录制什么格式的音频然后发过去。不过对于 Web 就有些麻烦,浏览器支持的格式有限,web 音频录制的 package 功能也有限,虽然可以自己折腾,但是如果服务器支援丰富的格式的话就没必要去费这个力气。

    也可以再连接一个服务专门转换格式,能运行很容易,但是这么做设计就不合理了。

    • 提供免费额度,如一个月 xx 分钟 / xx 次等

    并不是为了白嫖,只是起步阶段希望把精力放到想法的验证上,不想为了各种杂事操心。

    3 条回复    2023-07-08 14:29:23 +08:00
    laoooo
        1
    laoooo  
       2023-07-08 12:22:32 +08:00 via iPhone
    感觉 azure 家的语音服务挺合适,准确率也很高,你可以试试
    x77
        2
    x77  
    OP
       2023-07-08 13:59:50 +08:00
    @laoooo

    本来 Azure 很符合,提供免费额度设计又合理,输入格式支持 wav pcm 编码和 ogg opus 编码,这两种都是适合音频处理的格式,不需要在无畏的编解码上耗费太多的计算(没必要费大力气去编码音频,然后在云端又费大力气去解码音频)。

    奈何特么 Flutter 的 Package 太拉跨,要么我 app 计划的平台不支持,要么录音格式不支持。只能先看看云服务有没有能支援多格式的,没有的话只能自己折腾音频 package 。
    sodulty
        3
    sodulty  
       2023-07-08 14:29:23 +08:00
    飞书里面的会议纪要挺好用的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2777 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 15:13 · PVG 23:13 · LAX 07:13 · JFK 10:13
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.