帮忙推荐个语音识别服务

2023-07-07 13:35:05 +08:00
 x77

客户端给服务器发一段录音,服务器返回识别后的文本。

对于移动端格式不是问题,服务器需要什么格式,客户端就录制什么格式的音频然后发过去。不过对于 Web 就有些麻烦,浏览器支持的格式有限,web 音频录制的 package 功能也有限,虽然可以自己折腾,但是如果服务器支援丰富的格式的话就没必要去费这个力气。

也可以再连接一个服务专门转换格式,能运行很容易,但是这么做设计就不合理了。

并不是为了白嫖,只是起步阶段希望把精力放到想法的验证上,不想为了各种杂事操心。

839 次点击
所在节点    程序员
3 条回复
laoooo
2023-07-08 12:22:32 +08:00
感觉 azure 家的语音服务挺合适,准确率也很高,你可以试试
x77
2023-07-08 13:59:50 +08:00
@laoooo

本来 Azure 很符合,提供免费额度设计又合理,输入格式支持 wav pcm 编码和 ogg opus 编码,这两种都是适合音频处理的格式,不需要在无畏的编解码上耗费太多的计算(没必要费大力气去编码音频,然后在云端又费大力气去解码音频)。

奈何特么 Flutter 的 Package 太拉跨,要么我 app 计划的平台不支持,要么录音格式不支持。只能先看看云服务有没有能支援多格式的,没有的话只能自己折腾音频 package 。
sodulty
2023-07-08 14:29:23 +08:00
飞书里面的会议纪要挺好用的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/954845

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX