求推荐实时语音转写文字,依赖免费的语音接口实现的

2021-05-12 18:27:07 +08:00
 ALLROBOT

百度提供免费的语音接口,想做个实时语音转写文字的 app,特此发帖求推荐哪些源码项目比较合适?

想借鉴某些源码思路,写个字幕式的,效果和小米闻声 app 差不多吧

可以求讯飞听见,小米闻声 app 类似的源码?

我不知道小米闻声怎么做到实时转写文字的,我能想到的无非分割音频文件,每个音频 1s,转成 PCM 格式进行上传,等收到数据包提取转换后的文字再输出,但一句话说完,这句话的音频文件转换后的文字没法看。。。

2944 次点击
所在节点    Python
18 条回复
ch2
2021-05-12 18:40:12 +08:00
语音识别你分割了就丧失了前后文语境,肯定识别不出来的
你想要实时的那就是本机实时预测,具体怎么做是人家的商业秘密,不可能让你白嫖的
ALLROBOT
2021-05-12 18:45:07 +08:00
@ch2 我也了解这情况的,我愿意花钱用付费接口嘛。。。
ALLROBOT
2021-05-12 18:45:33 +08:00
免费不行,就上付费的
cutemurphy2888
2021-05-12 19:24:56 +08:00
腾讯的同声传译
gainsurier
2021-05-12 19:48:40 +08:00
苹果本地有 api 可以直接调用
agoodob
2021-05-12 21:48:12 +08:00
实时? websocket 呗。
如果不用实时的,而且手头有 .mp3 .aac 等音视频文件希望拖到一个程序里直接转文字,看一下: https://github.com/1c7/Translate-Subtitle-File
inhzus
2021-05-12 22:06:18 +08:00
直接用现成的实时语音转文字,已经非常成熟了,别折腾自己。阿里云、腾讯等等都有,市场价 1-2 元每小时
ethanlu
2021-05-12 22:12:58 +08:00
ALLROBOT
2021-05-13 08:18:58 +08:00
@inhzus 那怎么引入那些成熟的产品接口。。。?我想搞个 AR 版的语音转文字,类似电子游戏的字幕一句句浮现眼前的效果
ALLROBOT
2021-05-13 08:19:24 +08:00
@gainsurier 苹果没试过,可以去试试
ALLROBOT
2021-05-13 08:20:03 +08:00
@gainsurier 你这么一说,我想起了微软好像也有,我去瞧瞧
inhzus
2021-05-13 09:23:14 +08:00
@ALLROBOT 直接去阿里云、腾讯云官网找 sdk 使用说明结合自己场景不就可以了。?
ALLROBOT
2021-05-13 13:21:36 +08:00
@inhzus https://ai.baidu.com/ai-doc/SPEECH/qk76b444d 已经在看百度语音的 sdk 手册了
@agoodob 了解 websocket 了,语音识别我没怎么接触,第一次接触这方面的。。。抱歉哈,在看 sdk 手册了,如楼上所言,根据 sdk 进行开发吧
muhuan
2022-01-30 11:54:29 +08:00
楼主最后选择的哪个?我也有一些 1h 左右的语音,想转化为文本
ALLROBOT
2022-02-11 13:14:16 +08:00
@muhuan 百度和讯飞
muhuan
2022-02-12 09:32:14 +08:00
@ALLROBOT 这些是收费的
ALLROBOT
2022-02-14 22:00:02 +08:00
@muhuan 小米-无障碍-语音转写文字,无限时长、免费、讯飞引擎~~~搞定了通知我哈,我想白嫖小米
muhuan
2022-02-15 08:46:22 +08:00
@ALLROBOT 赞赞赞

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/776553

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX