请问现在的音频自动断句有没有通用的方法?
最近在做听写 但是中间停顿的时间太短 所以想要自动断句 把停顿的时间延长 就不用一直手动回退和暂停了
谢谢
[Edit] 识别音频的内容并非必要 因为我有原文 如果不需要识别音频内容就能断句会更好
1
Nosub 174 天前 via iPhone
vad 了解一下。
|
2
vivisidea 174 天前
1. vad +1 基本思路就是音频先转 pcm ,然后做 vad 切分
2. 偷懒的话可以直接调用 asr 供应商,百度/阿里之类的好像都会有点免费额度,一般返回 text 都带 timestamp 的,按照 timestamp 切就行 |
3
subtleworks OP @Nosub 谢谢
|
4
subtleworks OP @vivisidea 谢谢 第一点有 vad 的库吗
|
5
vivisidea 174 天前
@subtleworks #4 我知道有 python 的 https://pypi.org/project/webrtcvad-wheels/ ,你找找又没其它语言的,这个是 google 之前开源的 webrtcvad
|
6
lts9165 174 天前
https://github.com/snakers4/silero-vad
开源的里面这个比较好 |
7
AS4694lAS4808 174 天前 via Android
可以私有部署阿里的 funasr 带 punc 的模型,有时间戳
|
8
subtleworks OP @vivisidea 好的 谢谢
|
9
subtleworks OP @lts9165 谢谢 不过 python 我不会
|
10
subtleworks OP @AS4694lAS4808 谢谢 私有部署有点麻烦 相比之下我还是用商用的免费额度吧
|
11
lts9165 174 天前
@subtleworks 是 onnx 的模型,多种语言都可以调用
|
12
subtleworks OP @lts9165 啊 我看见了 web 版本的在这里 https://github.com/ricky0123/vad
|
13
1543544726zy 174 天前
小米的没人用吗
|