如何实现音频自动断句

174 天前
 subtleworks

请问现在的音频自动断句有没有通用的方法?

最近在做听写 但是中间停顿的时间太短 所以想要自动断句 把停顿的时间延长 就不用一直手动回退和暂停了

谢谢

[Edit] 识别音频的内容并非必要 因为我有原文 如果不需要识别音频内容就能断句会更好

1467 次点击
所在节点    Node.js
13 条回复
Nosub
174 天前
vad 了解一下。
vivisidea
174 天前
1. vad +1 基本思路就是音频先转 pcm ,然后做 vad 切分
2. 偷懒的话可以直接调用 asr 供应商,百度/阿里之类的好像都会有点免费额度,一般返回 text 都带 timestamp 的,按照 timestamp 切就行
subtleworks
174 天前
@Nosub 谢谢
subtleworks
174 天前
@vivisidea 谢谢 第一点有 vad 的库吗
vivisidea
174 天前
@subtleworks #4 我知道有 python 的 https://pypi.org/project/webrtcvad-wheels/ ,你找找又没其它语言的,这个是 google 之前开源的 webrtcvad
lts9165
174 天前
https://github.com/snakers4/silero-vad
开源的里面这个比较好
AS4694lAS4808
174 天前
可以私有部署阿里的 funasr 带 punc 的模型,有时间戳
subtleworks
174 天前
@vivisidea 好的 谢谢
subtleworks
174 天前
@lts9165 谢谢 不过 python 我不会
subtleworks
174 天前
@AS4694lAS4808 谢谢 私有部署有点麻烦 相比之下我还是用商用的免费额度吧
lts9165
174 天前
@subtleworks 是 onnx 的模型,多种语言都可以调用
subtleworks
174 天前
@lts9165 啊 我看见了 web 版本的在这里 https://github.com/ricky0123/vad
1543544726zy
174 天前
小米的没人用吗

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1043727

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX