说话人分割用什么模型比较好?

205 天前
 Leon6868

小规模会议场景(小于 10 人)下的说话人分割,希望能流式处理,请问什么模型延迟和准确性比较好呢?

提前感谢大佬回复!

(目前试过 funasr 的 cam++,分割效果不太好)

1127 次点击
所在节点    问与答
12 条回复
czfy
204 天前
q0000001
204 天前
多嘴问问,funasr 可以流式识别说话人?
BMPixel
204 天前
我之前自己试了几个,WhisperX 效果是最好的,不过好像不能流式。
Leon6868
204 天前
@q0000001 #2 readme 中有 cam++
Leon6868
204 天前
@czfy #1 好文档,不过没怎么提到说话人分割
q0000001
204 天前
@Leon6868 我也看到有,但是基本上都是非实时语音识别才有加载 cam++,看到 issue 里面说流式没有,所以一直没看到。
能再问问你是用 paraformer-zh-streaming 这个,再加载 cam++吗?
roding
204 天前
为什么要分割人😱
Leon6868
203 天前
@q0000001 #6 我描述得确实不太准确,当时是采用滑窗方式分割说话人的,类似 3s 历史+2s(未处理)这样(迫真流式)。我也没找到近期实时说话人识别/分割的工作,如果见到类似的工作欢迎多交流🙏
q0000001
203 天前
@Leon6868 明白明白。
没问题,最近都在搞这个,突然看到眼前一亮。哈哈。
大概原理懂了。嗯嗯,多交流。
Leon6868
188 天前
@q0000001 #9 最近尝试了一个非常好的项目,sherpa onnx ,在 asr 和 说话人分割/识别 方面基本能满足我的需求,你可以试一下
johnabyss
175 天前
@Leon6868
劳烦问一下,sherpa onnx 有说话人日志( speaker-diarization )的预训练模型么?我只找到了说话人确认的
Leon6868
174 天前
@johnabyss #11 vad speaker recognition 组合一下不就是了?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1038211

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX