说话人分割用什么模型比较好？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

小规模会议场景（小于 10 人）下的说话人分割，希望能流式处理，请问什么模型延迟和准确性比较好呢？

提前感谢大佬回复！

（目前试过 funasr 的 cam++，分割效果不太好）

9 条回复 • 2024-05-07 22:50:57 +08:00

czfy

12 天前

q0000001

12 天前 via Android

多嘴问问，funasr 可以流式识别说话人？

BMPixel

12 天前

我之前自己试了几个，WhisperX 效果是最好的，不过好像不能流式。

Leon6868

12 天前

@q0000001 #2 readme 中有 cam++

Leon6868

12 天前

@czfy #1 好文档，不过没怎么提到说话人分割

q0000001

11 天前

@Leon6868 我也看到有，但是基本上都是非实时语音识别才有加载 cam++，看到 issue 里面说流式没有，所以一直没看到。
能再问问你是用 paraformer-zh-streaming 这个，再加载 cam++吗？

roding

11 天前

为什么要分割人😱

Leon6868

11 天前

@q0000001 #6 我描述得确实不太准确，当时是采用滑窗方式分割说话人的，类似 3s 历史+2s(未处理）这样（迫真流式）。我也没找到近期实时说话人识别/分割的工作，如果见到类似的工作欢迎多交流🙏

q0000001

11 天前 via iPhone

@Leon6868 明白明白。
没问题，最近都在搞这个，突然看到眼前一亮。哈哈。
大概原理懂了。嗯嗯，多交流。