说话人分割用什么模型比较好？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 536 天前的主题，其中的信息可能已经有所发展或是发生改变。

小规模会议场景（小于 10 人）下的说话人分割，希望能流式处理，请问什么模型延迟和准确性比较好呢？

提前感谢大佬回复！

（目前试过 funasr 的 cam++，分割效果不太好）

模型

延迟

准确性

13 条回复 • 2024-12-04 11:31:39 +08:00

jr55475f112iz2tu

2024-05-06 22:08:36 +08:00

https://github.com/fighting41love/funNLP?tab=readme-ov-file#语音处理

这里找找看

q0000001

2024-05-06 23:06:22 +08:00 via Android

多嘴问问，funasr 可以流式识别说话人？

BMPixel

2024-05-07 09:14:22 +08:00

我之前自己试了几个，WhisperX 效果是最好的，不过好像不能流式。

Leon6868

2024-05-07 10:31:20 +08:00

@q0000001 #2 readme 中有 cam++

Leon6868

2024-05-07 10:37:19 +08:00

@czfy #1 好文档，不过没怎么提到说话人分割

q0000001

2024-05-07 15:32:54 +08:00

@Leon6868 我也看到有，但是基本上都是非实时语音识别才有加载 cam++，看到 issue 里面说流式没有，所以一直没看到。
能再问问你是用 paraformer-zh-streaming 这个，再加载 cam++吗？

roding

2024-05-07 16:20:30 +08:00

为什么要分割人😱

Leon6868

2024-05-07 21:37:12 +08:00

@q0000001 #6 我描述得确实不太准确，当时是采用滑窗方式分割说话人的，类似 3s 历史+2s(未处理）这样（迫真流式）。我也没找到近期实时说话人识别/分割的工作，如果见到类似的工作欢迎多交流🙏

q0000001

2024-05-07 22:50:57 +08:00 via iPhone

@Leon6868 明白明白。
没问题，最近都在搞这个，突然看到眼前一亮。哈哈。
大概原理懂了。嗯嗯，多交流。

Leon6868

2024-05-23 20:29:26 +08:00

@q0000001 #9 最近尝试了一个非常好的项目，sherpa onnx ，在 asr 和说话人分割/识别方面基本能满足我的需求，你可以试一下

johnabyss

2024-06-05 16:33:28 +08:00

@Leon6868
劳烦问一下，sherpa onnx 有说话人日志（ speaker-diarization ）的预训练模型么？我只找到了说话人确认的

Leon6868

2024-06-06 20:09:31 +08:00

@johnabyss #11 vad speaker recognition 组合一下不就是了？

5gmobiler

325 天前

@Leon6868 请问下，sherpa onnx 支持实时/流式语音识别过程中的多说话人识别？谢谢！