说话人分割用什么模型比较好？

205 天前

Leon6868

小规模会议场景（小于 10 人）下的说话人分割，希望能流式处理，请问什么模型延迟和准确性比较好呢？

提前感谢大佬回复！

（目前试过 funasr 的 cam++，分割效果不太好）

1127 次点击

所在节点

问与答

12 条回复

czfy

204 天前

https://github.com/fighting41love/funNLP?tab=readme-ov-file#语音处理

这里找找看

q0000001

204 天前

多嘴问问，funasr 可以流式识别说话人？

BMPixel

204 天前

我之前自己试了几个，WhisperX 效果是最好的，不过好像不能流式。

Leon6868

204 天前

@q0000001 #2 readme 中有 cam++

Leon6868

204 天前

@czfy #1 好文档，不过没怎么提到说话人分割

q0000001

204 天前

@Leon6868 我也看到有，但是基本上都是非实时语音识别才有加载 cam++，看到 issue 里面说流式没有，所以一直没看到。
能再问问你是用 paraformer-zh-streaming 这个，再加载 cam++吗？

roding

204 天前

为什么要分割人😱

Leon6868

203 天前

@q0000001 #6 我描述得确实不太准确，当时是采用滑窗方式分割说话人的，类似 3s 历史+2s(未处理）这样（迫真流式）。我也没找到近期实时说话人识别/分割的工作，如果见到类似的工作欢迎多交流🙏

q0000001

203 天前

@Leon6868 明白明白。
没问题，最近都在搞这个，突然看到眼前一亮。哈哈。
大概原理懂了。嗯嗯，多交流。

Leon6868

188 天前

@q0000001 #9 最近尝试了一个非常好的项目，sherpa onnx ，在 asr 和说话人分割/识别方面基本能满足我的需求，你可以试一下

johnabyss

175 天前

@Leon6868
劳烦问一下，sherpa onnx 有说话人日志（ speaker-diarization ）的预训练模型么？我只找到了说话人确认的

Leon6868

174 天前

@johnabyss #11 vad speaker recognition 组合一下不就是了？

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1038211

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.