V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
Leon6868
V2EX  ›  问与答

说话人分割用什么模型比较好?

  •  
  •   Leon6868 · 12 天前 · 697 次点击

    小规模会议场景(小于 10 人)下的说话人分割,希望能流式处理,请问什么模型延迟和准确性比较好呢?

    提前感谢大佬回复!

    (目前试过 funasr 的 cam++,分割效果不太好)

    9 条回复    2024-05-07 22:50:57 +08:00
    q0000001
        2
    q0000001  
       12 天前 via Android
    多嘴问问,funasr 可以流式识别说话人?
    BMPixel
        3
    BMPixel  
       12 天前
    我之前自己试了几个,WhisperX 效果是最好的,不过好像不能流式。
    Leon6868
        4
    Leon6868  
    OP
       12 天前
    @q0000001 #2 readme 中有 cam++
    Leon6868
        5
    Leon6868  
    OP
       12 天前
    @czfy #1 好文档,不过没怎么提到说话人分割
    q0000001
        6
    q0000001  
       11 天前
    @Leon6868 我也看到有,但是基本上都是非实时语音识别才有加载 cam++,看到 issue 里面说流式没有,所以一直没看到。
    能再问问你是用 paraformer-zh-streaming 这个,再加载 cam++吗?
    roding
        7
    roding  
       11 天前
    为什么要分割人😱
    Leon6868
        8
    Leon6868  
    OP
       11 天前
    @q0000001 #6 我描述得确实不太准确,当时是采用滑窗方式分割说话人的,类似 3s 历史+2s(未处理)这样(迫真流式)。我也没找到近期实时说话人识别/分割的工作,如果见到类似的工作欢迎多交流🙏
    q0000001
        9
    q0000001  
       11 天前 via iPhone
    @Leon6868 明白明白。
    没问题,最近都在搞这个,突然看到眼前一亮。哈哈。
    大概原理懂了。嗯嗯,多交流。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2279 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 07:11 · PVG 15:11 · LAX 00:11 · JFK 03:11
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.