有没有能识别多人声音的 AI 工具呢

73 天前
iceriver99  iceriver99

就是我现在有一个视频,这个视频中有三个人在对话,我想通过语音识别来分别识别出这三个人都谁说了哪句话,并且把它导出成文本标记出来。然后方便我去做翻译。。。

1237 次点击
所在节点   问与答  问与答
14 条回复
kirieievk
kirieievk
73 天前
关注!
Perry
Perry
73 天前
有很多 Podcast 生产力工具支持这样的,Perplexity 搜下试试看?
vopin
vopin
72 天前
同样需求,一年多前调查的时候暂时没找到一步到位的工具。whisper 虽然很厉害了但是分辩人不行,一些经典机器学习方法也不完美。
现在不知道怎样了
NOneKnowYeah
NOneKnowYeah
72 天前
通义听悟
gpt5
gpt5
72 天前
我记得当年学 svm 的时候,老师给过一个例子,用 1 行 matlab 代码(非工具箱)就实现了区分不同人的声音。
JayZXu
JayZXu
72 天前
飞书个人版的妙记
直接上传视频,会自动生成字幕而且匹配发音人
可能会识别出多个发音人,改下标注就行了
而且还能切换各种语言翻译的结果
mfy
mfy
72 天前
sherpa-onnx ,FunASR
这两个都可以。测试下来,感觉 sherpa-onnx 识别的准确度稍高一些;使用上 FunASR 简单一些。
evan1
evan1
72 天前
钉钉会议可以实现,用过一两次。识别准确率估计 80%-90%左右。
evan1
evan1
72 天前
@evan1 是会议还是直播忘记了。

当时看到这个功能大受震撼。
evan1
evan1
72 天前
@evan1 没注意是已有视频。这样的话可以看看转录行不行。
dzdh
dzdh
72 天前
阿里的语音识别 API 可。
jiobanma
jiobanma
72 天前
阿里的通义听悟
Daybyedream
Daybyedream
72 天前
飞书那个 一直可以 讯飞妙计
Tuuure
Tuuure
72 天前
我没办法给出具体的解决方案,但这种需求一般被叫做“鸡尾酒会问题”,可以用这个作为关键词去搜索一下

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1104848

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX