从音频中分离中英文,有什么成熟的技术方案?

2020-04-04 13:15:19 +08:00
 cnleoyang
对于混合了英文和中文(翻译)的音频,是否有比较成熟的技术产品 /服务可以实现单种语言内容的剥离?类似于自动剪辑为单中文或单英文的音频。
4272 次点击
所在节点    程序员
17 条回复
XanderChen
2020-04-04 13:43:58 +08:00
emmmm...找个厉害的音频编辑软件,看看有没有独立音轨?然后提取出来?

(是不是叫音轨?有错请指正。)

大概就能想到这方法。还是你想用代码写个提取的工具,ffmpeg 看看有没有相关的方法?

如果没有独立音轨...emmm...

那就等大佬的方案吧...
JerryCha
2020-04-04 14:52:57 +08:00
不知道
大概频域处理吧,两个人的说话声音肯定不一样,响度也可能不一样
当然各自独立一条轨道肯定最容易处理
V69EX
2020-04-04 14:57:10 +08:00
像 youtube 用的那种语音转字幕的软件,应该可以,字幕上有时间,根据转换后的文字是中文还是英文来反过来将视频分片。
V69EX
2020-04-04 14:57:48 +08:00
就算软件只能识别英文也没问题,不能识别的就当中文了。
llj5935
2020-04-04 15:10:50 +08:00
讯飞听见的语音技术可以识别中文中夹杂的英文单词,说明其算法能力具备识别中英文的功能。但是他们还没有做剪辑剥离,相信既然能识别,做剥离是很简单的了。
cnleoyang
2020-04-04 15:16:39 +08:00
@XanderChen @JerryCha 谢谢。录音时没有考虑到音轨分离的问题,所以已经无法通过音轨来分离了。

@V69EX Youtube 可以对纯英文的内容生成 CC,但混合语言的就不会生成了。
cnleoyang
2020-04-04 15:17:12 +08:00
@llj5935 感谢提供,我去看看。
diggerdu
2020-04-04 15:31:38 +08:00
如果不是一个人说过的可以先做 speaker diarization
llj5935
2020-04-04 15:32:49 +08:00
@cnleoyang 你可以通过讯飞听见自动形成时间轴,再通过时间轴自己做批量剥离
cnleoyang
2020-04-04 16:15:22 +08:00
@llj5935 不错的思路,谢谢。
cnleoyang
2020-04-04 16:15:53 +08:00
@diggerdu 请问有技术方案可以提供么?
w1573007
2020-04-04 16:52:01 +08:00
开源项目:spleeter 。主要是音频人声分离,不过这个主要是对音乐中的人声进行提取,生成干音。楼主可以试试,我用它分离干音品质可以进行重新混音
diggerdu
2020-04-04 17:18:13 +08:00
@cnleoyang 开源的都不行 有算法工程师可以自己拿数据训
cnleoyang
2020-04-04 21:03:55 +08:00
@diggerdu 理解了。
winterbells
2020-04-04 21:55:00 +08:00
你这个 idea 实现起来有点 difficult 啊
CaiXiaobai
2020-04-04 22:09:05 +08:00
科大讯飞有 声音识别转文字,你值得拥有
liuzhiyong
2020-04-05 13:25:26 +08:00
同意楼上的,这方面科大讯飞比较猛,用过他们的 TTS,非常牛。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/659315

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX