寻找工具或者轮子,能根据字幕切分音频

2020-04-12 10:20:22 +08:00
 Hades300

想象中能切成一句话一个文件的样子,大家有没有见过此类工具呢... 没有的话就要自己写了...

1956 次点击
所在节点    问与答
9 条回复
revalue
2020-04-12 10:24:22 +08:00
如果弄出来可以加到 /t/661117
love
2020-04-12 11:32:57 +08:00
我搞过一个轮子,发现字幕文件的时间并不精准,在观看整个完整电影的时候是查觉不出来的,但分句就有问题了,如果人讲的话长一点,很多时候分出来会少半个词。。。除非一次切相近大段话成一个文件,比如设定 2 秒内讲的话全放在一起,但这样效果有时也不好(看电影情况)
rock_cloud
2020-04-12 11:38:54 +08:00
建议找现成的 ASR api,一般都会带时间戳输出的
klesh
2020-04-12 12:32:33 +08:00
有字幕文件吗?里面都带有时间戳。
音频分离和切割可以用 ffmpeg 。
这个用 shell 脚处理一下应该很方便。
Hades300
2020-04-12 12:57:18 +08:00
@revalue 好的 目前基于 ffmpeg 找到了一个分离视频的 https://github.com/foone/SplitBySubs/
Hades300
2020-04-12 12:57:41 +08:00
@love 我也有点担心,,
Hades300
2020-04-12 12:58:23 +08:00
@rock_cloud
@klesh 确实 字幕里有准确的时间戳,已经在翻 ffmpeg 文档了,感谢~
rock_cloud
2020-04-12 16:18:37 +08:00
@Hades300 可能你误解了,我的意思是找语音识别的接口,这种接口会给出每个字准确的时间,能够精确到百分之一秒,如果你需要这样高精度的时间戳的话
mgrddsj
2020-04-13 01:39:39 +08:00
https://github.com/lowerquality/gentle

另:
@revalue #1 YouTube 上的 carykh 做了一个类似的(但没有虚拟人物)
详见视频: <amp-youtube data-videoid="Jr9sptoLvJU" layout="responsive" width="480" height="270"></amp-youtube>

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/661619

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX