找不到好用的视频生成字幕及翻译字幕软件,于是我开源了一款

174 天前
 buxuku2008

[!TIP]

客户端版本地址: https://github.com/buxuku/video-subtitle-master ,欢迎大家使用体验

自己之前下载了一些外文视频(我说是学习视频,而非岛国视频,你信吗?哈哈!),没有字幕,希望能够添加字幕文件,同时也能够将字幕文件翻译成中文, 还希望能够通过批量处理的方式来减轻工作量。

类似需求,有一批厂商已经提供到了支持,比如 讯飞听见, 网易见外 等,但这些在线服务都涉及到视频的上传动作,效率相对比较低下。

希望能够找一个客户端工具,在本地来生成,试用了一些工具( Mac 平台),依然不理想

找不到好用的,干脆就自己来写个工具吧,因为自己是做前端的,想到的就是用 Nodejs 写脚本来批量处理实现。核心流程就是通过 ffmpeg 提取音频,通过 whisper 生成字幕文件,通过翻译 api 把字幕文件翻译成中文字幕文件,然后就可以在播放器里面挂载字幕了。

我把这个工具开源了,地址: https://github.com/buxuku/VideoSubtitleGenerator , 后面非常荣幸得到了一峰大佬的推荐,一峰大佬的影响力果然非同凡响,推荐之后,这个项目的 star 数直线蹭蹭上涨,一下子就得到了 300 多 star, 给我了很大的鼓舞。

同时,我也发现,小工具,自己用用很简单,但要把它开源,做成好用的产品,还是有一定难度的,比如我这个小工具,要使用它,需要在电脑上提前安装好 whisper 和 ffmpeg, 这本身就有一点门槛了。

于是我进行了迭代了,把 whisperffmpeg 集成到了工具里,不需要用户下载了,减少了很多步骤,但它依然还是一个命令行的工具,需要在终端里面使用,同时修改配置也需要在配置文件里面进行修改,使用上还是有一些难度的。

进一步想想,那我干脆把它做一个客户端工具好了,所有的配置操作都可视化, 这样使用上就没有什么门槛了,大家使用起来也非常方便了。

啃了一下 electron 的文档,集成 ffmpeg, 通过 nextjs + shadcn + tailwindcss 写前端页面,把整个命令行工具的能力集成到了这个客户端工具里面。整体效果如下图:

当然,它还只是一个初始版本,也非常欢迎 V 友们尝试使用,提出宝贵的意见和建议,我将持续更新迭代,让它能够更好地帮助到有需要的朋友们。

这是项目的地址: https://github.com/buxuku/video-subtitle-master 欢迎 V 友赐 star 一枚🤝

3401 次点击
所在节点    分享创造
42 条回复
skyqiao
174 天前
👍 以前需要过,用了飞书妙记。
yangwcool
174 天前
有没有 windows 版的计划?
zhw2590582
174 天前
Nosub
174 天前
作为一个字幕软件开发者有感而发。

为啥国内的开发者都在卷套壳(套 whisper ),不卷底层技术,比如视频播放器,时间轴,字幕编辑器。

我不是鄙视国内开发者没有技术水平,而是过于浮躁;

重复造轮子并没有解决任何问题;

我不想说批量生成视频字幕是伪需求,请问什么人需要批量生成视频字幕呢?

字幕制作本身就是一个精细化的流程,并不是求快的结果;

就像楼上所说的,你用 whisper 再怎么 CPU/GPU 加速,有飞书妙记和剪映快和效果好吗。

这本身就是本末倒置,用一个效率更低的生产工具替代一个更好的工具,比如:剪映;
Ericxiaoshuang
174 天前
@Nosub 国内这机吧土地,卷的首先是生存问题,然后才可能闲心搞技术
伪需求?看应用场景,海外电动汽车,火箭,星链互联网,脑机接口,
renmu
174 天前
@Nosub 其实楼主不是一个字幕软件者,他只是一个想要翻译字幕的人,他不需要对字幕的准确性负责。
我曾看到过下载 YouTube 视频提取字幕编码上传一条龙的工具,我不知道除了垃圾搬运号谁还需要这种工具
Ericxiaoshuang
174 天前
@Ericxiaoshuang 国内尽是些红包,微商,搬运剪辑,真的是能力不行么? icp 备案,404 ,烂尾楼,哪一个不是往死里整
纯技术层面来说,剪映再好,也无法个性化(自定义),免费最终会收费,再加个敏感词检测,一不小心识别了啥喝茶
0Z03ry75kWg9m0XS
174 天前
@Nosub Linux 上有什么好用的推荐么。kdenlive 现在也是用的 whisper 识别
buxuku2008
174 天前
@Nosub 我确实不是一名字幕软件者,我也只是在看外国的一些学习视频时,能够一个字幕方便看。所以不需要对字幕的准确性,以及时间轴的准确性有多高的要求。所以对于字幕开发者,或者视频创作者而言,那是另外一个方面的追求了。肯定要求的更加精细化的追求而不是简单通过工具去生成。

@renmu 我的初衷确实也没有想到还有垃圾搬运这样的场景。只是想有一个本地化的工具,对自己看一些视频有挂个字幕,而方便生成的一个工具而已。哈哈。
shuxhan
174 天前
歪下楼,我比较好奇把图片加阴影是什么工具做的 @buxuku2008
buxuku2008
174 天前
@shuxhan
Shottr 这个免费的截图软件,使用 Capture Active Window 就可以自动截取活动窗口了。
jatesun
174 天前
我想问一下有没有实时生成在线字幕的方法?或者类似的思路
buxuku2008
174 天前
@yangwcool
是有这个计划了,但因为手头没有 window 电脑,只能用虚拟机来跑,进度可能会比较慢一点。
buxuku2008
174 天前
@jatesun
我也在思考这个问题,比如我在看 youtube 时,实时生成字幕。只能想到提前拿到视频进行生成,然后对上时间轴去展示。要真实现播放时的那种实时生成,肯定会存在延迟的, 之前试过华为的那个 ai 翻译,它是边识别边修正,实际体验感觉并不是特别理想。
jatesun
174 天前
@buxuku2008 #14 已 star ,感谢回复,我一直就在想如何做一款实时视频在线生成的工具,感觉很多人有这种需求,毕竟现在很少有人下载视频了,基本都是在线。我再深入研究一下。
thinkm
174 天前
请教一下断句的问题,whisper 很多时候断句会断在奇怪的位置

然后翻译是一行一行翻译的,结果就不准确

OP 怎么解决这个问题的,是不是用了上下文,一次性扔几行给翻译服务?
xianyun5
174 天前
之前一直想弄个,结果大佬直接开源了,谢谢分享,已经 star
NoOneNoBody
174 天前
@Nosub #4
对于字幕工作者,一直是感恩的

但现实是软字幕很难找(欧美还好一点),明明手头有 4k 或 1080p 更好的视频源,但很多时候为了看得明白,需要下载 720p 熟肉,显得很无奈。而且连吐槽的资格也没有,道德制高点已被占领,一开口就被淹没,只好选择硬着头皮看英文字幕,或者选择离开,OP 此类作品的出现,算是多了一个选择

感觉是所有圈子都在圈地,唉
digd
174 天前
很久之前用过 autosub ,调用 youtube 的 api 的,还挺好用的,但是不稳定
SawyerGuo
174 天前
我之前也用 whisper 和 Electron 开发了个 windows 的客户端,开发完了也就自己用了一两次,后来项目都没再打开过。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1043476

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX