用 Whisper 的 AI 模型搞了个本机语音转文本及视频对话转录文本(字幕)的 app

2023-07-11 16:41:10 +08:00
 Marksdo

应用商店搜索 Whisper Mate 下载试试

以后看没字幕的片子也可以自己本机翻译来看了😅

具体支持以下功能

https://apps.apple.com/us/app/id6450404233

不会直接贴软件截图,只能发地址了 https://i.imgur.com/pZlbn2G.png https://i.imgur.com/Q4fIDRp.png https://i.imgur.com/H3Y2uRG.png

3932 次点击
所在节点    macOS
65 条回复
Socrazy
2023-07-11 16:50:27 +08:00
支持日语吗
zhufeilong
2023-07-11 17:02:04 +08:00
不买 Lifetime Plans 有什么限制吗?
Upperak1
2023-07-11 17:07:25 +08:00
看了下,不付费只能用简单模型
Marksdo
2023-07-11 17:33:17 +08:00
@Socrazy 多语言的模型支持日语,不要选中 English 的模型,并在多语言模型选定自动或者指定日语
Marksdo
2023-07-11 17:37:33 +08:00
@zhufeilong Free 的限止了不能使用大模型,大模型会比较准确,特别是英语 Only 的对英语是很准确的,只需矫正极少部分.如果是 M1 及 M2 的机器,使用 CoreML 的模块能极大的提升转录的速度
Marksdo
2023-07-11 17:38:54 +08:00
@Upperak1 如果日常用的上,可以帮助提升效率的话,帮忙回下血...😂
zhufeilong
2023-07-11 17:39:10 +08:00
@Marksdo #5 感谢
Marksdo
2023-07-11 17:51:08 +08:00
另外介绍下翻译那块,因为苹果商店不能明细写使用了破解的 Deepl 来实现免费翻译,其实可以 github 上找 deeplx 项目或者 zu1k/deepl 这两个项目,在 Whisper Mate 那里配制 local 类型的 deepl ,指向那两个逆向工程的 deeplx 项目,然后用但线程,间隔时间搞个 1-2 秒的,基本就免费随便翻译转录出来的文本了
gpt5
2023-07-11 20:55:45 +08:00
如果未来支持实时 speech to text 了,请艾特我一下。
ql562482472
2023-07-11 23:06:39 +08:00
有 windows 版本嘛?然后有日语就更好了
Chandleric
2023-07-11 23:09:18 +08:00
导出的 SRT 字幕文件好像格式不对?时间轴和文本的位置颠倒了,导致播放软件都无法识别。另外在哪里可以导出双语字幕呢?我好像没有找到这个功能。如果能能解决的话以后看剧就不用等字幕组了,感谢作者!
Marksdo
2023-07-12 09:28:37 +08:00
@gpt5 这个可以说下具体场景吗?我看下具体怎么来弄实现
Marksdo
2023-07-12 09:29:41 +08:00
@Chandleric 😅..我修复下
Marksdo
2023-07-12 09:30:40 +08:00
@ql562482472 window 版本不会弄,都是弄 mac 上的 app ,还有其它几个小 App 有用的可以玩下哈
gpt5
2023-07-12 09:45:50 +08:00
@Marksdo 比如在线会议,如果对方安全设置比较严格,zoom/teams 都无法打开软件自带的字幕功能(对我个人来说,我需要实时字幕,不需要翻译)。bemyears (作者也在 v 站)有实时字幕功能,但感觉准确度不是很高。
LAMBO
2023-07-12 09:54:14 +08:00
CoreML 模块开启后,字幕是简体和繁体混排的,请问是正常的吗
LAMBO
2023-07-12 10:06:41 +08:00
测试了一下,并不是 CoreML 导致的。但很奇怪,我在抖音上下载了一个短视频,转换出来,字幕始终都是简繁字体混排的,但测试 YouTube 上的长视频就正常,字幕文字一直是简体。
Marksdo
2023-07-12 10:14:52 +08:00
@gpt5 这个有计划做的,也是针对这种场景,但必须上 macOS13+,估计要一周
Marksdo
2023-07-12 10:18:21 +08:00
@LAMBO 正常,开发时也遇到这个问题,应该上 whisper 模型本身问题,看后面如果模型有更新,跟随看下,如果只是 coreml 开启后才出问题的可能上转 coreml 模型时裁枝了,fp32->fp16 了
LAMBO
2023-07-12 10:30:38 +08:00
@Marksdo 感谢,反复测试了下,应该和 coreml 无关。可能就是 whisper 模型本身问题导致的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/955886

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX