用 Whisper 的 AI 模型搞了个本机语音转文本及视频对话转录文本(字幕)的 app

2023-07-11 16:41:10 +08:00
 Marksdo

应用商店搜索 Whisper Mate 下载试试

以后看没字幕的片子也可以自己本机翻译来看了😅

具体支持以下功能

https://apps.apple.com/us/app/id6450404233

不会直接贴软件截图,只能发地址了 https://i.imgur.com/pZlbn2G.png https://i.imgur.com/Q4fIDRp.png https://i.imgur.com/H3Y2uRG.png

3935 次点击
所在节点    macOS
65 条回复
Catch6
2023-07-12 10:58:00 +08:00
这玩意我记得有协议限制,不能商用,你可小心点吧
awfe
2023-07-12 10:58:52 +08:00
第一次下载模型到 66%的时候停住不动了,点击停止后再重新下载出现这个错误。切换到东京和新加坡的服务器也是一样。重新打开也是一样。
saberw
2023-07-12 11:02:46 +08:00
@gpt5 Win11 有实时字幕,甚至能识别抽象的日式英语发音
zhufeilong
2023-07-12 11:43:08 +08:00
@Catch6 开源模型吧,而且国外已经非常多的竞品了,像 MacWhisper 、WhisperScript 用高级模型也都是要收费🤡
Marksdo
2023-07-12 11:54:40 +08:00
@awfe 这个服务器在国外,如果不稳定行要 FQ 来下载.
Marksdo
2023-07-12 11:59:53 +08:00
把国区价格改为了$4.99 ,谢谢大家的建议!
gpt5
2023-07-12 12:05:00 +08:00
@saberw 但是 win11 自带那个只有英语。。比如整理会议记录时,还需要中文。
z1249502889
2023-07-12 18:26:33 +08:00
在预览字幕的时候,视频稍微长一点,会特别卡。上面也有人说过的,srt 导出格式是错误的,没法正常导入视频观看。
saberw
2023-07-15 23:46:47 +08:00
@gpt5 开发版可以选择语言,中英日都有,我都用半年了
gpt5
2023-07-16 12:31:09 +08:00
@saberw 卧槽,试了一下,精度和速度都还不错。
minamike
2023-07-16 18:11:03 +08:00
发现了一个骚操作
先下载一个最小的模型和 CoreML 模型
然后用网上下载的编译好的 large 模型和 CoreML 模型替换掉就好了🐶
zhangwb2008
2023-07-16 20:22:48 +08:00
推荐个免费的竞品 Windows/Mac 通用 https://mxmefbp9p0g.feishu.cn/docx/ZI3ldweTXorTvMxYLbucT00Un5n
Marksdo
2023-07-22 10:11:21 +08:00
@minamike 😅,被你发现你
Marksdo
2023-07-22 10:40:53 +08:00
@z1249502889 SRT 格式错误的新版本已经修复,可以更新试试,字幕多卡的问题,已记录下,会修复的!感谢提供 BUG
minamike
2023-07-22 11:17:47 +08:00
@Marksdo #33 主要是不知道为啥购买界面一片空白,难道是我的系统是 14.0 测试版的原因
Marksdo
2023-07-22 18:50:28 +08:00
@minamike 还没在 14.0 上测试过,开发机只有一台也不敢贸然升级上去
Marksdo
2023-07-22 18:52:32 +08:00
@minamike 还没在 14.0 上测试过,开发机只有一台也不敢贸然升级上去
@z1249502889 我测试了一部 2 个多小时的影片没感觉到卡(转换后),如果在转换中去看是会卡的,whisper 默认是只保留 2 个核心给用户其它地方使用,其它都用来做计算了
z1249502889
2023-07-22 21:41:37 +08:00
@Marksdo #37 具体表现是,随便拉翻译后的字幕,字幕的顺序会错乱,对应不到播放条上。如果音频时间比较长,字幕拉到一半,然后再拉到最开始的地方,会发现字幕不能回到最开始的时间点。
zhufeilong
2023-07-26 13:40:21 +08:00
@z1249502889 #38 我也遇到了这个问题 @Marksdo 希望有空能修复字幕顺序错乱的问题
azurerayus
2023-08-04 19:10:06 +08:00
作者,经过使用发现了一点问题还有需要几个功能改进
已知问题:
1 、在原始字幕进行翻译后,发现错误进行修改原始字幕。再进行单行翻译,在左侧列表下依旧显示过往的错误翻译。没有进行翻译更新,但是在右侧的字幕预览中倒是没有问题。
2 、更改字幕效果中的透明度无效,一旦尝试更改就始终维持在 100%不透明状态。

功能需求:
1 、增加对于 whisper api 的支持,可以放在付费项。这个对于低配机来说的确重要。就是一个分离音轨提交 api 就行。
2 、增加对于 chatgpt 翻译支持,这个有很多成熟案例。AI 翻译还是要效果好一些,如果支持自定义 prompt ,那么对于一些视频先大致指定内容和翻译角色,应该效果会好很多。

这个软件的功能其实我自己也尝试做过,这是个普遍的需求大家都有。一般再集成一个 youtube 下载器,支持部分网址的直接解析下载。本地识别或者 api 识别再翻译就是很流畅的流程了。

价格方面本来看到有 5 刀,结果到昨天晚上就是 20 刀了。这个常态化价格我觉得还是在 10 刀以下更吸引人购入。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/955886

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX