用 Whisper 的 AI 模型搞了个本机语音转文本及视频对话转录文本(字幕)的 app

2023-07-11 16:41:10 +08:00
 Marksdo

应用商店搜索 Whisper Mate 下载试试

以后看没字幕的片子也可以自己本机翻译来看了😅

具体支持以下功能

https://apps.apple.com/us/app/id6450404233

不会直接贴软件截图,只能发地址了 https://i.imgur.com/pZlbn2G.png https://i.imgur.com/Q4fIDRp.png https://i.imgur.com/H3Y2uRG.png

4086 次点击
所在节点    macOS
65 条回复
azurerayus
2023-08-04 19:13:25 +08:00
对了,hugging face 上已经有了 whisper.cpp 再进行 coreml 转换的模型了,各个规模都有,增加下载链接就可以了,没必要还本地再转换。
Marksdo
2023-08-08 09:52:50 +08:00
@z1249502889 试试最新的 3.5 版本是否还有这个问题?
@zhufeilong 试试最新的 3.5 版本是否还有这个问题?
Marksdo
2023-08-08 10:04:23 +08:00
@azurerayus 1 、在原始字幕进行翻译后,发现错误进行修改原始字幕。再进行单行翻译,在左侧列表下依旧显示过往的错误翻译。没有进行翻译更新,但是在右侧的字幕预览中倒是没有问题。
回复:这个问题试试修改完后按 command+e 切换回非编辑状态,发现编辑的 TextFields 就是有这个问题,暂时没找到比较好的解决,我再找下

2.更改字幕效果中的透明度无效,一旦尝试更改就始终维持在 100%不透明状态。
回复:记录下了,应该是 bug,在下个版本 V3.5.1 修改


功能需求:
1 、增加对于 whisper api 的支持,可以放在付费项。这个对于低配机来说的确重要。就是一个分离音轨提交 api 就行。
回复: 其实现在音轨已经是分离的,低配机好像也没场景用这个啊?不过用 whisper api 来翻译估计能再准确不少,我看下后面怎么整合进来,顺便介绍下新的 V3.5 已经可以对任何一条文案下载其音轨,并且选择多个字幕下载会自动合并为一条音轨

2 、增加对于 chatgpt 翻译支持,这个有很多成熟案例。AI 翻译还是要效果好一些,如果支持自定义 prompt ,那么对于一些视频先大致指定内容和翻译角色,应该效果会好很多。
回复:套 chatGPT 的不好弄,起码国内用不了,苹果发了邮件说我类似 GPT 的在国内已经下架....Motrix App 直接白搞

一般再集成一个 youtube 下载器,支持部分网址的直接解析下载。本地识别或者 api 识别再翻译就是很流畅的流程了。
回复:下载 Youtube 的不知道能不能上架苹果商店,套到不难,下个版本试试


价格问题是这样上次苹果发邮件给我说国内有 ZC 不能上带 GPT 的上架,想着不对国内了就加价割老外了...,不急的老爹等后面打个非苹果商店版本出来,走其它途径便宜出
Marksdo
2023-08-08 10:05:15 +08:00
@awfe 最新 V3.5 版本下载这块重写了支持了断点续传,帮忙再试试.
Marksdo
2023-08-08 10:08:34 +08:00
@azurerayus coreml 模型首次都是要花本地再编译,hf 上的只是一个 coreml 格式文件,本地跑 Whipser 感觉起码 M1 Pro 起步, 我用 M1 跑 Medium 的模型都感觉慢的不可接受.实时识别只有 base 下可以接受响应速度
Marksdo
2023-08-08 10:15:50 +08:00
@azurerayus 这个常态化价格我觉得还是在 10 刀以下更吸引人购入。
好,我接受你的建议了,已改为$9.99 了
zhufeilong
2023-08-08 12:37:56 +08:00
@Marksdo 另外国区是下架了是吗,在已购已经下载不回来了
Marksdo
2023-08-08 14:46:23 +08:00
国区不允许带 AI 的上架...需要等下,在看怎么打独立在商店外的版本,到时已购买的信息是可以复用的

查了下带下载 youtube 视频的也是上架不了商店的,也需要将这个功能做在商店外的版本
Marksdo
2023-08-08 14:50:15 +08:00
因为邮件里还有苹果写到不少如 ZC,ZF 这些相关的关键字,就不贴出来了,反正国区 AI 相关的估计都挂了
azurerayus
2023-08-09 16:49:50 +08:00
现在的限制都是越来越多,这个东西呢我也想了一下有一些的套路。
例如常见的内购绑定邮箱,然后 app store 以外的版本利用邮箱激活订阅。

ai 翻译以及多网站下载还是很重要并且很好用的,这些都有开源实现,加进去很容易。一般软件加一个沟通群链接,带上些 wiki ,墙内墙外自己去找就差不多了。
Marksdo
2023-08-16 20:11:10 +08:00
国区下载或更新不了的可以用这个
https://marksdo.gumroad.com/l/whispermate
支持 Youtube 的视频下载了

用 V2EX-USERS 这个 Coupon 可以返回跟苹果商店一样的价格了.
另外看了 Gumroad 的文档是支持 Affiliates, 有兴趣分成的或知道怎么玩的一起赚$啊
Marksdo
2023-08-16 20:13:38 +08:00
貌似是注册好 GumRoad 的帐号,然后加入 Whisper Mate 的 Affiliates,这边生成你独有的链接,然后从链接进来 30 天内有销售就有提成
azurerayus
2023-08-17 19:08:26 +08:00
一个是不同渠道销售的按照邮箱绑定激活,否则会有换机授权的问题。
第二个是针对国内对于 AI 的限制,还可以采用插件的方式放在网上来下载。

刚才在编辑字幕的时候遇到问题,有时语音识别一个接近的读音都会识别错,所以按照错误的结果来筛选。但是一旦对字幕进行任何一点修改,那么这一行也就不在筛选之列,瞬间消失了。
应当在筛选后就不动态筛选,而是手动点击后再筛选。方便修改错误结果。

一般做这个产品,至少给个个人站,和一点点 wiki 。
zhufeilong
2023-08-18 12:32:39 +08:00
@Marksdo 感谢开发商店外的版本
Marksdo
2023-08-28 10:58:13 +08:00
@azurerayus 应当在筛选后就不动态筛选,而是手动点击后再筛选。方便修改错误结果。
这个这周的 V4.0.1 加上,我自己也遇到过这个问题,要想下怎么解决
@zhufeilong 之前的商店外版本有大 BUG...套 python 来下载 YT 视频失败...换了解决方案,现在应该比较完美了
Marksdo
2023-08-28 11:10:05 +08:00
顺便调查下,大家觉得这个搞 iPad 版本有没有前景,有需求吗?个人感觉有,又貌似没,怕白搞
azurerayus
2023-08-29 06:24:48 +08:00
@Marksdo 我估计难,主要是性能限制、用户喜好和版权限制。
要搞 ipad 版,那估计就得上 whisper api 了,不比 mac ,用 ipad 的没几个愿意等转码时间。
但是你这个没办法搞视频下载,然后实时识别需要的性能估计不够。m1 都难
哪个用 ipad 的会去搞这个,受众太小,还不如期待他们用 mac 然后共享给 ipad
Marksdo
2023-08-31 17:11:15 +08:00
可能 iPad 有一种使用场景,比如老外教授之类的课程时,如果外语不太好,可以拿着 iPad 来用 whisper Mate 进行大概的实时转录并且将课程语音录下来.找下苹果有没有方便的方式直接转 macOS 到 iPad , Mac Catalyst 貌似只能将 iPad 的转 mac,没有反过来的..q-_-p
ttgo
2023-09-17 19:08:42 +08:00
商店版与你网站上的版本有区别么?
ttgo
2023-09-17 20:27:10 +08:00
我想实时转录,试了一段新闻,我感觉"简化模型"是“可用”的下限了,
然而"简化模型"做不到实时,我是 m1 pro 。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/955886

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX