Whisper Notes - 免费的语音转文本工具(iOS)

2023-04-06 09:31:31 +08:00
 wseani

简介

产品名: Whisper Notes

它是一个离线的OpenAI Whisper模型,可以将你的语音输入以极高的准确率转成文字、支持多语言夹杂。

它是免费的:无内购、无广告、不联网。 (如果不缺钱,在未来很长一段时间我会维持它免费)

动机

市场上已经有一些 Whisper 工具了,为什么我还要做一个呢?需求主要是:

  1. 记录梦境:有时我做了个奇特的梦,醒来想记录,但睡眼朦胧很难打字,希望有个工具能快速录入语音并文本化。

  2. 回微信消息:有时我需要回复很长的微信,但此时我在街上或在吃饭,在不回复语音消息的情况下,快速回信息。

  3. 捕捉灵感:和 2 类似,有时不方便打字的场合突然有了新念头,想记录下来。

市场上的工具,要么太大(速度慢)、要么太小(准确率低)、要么会上传你的音频。

Whisper Notes 在准确率和速度之间做了折衷:尽可能使用最大的模型,但速度不至于慢到等几分钟才完成转录。正常情况下,你录入一段语音,等待几秒钟就可以完成。

因为目的是「速记」,所以 Whisper Notes 的"日记"属性很弱。转录完,文字就会自动复制到剪贴板,你可以粘贴到微信、或真正的日记 /Memo 软件来整理。

截图

欢迎下载体验 & 反馈👏

App Store: Whisper Notes

4764 次点击
所在节点    分享创造
45 条回复
wseani
2023-04-06 21:08:52 +08:00
@hackpro 抱歉暂时不支持 15 ,主要是 16 相比 15 的模型速度快很多,15 的用户体验不太好 =.=
hanguofu
2023-04-06 21:26:22 +08:00
有没有人试过 用 普通话 的识别效果 ?
bbbb
2023-04-07 15:38:02 +08:00
@hanguofu 说了 1234 ,识别了好几分钟,出来了这个:

One, two, three, four, five, six, seven, eight, nine, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten, ten
wseani
2023-04-07 15:43:21 +08:00
@bbbb 可以知道你的设备+系统吗?很奇怪。
bbbb
2023-04-07 16:11:47 +08:00
@wseani iphone12 16.4
yqf0215
2023-04-07 16:36:21 +08:00
超厉害的楼主,mac os m1 能支持吗?还是习惯用电脑。当前一打开,就报错。
wseani
2023-04-07 16:43:21 +08:00
@bbbb 我印象中有几个报错的用户都是 16.4 ,估计是新系统引入的 bug...我会研究一下的。
wseani
2023-04-07 16:44:31 +08:00
@yqf0215 你可以试试 Aiko~
wseani
2023-04-07 16:45:55 +08:00
@yqf0215 确实,我试了下自己的 Mac 也是:
“This app has crashed because it attempted to access privacy-sensitive data without a usage description. The app's Info.plist must contain an com.apple.security.device.audio-input key with a string value explaining to the user how the app uses this data. ”

看上去是没加麦克风权限申请导致的。
huazidev
2023-04-07 17:15:30 +08:00
请问用的哪个模型,各种语言支持的怎么样?
yqf0215
2023-04-09 11:30:07 +08:00
@wseani 坐等楼主更新,超级感谢。因为有朋友问我有没有类似的软件
wseani
2023-04-10 14:41:20 +08:00
@yqf0215
今天完成了 Mac 版开发,模型比 iOS 大,并且支持上传录音了。顺利的话,明天就可以在 Mac 商店下载啦!
![]( https://i.328888.xyz/2023/04/10/imrMNy.th.jpeg)
wseani
2023-04-10 14:41:56 +08:00
wseani
2023-04-10 14:43:27 +08:00
@ShinomiyaKaguya
Mac 版预计明天也可以下载啦
saimax
2023-04-11 21:43:19 +08:00
我来补一下 mac 可以下载了
neilp
2023-04-12 22:40:15 +08:00
有没有可能把这个稍微改一下, 改成一个能实时对话翻译的 app.
可以选择语言, 当然能自动识别语言更好.
然后, 实时互译. 支持自己提供 openai api key.
wseani
2023-04-13 09:07:42 +08:00
@neilp 有想过,因为我也需要。
neilp
2023-04-13 13:18:21 +08:00
@wseani 前面最难的部分你这已经实现了. 后面就差调 api 翻译,并返回了. 这就能满足 99% 的用例了. 更进一步还可以朗读.
neilp
2023-04-13 13:20:54 +08:00
如果可以开源的话, 我愿意试试贡献. 虽然我目前还不会 ios
wseani
2023-04-13 17:34:14 +08:00
@neilp 这并不是我的功劳,模型部分你可以看[whisper.cpp]( https://github.com/ggerganov/whisper.cpp)。在这个项目上我只是做了 UI+功能,以及中文的段落处理。之所以不用翻译 api ,是因为我希望这个 app 完全离线,一旦使用翻译 api ,这个软件将无法免费供人使用。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/930143

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX