macOS 有系统声音语音转文字工具吗？

实时获取系统声音，将其转为文字
主要是为了英语使用
半桶水英语水平，开视频会议经常没听明白对方说什么，如果能转成文本（英语），基本就没有理解障碍了
目前我知道的是，mac 系统内的声音是可以实时读取的，再加个语音识别 api ，然后文本用悬浮窗口模式显示出来，这样的功能不难开发吧？

ivyliner

2022-03-24 18:56:29 +08:00

其实挺难的.
我了解目前就只有一款做到
https://www.engineerdraft.com/bemyears/

Chism

2022-03-24 19:14:57 +08:00

@ivyliner

体验不错，唯一缺点是只能从麦克风识别，这样戴耳机的话就不行了

Chism

2022-03-24 19:17:06 +08:00

@ivyliner 不过音源可以选择 zoom 通道，这个应该体验不错

Chism

2022-03-24 19:23:34 +08:00

@ivyliner

开启这个软件时，系统声音调节失效，无法增加也无法减小声音，不知道你遇到过没

ttgo

2022-03-24 19:31:11 +08:00

我用过一段时间 1 楼说那个做会议记录，但系统自带这个 api 识别率有点低。

findex

2022-03-24 21:11:43 +08:00

我刚刚试了一下，感觉还挺不错的。M1 上会启用苹果内置硬件的 coreML 。
正如官网说的
> BeMyEars 充分利用苹果的 CoreML 和 Speech 机器学习框架, 语音识别全部在本地设备完成, APP 本身不会主动上传任何语音 /视频数据

回复一下楼主，这款应用挺好用的，你创建一个虚拟声卡，将合成声音导入到虚拟声卡，用 BeMyEars 提取虚拟声卡的声音，就可以看视频（开会）看字幕了。还有导出字幕功能。将会从开启软件开始的字幕整体导入到一个 txt 文件。

这个应用有 in app purchase （内购）。只能试用 7 次，然后订阅制。每月 3 刀，年付 30 刀。美区贵一点。国区可能 6 元每月吧。
https://imgur.com/V0kmyef

试了一下，感觉实时识别率不高，有错误。感觉 50%的中文准确率都不到，支持 arm64 ，cpu 使用率 3-4%，coreML 因为是利用 macos 自带的语音识别，cpu 占用率，你会看到一个进程 com.apple.siri.embeddedspeech 107% assistantd 的使用率大约 47%。英文识别率高一点，能达到个 60%吧。但是对于听关键词还是比较有帮助的。

个人感觉这个应用就是套用系统内置的语音识别的壳。

网易推出一款语音同传的软件： https://tongchuan.youdao.com/
有免费版，每天一小时：
> 源语言：中、英, 目标语言：中、英、日、韩
支持的语言比较少，主要是中、英文。试过，比内置 siri 套壳准确多了。

ivyliner

2022-03-24 21:26:36 +08:00

@Chism
安装 BlackHole 可以读取大部分语音. 你说的选择 zoom 通道应该也可以, 不过也有人反馈过有问题, 我没有复现过.
目前也在研究新方法.

音量控制说明文档.
https://www.engineerdraft.com/bemyears/docs.html#%E5%A6%82%E4%BD%95%E8%B0%83%E8%8A%82%E9%9F%B3%E9%87%8F

ivyliner

2022-03-24 21:29:45 +08:00

@ttgo 目前中文准确率确实比较低, 但是英文应该还可以的. 我自己用够用, 主要场景和 OP 比较像辅助理解, 并没有完全依赖.
最近也在研究新的语音识别的方法, 所以我说确实挺难的. 要懂 macOS 开发, 要懂语音识别技术.

findex

2022-03-24 21:41:35 +08:00

@ivyliner 哇，原来你是这个 BeMyEars 原作者啊。哈哈。幸会。找了几个能提取 macos siri 语音识别的，也就只有你这款软件了。做的挺棒的。

> 最近也在研究新的语音识别的方法, 所以我说确实挺难的. 要懂 macOS 开发, 要懂语音识别技术.

祝福老哥捷报频传，攻克各种难关，造福一方。（话说能推出买断制的 app 么，想买断，嘿嘿）

ivyliner

2022-03-24 21:49:20 +08:00

@findex 看来对 BeMyEars 挺清楚的, 欢迎相互学习.
简单纠正一下几个小的问题.
1. 试用是 7 天, 不是 7 次. 如果是年付的话还可以免费试用七天, 一共是 14 天, 而且在 APP 订阅界面主动提供取消订阅的帮助文档, 自我感觉订阅算厚道.
2. 每月 3 刀, 年付 30 刀在中国区之外价格是对的. 在中国区的价格是美区 10 元, 年付 98 元. 针对中国区是特殊设置的, 因为如果统一汇率计算的话, 导致有些国家特别贵, 其实不太合理. BeMyEars 的定价标准是一顿饭价格 1/3 每月. 自我感觉性价比也算厚道.
3. BeMyEars 目前是调用系统内置的语言识别的接口, 但是并不是套一个壳那么简单, 里面还是有不少难度的.

另外你推荐的网易语音同传软件我好像没有找到 macOS 版本, 如果有的话, 麻烦给一下, 万分感谢.
因为我目前手上积累了不少听障的朋友, 他们特别需要一款 macOS 下面识别准确率高, 同时价格能够承担起的软件.

wclebb

2022-03-24 22:36:18 +08:00

飞书可以，不过确实需要换。

findex

2022-03-24 22:49:30 +08:00

@ivyliner 价格来言国区这个确实还可以了。对有听力障碍的朋友很有用。就是 siri 内置的语音识别不准，只能看个大概，但是对于慢速的视频会议应该问题不大吧。

关于网易语音识别你可以虚拟机里试试，目前官方只支持 windows 版本.。但是网易有商用 API ，你可以申请成为网易二次开发作者，调用 API 。具体我没操作。我只是试过网易语音识别，识别度挺高的。每天的免费的 1 小时基本上可以开会 1 小时需求。

我已经把你的应用推荐给了几个外国朋友，这个对于语言教学应该挺有帮助的。虽然 Siri 不太准，但是支持的语言多。

ivyliner

2022-03-25 08:19:05 +08:00

@findex 非常感谢推荐啊.
其实在 windows 下面目前最好用的是, 联想语音 , 你可以试一下. 目前免费, 做的很好, 不过在 4.1 号之后要开始收费了.

使用 API 的话, 其实反而更简单, 而且还有很多选择, 阿里, 百度, 腾讯.... 都有对应的 API, 问题是都很贵, 就说这个网易语音每天免费 1 小时, 超过的话, 收费标准是 2 元 /分钟. 要是会议不小心延迟 5 分钟, 就够一个 BeMyEars 一个月订阅费用了,
当然你如果小心的话, 是可以保证不超出的, 但是开会沟通本来就需要比较专注, 然后还要分心做这些事情, 体验不太好.

还有一个最重要的原因我看 @Chism 需要用外语沟通, 那么大概率是在外企, 很多外企对数据的安全性特别看重, 直接把会议的语音上传到服务器进行识别, 虽然我们不能恶意推测这些厂商不会拿着这些数据做啥. 但是总是一个风险点.

所以 BeMyEars 定位就是一款本地识别的软件, 尊重用户数据隐私. 当然弊端很明显 1. 本地计算资源消耗较大解决思路: 苹果电脑硬件 M1, M2 算力提升较快, 问题到不是很大. 2. 识别准确性问题, 目前英语准确性还行, 汉语不是特别好用, 毕竟苹果是家美国企业. 解决思路: 1 苹果本身自己会不断提高准确性, 共享红利. 2. 自己调研语音识别方案, 已经在做了, 比较难 , 希望今年能有个比较好的产出吧.

Jacklandrin

2022-03-29 17:43:05 +08:00

Zoom ，Microsoft Teams, Google Meets 这类会议服务都是可以通过 web 方式进行的，而 chrome 浏览器自带了英文字幕功能。Microsoft Teams, Google Meets 应该也可以在 app 里开启英文字幕，zoom 我不太确定是不是得主持人得开启。
https://support.google.com/chrome/answer/10538231?hl=zh-Hans

pimou

5 天前

可以看下，DuRT 是 Mac 上的语音识别和翻译软件。
https://apps.apple.com/us/app/durt/id6736675809?mt=12

目前功能：1. 实时识别音频（支持系统音频和麦克风），转成文本（支持几十种语言）
2. 实时将文本翻译成需要的语言（支持几十种语言）
3. 保存音频、保存文本。

DuRT 语音识别有两种方式。一种是使用 mac 系统内置的语音识别。一种是使用 whisper 模型。都是使用的本地服务。不需要使用云端的付费接口。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/842681

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.