请教下有什么好的 STT(语音转写)方案吗

125 天前
 UWoodman

需求是这样,英文会议场景,想要在会议的时候使用转写,确保沟通的流畅性,不需要翻译,转录就可以了.

看了火山的 API,有道 APP,其实最理想的是 Chrome 的 Live Caption,感觉又小又轻便,但是没有找到好的产品.

试了下 mac 自带的 Live Caption,感觉也比较繁琐,每次需要去设置,用完还要去关闭设置,不知道各位大佬有没有更理想的解决方案

1966 次点击
所在节点    程序员
12 条回复
winterbells
125 天前
Word -> 开始 -> 听写
ivyliner
125 天前
可以试试 appstore 搜索: BeMyEars
https://www.engineerdraft.com/bemyears
alexnone
124 天前
飞书妙记
zuiyue123
124 天前
我用过开源的在 windows 上监听麦克风,准确率很高
starrn
124 天前
@zuiyue123 whisper 吗
noahlias
124 天前
英文的话 那 whisper 应该是效果比较好的了 找个快点的实现例如 fastwhisper 基本没啥问题

国内的基本都是对标中文的 阿里的 funasr 还有最近的 SenseVoice 都还行
kuse2001
124 天前
飞书妙记,免费服务里最棒了吧
isSamle
124 天前
zenghx
124 天前
微软 azure cognitive api
devliu1
124 天前
可以看下 sherpa 项目,可本地运行
zuiyue123
123 天前
@starrn 基于 funasr 的
ivyliner
16 天前
我对这方面研究还挺多的.
在英文会议场景中, 需求主要有 2 类.
1. 实时识别, 需要能进行流式处理
2. 录音之后识别

场景 1: 目前好像就 BeMyEars 可以做到, 而且还有翻译功能
场景 2:
飞书妙记, 每个月 300 分钟免费额度, 满足需求 2, 需要自己提前录音.
whisper, 需要自己折腾一下命令行或者其它的工具, 缺点对中文不够友好, 需要 large 模型效果才比较可以
funasr 还是不错, 缺点是没有标点
SenseVoice 比如 funasr 好, 需要自己折腾一下命令行
vosk-api 中文不够好, 上一代的产品不推荐.
seamless_communication 大而全, 效果不好, 很重, 不推荐
azure cognitive api: 付费, 挺贵的. 要自己写程序调用 api
sherpa 需要自己折腾命令
夹带私货: 我的 App: YPlayer 搜索下载即可使用, 中文转录效果比 whisper 好, 英文的话, 就是用 whisper.

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1058637

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX