公司想开发个录音笔产品,配套语音转文字,请教解决方案。

2023-09-12 23:45:48 +08:00
 Zorro825

录音转文字 APP ,应该怎么做,有什么现成方案吗? 如果用阿里云这些,成本太高了,有没有什么开源好用的,请教大家。

1808 次点击
所在节点    程序员
11 条回复
xuAN111
2023-09-12 23:52:44 +08:00
DeepSpeech
rsy
2023-09-13 00:11:31 +08:00
AppJun
2023-09-13 00:17:03 +08:00
iOS SDK 有 SFSpeechRecognizer ,如果想用 Whisper 有 whisper.cpp 。

Whisper 的模型大小对中文识别有一定影响,但是影响也有限,新的 iPhone 可以跑得动一些比较大的模型,老的 iPhone 就不一定有足够内存了。

另外但是因为训练集是字幕,导致中文容易出现一些预期外的文字,比如“字幕制作:某某”“谢谢观看”之类的幻想结果。
Zorro825
2023-09-13 01:16:41 +08:00
@AppJun 谢谢
Zorro825
2023-09-13 01:16:48 +08:00
@rsy 谢谢
Zorro825
2023-09-13 01:16:56 +08:00
@xuAN111 谢谢
Zorro825
2023-09-13 01:17:36 +08:00
@AppJun 安卓不能用吗
Zorro825
2023-09-13 01:22:06 +08:00
@rsy 这个是云端解决方案吗,用户上传文件,服务器翻译,然后返回结果
rsy
2023-09-13 12:46:40 +08:00
@Zorro825 Whisper 可以直接下载到自己电脑上使用,无需联网,也不需要调 API 花钱
EatIce
2023-09-13 16:40:46 +08:00
得和科大讯飞的产品对比一下,有自己的市场竞争力再做
iorilu
2023-09-13 17:27:49 +08:00
你想实时识别本地性能可能不够把

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/973166

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX