自建 PC 端的语音输入工具

1 天前
 heimoshuiyu
我写了一个脚本,绑定快捷键可以调用自建的 OpenAI whisper 进行语音输入,你可以通过桌面通知看到识别状态。

最重要的是,它可以根据我选中的上下文来增强识别的结果。就算是一些特殊名词,比如说 V2EX ,初音未来,哈次捏米库,它都可以很好地识别出来。

demo 视频(有剪辑): https://yongyuancv.cn/ipfs/Qmbitjuouf7ZsbPeneFZK5v8bv8ZXhPnzLcJ4EymZfJnk9?filename=1.webm
脚本(只支持 Linux 和 Mac ): https://yongyuancv.cn/ipfs/QmWTh8PYDN8ebpfGe2i79NdHJjHhPYN72NNVg6L4ecRj4w?fileanme=voice-typing.sh

whisper 可以用官方的也可以本地自建 API https://github.com/heimoshuiyu/whisper-fastapi
406 次点击
所在节点    分享创造
2 条回复
ivyliner
13 小时 20 分钟前
看着不错, 上下文增强识别结果是怎么做的?
heimoshuiyu
12 小时 16 分钟前
@ivyliner 把剪切板里的内容作为 prompt 发送,whisper 是 transformer 架构,可以根据 prompt 识别

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1098926

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX