V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
heimoshuiyu
V2EX  ›  分享创造

自建 PC 端的语音输入工具

  •  
  •   heimoshuiyu · 1 天前 · 407 次点击
    我写了一个脚本,绑定快捷键可以调用自建的 OpenAI whisper 进行语音输入,你可以通过桌面通知看到识别状态。

    最重要的是,它可以根据我选中的上下文来增强识别的结果。就算是一些特殊名词,比如说 V2EX ,初音未来,哈次捏米库,它都可以很好地识别出来。

    demo 视频(有剪辑): https://yongyuancv.cn/ipfs/Qmbitjuouf7ZsbPeneFZK5v8bv8ZXhPnzLcJ4EymZfJnk9?filename=1.webm
    脚本(只支持 Linux 和 Mac ): https://yongyuancv.cn/ipfs/QmWTh8PYDN8ebpfGe2i79NdHJjHhPYN72NNVg6L4ecRj4w?fileanme=voice-typing.sh

    whisper 可以用官方的也可以本地自建 API https://github.com/heimoshuiyu/whisper-fastapi
    2 条回复    2024-12-20 13:20:36 +08:00
    ivyliner
        1
    ivyliner  
       13 小时 25 分钟前
    看着不错, 上下文增强识别结果是怎么做的?
    heimoshuiyu
        2
    heimoshuiyu  
    OP
       12 小时 21 分钟前 via Android
    @ivyliner 把剪切板里的内容作为 prompt 发送,whisper 是 transformer 架构,可以根据 prompt 识别
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1319 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 17:42 · PVG 01:42 · LAX 09:42 · JFK 12:42
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.