我的使用场景:
之前键盘打字写提示词控制 agent 写代码,希望能逐渐转为语音控制写代码,加快速度,提升效率。
希望能支持任意软件的编辑窗口,随时都能语音输入,支持中英文混合输入,润色功能并不太需要。
已购麦克风:大疆 mic mini 2 ,挂衣服上,这样可以人距离电脑较远距离,站起来或躺椅子上,不用接触鼠标键盘,即可输入。
测试结果
1 、Windows 自带的语音输入 win+h 唤醒
优点: 识别率可以接受,中英文也可以,流式输入,实时性好。功能极其简洁,窗口悬浮,方便操作。
缺点:鼠标或键盘操作后会停止监听,需要再次唤醒。
2 、微信输入法语音输入
优点:识别率很高,中英文识别也很好,有自动纠错。
缺点:说完后需要点击回车才能录入到编辑器,回车后窗口就没了不能继续了还得再次唤醒。或者就是需要按着快捷键说话,松开后录入。
3 、搜狗输入法语音输入
优点:识别率可以接受,英文没有微信好。一句话说完之后,会输入到编辑框里,对比 win+h 稍微有点慢。支持连续听写,永远在听,随时都可以录入。
缺点:流式输入速度略慢,设置入口较难找到。
4 、LazyType
优点:支持本地模型或在线模型。看设置里貌似支持很多模式还支持指令功能很丰富,但是我没研究明白怎么玩。
缺点:只测了几个本地模型,一开始又慢又卡,不知道怎么能录入到 vscode 里,折腾半天,不知道怎么又好了,识别率速度都还可以,有时候会有重复。
4 、智谱 AutoGLM
优点:中文识别还行,英文不行。
缺点:有点慢。免按模式需要人工干预需要操作鼠标复制粘贴。
当前语音输入法存在的共同问题
1 、应该至少支持这三种模式
- 按着快捷键说话,松开后录入
- 免按模式:持续监听,实时录入
- 录入后进入润色模式,人工干预后再录入
2 、快捷键问题
已经没有合适的方便的快捷键了。有些不支持 fn ,不支持 win ,只能 ctrl alt shift ,冲突太多了。
要不干脆别要快捷键了,直接语音唤醒?
理想状态:就像文字输入法随时都能输入一样,语音也应该只需要唤醒后一直待命即可。
3 、剪贴板污染
语音识别之后会写入剪贴板,可以随地粘贴,实际上是污染了剪贴板,并不方便。
应该就能直接输入到 word 里,vscode 里,但是这可能不方便 AI 二次加工。
4 、不支持输入比如回车换行左括号右括号等
win+h 支持“换行”,说完提示词说换行就提交开始写代码了,不用人工再点下提交。
5 、没有 AI 编辑模式
类似 vim 的命令编辑模式切换,应该能有一种语音控制的方式来进入编辑模式,对前面录入的文字进行二次修改。
可以自定义比如我说"进入编辑模式",然后:
删除上一句话
删除重复的两个字
把前面的 abc 改成 def
润色一下
AI 直接修改当前输入框内容。
当然,还需要有个从编辑模式回到录入模式的指令。
结论
等豆包输入法 win 版出了再看看,也期待微信能增加个免按模式就完美了。