基于 whisper 的实时语音识别 网页和桌面客户端

30 天前
 relsoul

前言

最近上了个网课,由于是直播课,没有字幕,感觉不太爽,调研了一下 目前没有基于本地 whisper 的实时字幕软件.. 于是自己手搓了一个~ 欢迎 star

传送门: https://github.com/Relsoul/whisper-win-gui

支持功能

研究网页捕捉 audio 流花了一点点时间~ audiocontext 获取的有点点问题~ 改捕捉 video 流 filter audio 了~

对 gui 开发不太熟~ 本来想用 webview 的,但是又没透明效果 还好有 flet~

更多简介 github 已经列出来了~ 这里就不再重复列出了,希望能帮到有需要的人

1471 次点击
所在节点    分享创造
5 条回复
lekai63
30 天前
楼主 你这项目 拿来看 av 应该不错
relsoul
30 天前
@lekai63 模型其实自带了翻译功能 但是我没用过(狗头
fonlan
30 天前
star 为敬,希望能支持对识别出的语音实时翻译,跟老外开会比较有用
relsoul
30 天前
@fonlan 其实有 task:"translate" 但是我没用过,不知道效果咋样

```
result = pipe(sample, return_timestamps=True, generate_kwargs={"language": "french", "task": "translate"})
print(result["chunks"])

```
ruobingm
29 天前
@lekai63 一下眼界就开阔了~

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1074513

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX