Chrome 扩展 - 实时语音转字幕

2022-04-03 23:01:26 +08:00
 zhw2590582

Chrome 扩展安装地址: https://chrome.google.com/webstore/detail/dogbgbjckgkpebicolofikcbhgkfkdkg

就是不知道有没有人还会这种需求,就是网页看视频、听广播电台、上网课或者远程会议的时候,希望看到实时字幕的,最近花了几天时间写了这么一个扩展,给大家尝鲜。

这个扩展就只有一个功能,就是实时语音转字幕,只要网页有声音,哪怕你把本地的视频,直接拖放到浏览器播放也算,只要网页有声音,都能实时语音识别转成字幕,还能自己调整字幕样式和下载字幕文本。

当然语音识别用的是第三方的,目前接入了阿里云和腾讯云,科大讯飞预付的价格太贵就先不接入了。扩展是和这些云服务直连的,所以识别速度和准确度我就无法保证了,就看这些云服务品质如何了。

当然,往往需求更大的是实时翻译功能,目前只有科大讯飞可以做到实时语音识别的同时做到实时翻译的,但需要预付年费 20000 元,太贵了先不搞这个,等用的人多了需求大了再考虑买不买这个服务吧。

Chrome 扩展安装地址: https://chrome.google.com/webstore/detail/dogbgbjckgkpebicolofikcbhgkfkdkg

7325 次点击
所在节点    分享创造
37 条回复
findex
2022-04-06 17:24:57 +08:00
好东西顶一下。表示既然是用的 api ,可以做个 app 桌面完整版吗。因为很多人上网课 zoom 会议等并不是用的浏览器完成的。之前有个 v 友做了个 BeMyEars mac 客户端是调用的 mac 内置离线 siri 语音识别转字幕。就是 siri 不太准,体验不好。
如果好用准确的话,真有不少用户愿意付费的。
zhw2590582
2022-04-06 17:35:28 +08:00
@findex 搜了一下,还真没找到什么好用的实时语音识别的桌面端,可惜我只会 js ,用 electron 开发这么一个小功能的话又太臃肿
findex
2022-04-06 17:40:35 +08:00
@zhw2590582 windows 下有网易出的一个。每天免费 1 小时。如果 js 好用的话,用户也不怕臃肿吧。100mb 可以接受。
xueyangkk
2022-04-07 10:38:54 +08:00
实时字幕 一般都是调用本地的 api 实现吧 。调用远程的 其实很慢的 。 我给公司搭建的 视频识别文字 目前是异步的,识别效率算是好的 60 秒的视频 都至少 30~40 秒 这个水平 。 至于翻译 这个目前市面上开源 都是中英文翻译 。没见到有日文翻译 成中文的 有的话 求教学习下
xueyangkk
2022-04-07 10:42:33 +08:00
备注下 我用的服务器是 CPU 的 要是用 GPU 的服务器速度会更快 无奈 GPU 云服务器 太贵了
zhw2590582
2022-04-07 10:47:04 +08:00
@xueyangkk 能做到本地当然是最好,像 chrome 自带英语的实时语音识别一样,识别效率也很高
rekulas
2022-04-07 12:10:38 +08:00
@xueyangkk 远程也不慢,现在大多云都有实时转译基本延时 1-5 秒,就是价格优美
crokily
2022-04-07 12:26:01 +08:00
@findex gitee 有个叫 LiveCaption 的开源项目 就是一个调用腾讯云 /百度云 /阿里云 /的桌面端程序 Go 写的 实时抓取设备的音频输出转写字幕。
crokily
2022-04-07 12:50:00 +08:00
@xueyangkk 远程效果还可以呀 我试用百度的实时转写 API 准确率挺高 而且体感延迟较低,差不多是即说即得(严格来说还是有点网络与处理延迟,但体感不明显)。
不过发现了实时转写的一个缺点,无论远程本地,实时转写都是逐字转写的,除了识别偶然不准外,还会有识别成同音字的问题,所以只有完整讲完一整句,才能得到最准确的结果。
而且 逐字逐字显示的字幕 跟 目前人们熟悉的字幕 体验完全不同,通常看视频字幕,人们都是盯着画面(主),快速瞄一眼字幕(次)获取完整信息,这样思维才能跟得上播放。但逐字逐字的实时字幕在人物说话过程中只有半句的信息,非得人物讲完一整句才有完整信息,这个时候看字幕才能获取到完整信息,但此时视频已经要开始下一句了,让思维跟播放进度割裂滞后了,个人感觉体验不是很好,所以实时转写似乎并不好用,除非实时转写能提前几秒转写内容。
moeik
2022-04-07 13:34:56 +08:00
这玩意在本土网络环境不能正常使用吧
zhw2590582
2022-04-07 13:43:30 +08:00
@moeik 你是说国内网络吗?没问题的,都是浏览器 websocket 直连阿里云和腾讯云的
RikiZhu
2022-04-07 16:00:58 +08:00
听网课却有这个需求,但感觉成本考量这个插件还是很鸡肋。现在国产手机基本都自带不限时免费的实时字幕( miui 的小米闻声,华为的实时字幕),一定要在 PC 上用的话还有网易同传的免费版可用,而且不局限于网页,可以同传整个系统声音。哈哈,希望楼主能找到合适的应用场景。
zhw2590582
2022-04-07 16:36:33 +08:00
@RikiZhu 同意,这个扩展大多数用于临时起意的情况下使用,专业场景或者长时间使用的话还是用专业的软件好一些
tianzi123
2022-04-07 23:38:59 +08:00
这个商业化和使用体验最好的是彩云小译
findex
2022-04-08 03:09:34 +08:00
@crokily 看了一下你推荐的。是这个吗? https://gitee.com/641453620/livecaption
看里面的视频介绍。貌似识别速度挺快的,而且很准确。虽然有点时差,但是问题好像不大。
crokily
2022-04-08 08:15:33 +08:00
@findex 是的
YucaiHuang
122 天前
版主下线了这个插件了? 可以发一下 git 地址不,最近有个项目需要在 chrome 扩展中加入语音识别,不胜感激!!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/844806

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX