做了一个结合多种 AI 模型的一站式字幕平台，同时也提供 API

分享一个我们正在做的产品--快转字幕 https://www.kzzimu.com ，目标是海外市场，先在国内试试水，de 下 bug 。

下面我跟大家分享技术、经验和资源哈。

一句话介绍

是基于 Whisper 魔改版，实现音视频转字幕，GPT-4 翻译加润色，识别说话人，字幕智能重排的一站式音视频平台。

V 友们肯定会说，XX 、XXX 和 XXXX 不都有这些东西？

我们的优势是：

无须显卡，云端速度非常快。
普通用户可以免费使用。
傻瓜式，用户不需要有任何技术，不需要去搞什么 Key 。
解决很多 AI 模型的输出不稳定问题，保证结果的稳定性。
有一个体验非常好的字幕编辑器和文件管理系统。

对我们的产品的技术实现感兴趣的话，可以留言，我会分享一些技术细节。比如，我们的说话人识别，用的是 NVIDIA 的 Nemo 。

API

另外，V 友如果想要在自己的产品上快速实现我们现在的功能，我们也做了 API 可以对接，比如我们支持 2 小时以内，100M 的不分段的音频识别。

一些 todo

提取音频的纯人声、纯背景（已经做好，测试上线）
海外版（架构一开始就是面向全球，现在正在准备外文资料和服务器架构）
下载合并了字幕的视频文件。（已经设计好）
根据字幕的剪辑功能。（新建文件夹）

Andim

2023-12-15 17:00:00 +08:00

试了下中文比原生的 Whisper 还是要差点，原生 Whisper 能识别中文 80%

https://www.kzzimu.com/result/94f99bd0e6f59046222957b506ded023

https://gcdnb.pbrd.co/images/wIzlPpehs9tW.png?o=1

只识别出四句
音频是李千那的延禧攻略
<amp-youtube data-videoid="UuTBI3MY_ic" layout="responsive" width="480" height="270"></amp-youtube>

terryops

2023-12-15 23:23:45 +08:00

@Andim 你有没有发现你出现了李宗盛作词作曲这种幻听？然后 3 分 17 秒那句完全就错的。
我们研究了很多这种问题，有很多解决方案，比如然后你那个文件有点问题，我们有个功能，去杂音。
https://imgur.com/a/acOVSYO
勾选之后就能识别了。
https://imgur.com/a/AMVID1N
另外 Whisper 对音质要求很高的，音质差，识别率就差，断句也会差。你那个 8mb 的 wav 文件，码率应该相当低。
但是可以做一些音频处理，移除杂音。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1000636