做了一个结合多种 AI 模型的一站式字幕平台,同时也提供 API

2023-12-15 11:52:55 +08:00
 terryops

分享一个我们正在做的产品--快转字幕 https://www.kzzimu.com ,目标是海外市场,先在国内试试水,de 下 bug 。

下面我跟大家分享技术、经验和资源哈。

一句话介绍

是基于 Whisper 魔改版,实现音视频转字幕,GPT-4 翻译加润色,识别说话人,字幕智能重排的一站式音视频平台。

V 友们肯定会说,XX 、XXX 和 XXXX 不都有这些东西?

我们的优势是:

  1. 无须显卡,云端速度非常快。
  2. 普通用户可以免费使用。
  3. 傻瓜式,用户不需要有任何技术,不需要去搞什么 Key 。
  4. 解决很多 AI 模型的输出不稳定问题,保证结果的稳定性。
  5. 有一个体验非常好的字幕编辑器和文件管理系统。

对我们的产品的技术实现感兴趣的话,可以留言,我会分享一些技术细节。比如,我们的说话人识别,用的是 NVIDIA 的 Nemo 。

API

另外,V 友如果想要在自己的产品上快速实现我们现在的功能,我们也做了 API 可以对接,比如我们支持 2 小时以内,100M 的不分段的音频识别。

一些 todo

  1. 提取音频的纯人声、纯背景(已经做好,测试上线)
  2. 海外版(架构一开始就是面向全球,现在正在准备外文资料和服务器架构)
  3. 下载合并了字幕的视频文件。(已经设计好)
  4. 根据字幕的剪辑功能。(新建文件夹)
2233 次点击
所在节点    分享创造
21 条回复
terryops
2024-01-05 18:29:45 +08:00
@wswlaz 在线视频?哪个平台的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1000636

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX