terryops 最近的时间轴更新
terryops

terryops

Talk is cheap, show me the code.
V2EX 第 59752 号会员,加入于 2014-04-05 13:23:46 +08:00
做了一个固定 GPT4 的插件,给 ChatGPT Plus 会员用
OpenAI  •  terryops  •  320 天前  •  最后回复来自 terryops
6
求手机 App 给 Switch 联机游戏加速方案
外包  •  terryops  •  2022-08-30 08:26:49 AM  •  最后回复来自 raoguimin1g
3
手机 App 给 Switch 联机游戏加速是怎么实现的?
  •  1   
    程序员  •  terryops  •  2022-04-26 16:30:35 PM  •  最后回复来自 twinsdestiny
    17
    一个简单的接收 web 请求并处理的程序,要求用 Go 或者 Rust 写
    外包  •  terryops  •  2022-03-21 12:43:43 PM  •  最后回复来自 dilu
    1
    腾讯云云函数好用吗?
  •  1   
    云计算  •  terryops  •  2022-03-09 23:47:04 PM  •  最后回复来自 LnTrx
    11
    拼车: Surge for Mac 4.0, 3 人车,只剩一个车位,买断 120
    二手交易  •  terryops  •  2020-11-16 15:03:34 PM  •  最后回复来自 zhaidoudou123
    1
    terryops 最近回复了
    @wswlaz 在线视频?哪个平台的
    @Andim 你有没有发现你出现了李宗盛作词作曲这种幻听?然后 3 分 17 秒那句完全就错的。
    我们研究了很多这种问题,有很多解决方案,比如然后你那个文件有点问题,我们有个功能,去杂音。
    https://imgur.com/a/acOVSYO
    勾选之后就能识别了。
    https://imgur.com/a/AMVID1N
    另外 Whisper 对音质要求很高的,音质差,识别率就差,断句也会差。你那个 8mb 的 wav 文件,码率应该相当低。
    但是可以做一些音频处理,移除杂音。
    <a href='https://postimg.cc/JydH3tZR' target='_blank'><img src='https://i.postimg.cc/JydH3tZR/temp-Imagej-U4z-LX.jpg' border='0' alt='temp-Imagej-U4z-LX'/></a>
    @Andim 可能是你的文件有问题,我把你发的链接直接下载视频下来,拖进去转录,能出全部歌词。
    [temp-Imagej-U4z-LX.jpg]( https://postimg.cc/JydH3tZR)
    @deiphi 我们是基于 Large-V2 ,V3 有很多问题,测试后弃用了。
    我们考虑到了很多边界的情况的处理,一个视频是测不出来质量差别滴。
    @lidedongsn 谢谢,这块我们研究下能做到什么个程度。
    @Cellinlab 他们有个雷同的产品呀,这是竞争关系哈哈哈
    @webjourneyer 这个很简单,是浏览器自带的功能,用那个 WebVTT 的格式,就能挂载字幕了。
    @Cellinlab 我们可以识别说话人,区分 1 、2 、3 、4 、5 、6 这样,但是具体这个人是谁,需要音色的向量保存下来,然后人工标注。
    目前我们的产品主要定位是视频创作者,用户可以手动标注说话人的名字,目前来看是够用的。
    @webjourneyer 多搞搞差异化吧。你想知道哪部分的细节?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   4964 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 09:48 · PVG 17:48 · LAX 02:48 · JFK 05:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.