V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Angela2022
V2EX  ›  OpenAI

请问: 如何让 chatGPT 总结视频的内容?

  •  
  •   Angela2022 · 2024-02-13 07:40:04 +08:00 · 3734 次点击
    这是一个创建于 369 天前的主题,其中的信息可能已经有所发展或是发生改变。
    发了视频链接给 chatGPT, 返回: 抱歉,我无法访问外部链接或查看特定的在线视频内容

    请问: 如何让 chatGPT 总结视频的内容? 谢谢
    22 条回复    2024-02-14 09:56:23 +08:00
    Nosub
        1
    Nosub  
       2024-02-13 07:58:58 +08:00 via iPhone
    提取音频内容,语音识别内容,然后把文字内容喂给它。
    Nosub
        2
    Nosub  
       2024-02-13 08:10:14 +08:00 via iPhone
    补充一点,如果要一帧一帧的分析视频视频画面以及结合音频应该也是可以的,应该也有很多公司已经在做了,但是你直接丢一个视频外部链接给 ChatGPT ,是不是有点难,试想一个场景,比如一个外链,视频 2 小时,是流媒体,难道要 ChatGPT 在这个网站观看 2 小时,然后再给你结果。
    Evergreen
        3
    Evergreen  
       2024-02-13 08:27:47 +08:00 via Android
    @Nosub 应该不对吧,ai“观看”视频和人类不一样吧,人类需要两小时是因为需要分析视频画面内容,而 ai 处理信息的方法不一样且速度快多了
    xyy003
        4
    xyy003  
       2024-02-13 09:03:38 +08:00 via iPhone
    可以看看这个项目: https://github.com/disingn/cliptalk
    dji38838c
        5
    dji38838c  
       2024-02-13 09:14:05 +08:00
    GPTs 里面不就有 Free YouTube Summarizer 吗?
    JensenQian
        6
    JensenQian  
       2024-02-13 09:31:17 +08:00
    现在好多都是
    音频转文字,文字总结就完事
    canxin
        7
    canxin  
       2024-02-13 09:43:33 +08:00 via iPhone
    大多数应该都是先提取字幕再总结内容吧?语音转文字用的时间可太久了
    SillyGod
        8
    SillyGod  
       2024-02-13 10:20:21 +08:00 via Android
    最简单的是直接识别音频总结
    最完整的是音频+视频逐帧分析
    callmesmc
        9
    callmesmc  
       2024-02-13 10:26:46 +08:00 via iPhone
    总之不管怎么样都必须文字喂给他,有字幕就字幕,没字幕就创造字幕..
    vincentqi
        10
    vincentqi  
       2024-02-13 10:40:05 +08:00
    https://bibigpt.co/r/VfmiZN
    一个链接总结主流音视频文字媒体概要
    yanyao233
        11
    yanyao233  
       2024-02-13 11:44:26 +08:00 via Android
    普遍采用的方案就是音频转文字

    逐帧截取也不是不行,但成本太高、耗时太长,不划算
    abc500
        12
    abc500  
       2024-02-13 11:46:35 +08:00 via Android
    poe 上好多个这样的 但现在用不了 不知道为什么 好像不是提取字幕 而是客户评价 我不确定
    xyy003
        13
    xyy003  
       2024-02-13 11:52:03 +08:00 via iPhone
    @yanyao23 逐帧和视频字幕结合是最好的 嘎嘎准
    winterx
        14
    winterx  
       2024-02-13 11:54:24 +08:00
    很好奇 B 站的小助手是怎么实现提取这么精准的
    smalltong02
        15
    smalltong02  
       2024-02-13 12:11:01 +08:00
    gemini 可以处理 2 分钟以内的视频
    smalltong02
        16
    smalltong02  
       2024-02-13 12:13:27 +08:00
    如果你可以把音频提取出来,也可以试一下 Qwen-Audio-Chat 模型,它可以按照自然语言的要求处理音频,比如列出音频内容的提纲。
    Nosub
        17
    Nosub  
       2024-02-13 12:34:30 +08:00 via iPhone
    @Evergreen 这里的问题不是查看方式的问题,是爬虫的问题,我特意说了流媒体,就是你不能一次性获取完整的视频,ChatGPT 还没有强大到可以爬取任意视频。
    imliukai
        18
    imliukai  
       2024-02-13 12:53:07 +08:00
    @dji38838c YouTube 官方提供了视频字幕的接口,所以总结 YouTube 视频会简单很多。
    yanyao233
        19
    yanyao233  
       2024-02-13 14:48:04 +08:00 via Android
    @smalltong02 才知道有这么个模型 看起来有点意思
    bugu1986
        20
    bugu1986  
       2024-02-13 20:43:14 +08:00 via iPhone
    字幕 https://github.com/buhe/langchain-swift 手机不方便,用 youtubeloader
    YsHaNg
        21
    YsHaNg  
       2024-02-14 07:19:42 +08:00 via iPhone
    @Nosub TensorRT-LLM maybe 可以
    Byzliu
        22
    Byzliu  
       2024-02-14 09:56:23 +08:00 via Android
    阿里云的通义听悟把语音转文字再发给 GPT
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2729 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 12:23 · PVG 20:23 · LAX 04:23 · JFK 07:23
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.