开源一个使用 gemini-pro 解析抖音视频内容并转文字的一个小东西

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

爱意满满的作品展示区。

这是一个创建于 609 天前的主题，其中的信息可能已经有所发展或是发生改变。

开源地址：https://github.com/disingn/cliptalk 支持：

抖音去水印
抖音视频转文本（使用 gemini-pro-vision ）
geminikey 随机调用（多个）

由于没啥时间，就没写 web 界面，后续有时间会完成 web 界面，以及兼容 gpt4v 和更多的视频平台

ps：本人菜鸡，水平有限，大佬勿喷！

第 1 条附言 · 2024-01-11 16:33:59 +08:00

兼容 GPT4v 了，可以自己试试
消耗有点快，不过效果要比 gemini 好一点。

抖音

开源

Web

菜鸡

21 条回复 • 2024-03-19 16:14:02 +08:00

taxue67marx

2024-01-11 09:43:01 +08:00

不错啊，写个小程序调用你写的接口，有空试试

simo

2024-01-11 10:10:54 +08:00

赞一个
不过，抖音接口那个，bogus 一直固定就行？

tool2d

2024-01-11 10:13:28 +08:00

看了源代码，表示脑洞很大。新知识又增加了。

xyy003

2024-01-11 10:35:26 +08:00

@taxue67marx 好写的比较水

xyy003

2024-01-11 10:35:58 +08:00

@tool2d 之前有个外国的博主使用 4v 来分析视频跟风尝试了一下

xyy003

2024-01-11 10:36:55 +08:00

@simo 不知道后面变不变抖音去水印那部分是我 copy 别人的

unco020511

2024-01-11 11:36:14 +08:00

star 了.视频转文本是啥意思,是指总结视频内容吗,还是指视频中语音识别自动添加字幕

xinyana

2024-01-11 12:42:55 +08:00 via Android

@unco020511 看了源码，根据视频截图分析内容，非常好的思路！

xyy003

2024-01-11 12:51:50 +08:00

@unco020511 截取视频帧然后使用 gemini-pro-vision 进行识别分析内容，最后使用 gemini-pro 整理整个视频的内容

mjchow

2024-01-11 14:27:20 +08:00

这个是截取了视频部分 jpeg 图片来进行分析，如果图片少的话是不是分析会不大准确？不过确实是挺好的思路，厉害！

xyy003

2024-01-11 14:41:21 +08:00

@mjchow 大致的效果还可以，可以把切片再细致一点现在我是 5s 截取一次

kylebing

2024-01-11 15:14:37 +08:00

你头像是个什么玩意，看着挺有意思的。

xyy003

2024-01-11 15:20:03 +08:00

@kylebing v2 的吗 ai 生成的一个机器人骷髅头

kylebing

2024-01-11 15:24:39 +08:00

@xyy003 啊，我以为是一个数码产品的外观图。

xyy003

2024-01-11 15:25:53 +08:00

@kylebing 哈哈哈哈

dada88xyxy

2024-01-12 11:34:47 +08:00

我一直想搞一个，用 ai 来读短视频，然后做一个网页，把短视频里面的文字抽出来，放在网页上面，页面的底部就可以跳转到原视频。痛点是解决搜索问题，很多时候其实视频里面有谈到我想要的关键词，但是无奈视频搜不精确，如果把视频的文字都抽出来，应该可以

xyy003

2024-01-12 13:20:17 +08:00

@dada88xyxy 把音频提取出来，然后转录。后面我写个对应的接口好了

Hozoy

2024-01-12 15:05:33 +08:00

如果抽帧识别的话，感觉会不太准确，同类的通义听悟是先把视频转文字，再从文字提取信息总结。。我感觉两个结合起来效果会更好

xyy003

2024-01-13 08:13:27 +08:00

@Hozoy 可以这个会加上

xyy003

2024-01-13 08:13:56 +08:00

@Hozoy 一开始是针对那种只有画面的视频哈哈哈哈哈

fruitmonster

2024-03-19 16:14:02 +08:00

现在失效了是么？