关于影视二创和搬运的

46 天前
 spotsung
1.从抖音上面将二创的内容全部下载回来
2.影视二创内容有解说的音轨还有时不时的视频的原生在里面,还包括一些环境音
3.考虑大模型的方案将解说的音轨提出来,然后文本化,并且生成字幕流
4.将提出来的字幕流的文本进行多语种翻译,对翻译质量还是有要求,不能是简单的冰冷的翻译,这里我想依然可以用大模型来做.
5.多语言的字幕流使用大模型再次生成高质量的语音,成为匹配字幕流的音轨
6.将音轨和原先的内容的环境音轨进行合并,生成多个多语言的二创短视频


以上目前来说是否可以利用各家的 AI 大模型的能力搭积木组合到一起?目的就是为了搬运视频到海外各平台
1676 次点击
所在节点    程序员
12 条回复
spotsung
46 天前
新人贴,多担待哈
vacuitym
46 天前
我目前在做一个从视频提取音频然后识别为文字然后翻译的,本来准备做来给小电影加字幕的。快做完了,但是发现用的音频识别要 2.5/h ,在纠结要不要继续做
younger027
46 天前
@vacuitym 音频转文字吗?开源的模型有试过吗?
vacuitym
46 天前
@younger027 还没试过,主要是我也没卡跑
GeekGao
46 天前
我在做类似的工具,不过这类工具应用,国外已经有一些了。
spotsung
45 天前
@vacuitym 我觉得这块的价格成本其实还不错.至少从你发上来的这个成本来说我觉得是完全可以承担的.
1.你说的小电影是否跟我说的国内这些影视内容二创一样?
2.我所提到的这些可能比较繁琐而线路情绪的流程来说是否可以完成,或者说现有的产品或者模型是否可以覆盖?
求解
spotsung
45 天前
@GeekGao 是否可以更多的交流,我们这个项目是准备立项的阶段,也是流量型产品的小尝试
spotsung
45 天前
@vacuitym 这个我们试过,直接用 3090 还是有很不错的效果
vacuitym
45 天前
@spotsung 不是故意的 12345 都很容易实现,6 看着应该是可以的,但是我没做过
vacuitym
45 天前
@spotsung 抱歉打错字了:你说的 12345 都很容易实现,6 看着应该是可以的,但是我没做过
younger027
44 天前
@spotsung 就这一整套逻辑来说,目前模型+python 可以完成(已经实验过),成本不会很高。但是有几个问题哈。
1.提出的音频质量如何,这个很影响转文字的质量,据我实验中文视频的错误率比英文会高很多,比如中文名,多音字。所以你可能需要些技术,降噪?去回音?
2.大模型的翻译(中--》英,韩,日)质量都不高,google 的付费翻译接口,也只是个平均值的效果。
3.目前 tts 的效果确实不错,声音效果不错。chattts,cosyvoice,gptsovits 都可以试试看。
4.我尝试过音轨合并,然后合成到原来的视频上,这一部很难,效果不好。主要是 1.换语言后,句子发音长短不一样。2.整体合并的效果很不好,听起来很别扭。(我使用 python 包搞的,如果你的效果好的话,也可以分享下。)

基本我经历的就这么几个问题,你可以试试看。毕竟不动手,啥问题也没有。动手了,问题和我也不一定一样。
spotsung
43 天前
@younger027 认真几次看完你的总结,暂时先归类为总结.感觉非常到位."不动手,啥问题都没有."动手了问题会很多
接着再问: 我这边项目的话基本上算是立项了,只能往前走,虽然也是一个测试性的项目,但是也想认真对待,摸透彻.我想知道是否可以联络你,一起探讨?不知道是否可以直接留下我的邮箱,我先尝试留下 lang@shortplus.io

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1064891

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX