关于影视二创和搬运的

1.从抖音上面将二创的内容全部下载回来
2.影视二创内容有解说的音轨还有时不时的视频的原生在里面,还包括一些环境音
3.考虑大模型的方案将解说的音轨提出来,然后文本化,并且生成字幕流
4.将提出来的字幕流的文本进行多语种翻译,对翻译质量还是有要求,不能是简单的冰冷的翻译,这里我想依然可以用大模型来做.
5.多语言的字幕流使用大模型再次生成高质量的语音,成为匹配字幕流的音轨
6.将音轨和原先的内容的环境音轨进行合并,生成多个多语言的二创短视频

以上目前来说是否可以利用各家的 AI 大模型的能力搭积木组合到一起?目的就是为了搬运视频到海外各平台

spotsung

190 天前

新人贴,多担待哈

vacuitym

190 天前

我目前在做一个从视频提取音频然后识别为文字然后翻译的，本来准备做来给小电影加字幕的。快做完了，但是发现用的音频识别要 2.5/h ，在纠结要不要继续做

younger027

190 天前

@vacuitym 音频转文字吗？开源的模型有试过吗？

vacuitym

189 天前

@younger027 还没试过，主要是我也没卡跑

GeekGao

189 天前

我在做类似的工具，不过这类工具应用，国外已经有一些了。

spotsung

189 天前

@vacuitym 我觉得这块的价格成本其实还不错.至少从你发上来的这个成本来说我觉得是完全可以承担的.
1.你说的小电影是否跟我说的国内这些影视内容二创一样?
2.我所提到的这些可能比较繁琐而线路情绪的流程来说是否可以完成,或者说现有的产品或者模型是否可以覆盖?
求解

spotsung

189 天前

@GeekGao 是否可以更多的交流,我们这个项目是准备立项的阶段,也是流量型产品的小尝试

spotsung

189 天前

@vacuitym 这个我们试过,直接用 3090 还是有很不错的效果

vacuitym

188 天前

@spotsung 不是故意的 12345 都很容易实现，6 看着应该是可以的，但是我没做过

vacuitym

188 天前

@spotsung 抱歉打错字了：你说的 12345 都很容易实现，6 看着应该是可以的，但是我没做过

younger027

188 天前

@spotsung 就这一整套逻辑来说，目前模型+python 可以完成(已经实验过)，成本不会很高。但是有几个问题哈。
1.提出的音频质量如何，这个很影响转文字的质量，据我实验中文视频的错误率比英文会高很多，比如中文名，多音字。所以你可能需要些技术，降噪？去回音？
2.大模型的翻译（中--》英，韩，日）质量都不高，google 的付费翻译接口，也只是个平均值的效果。
3.目前 tts 的效果确实不错，声音效果不错。chattts,cosyvoice,gptsovits 都可以试试看。
4.我尝试过音轨合并，然后合成到原来的视频上，这一部很难，效果不好。主要是 1.换语言后，句子发音长短不一样。2.整体合并的效果很不好，听起来很别扭。(我使用 python 包搞的,如果你的效果好的话，也可以分享下。)

基本我经历的就这么几个问题，你可以试试看。毕竟不动手，啥问题也没有。动手了，问题和我也不一定一样。

spotsung

187 天前

@younger027 认真几次看完你的总结,暂时先归类为总结.感觉非常到位."不动手,啥问题都没有."动手了问题会很多
接着再问: 我这边项目的话基本上算是立项了,只能往前走,虽然也是一个测试性的项目,但是也想认真对待,摸透彻.我想知道是否可以联络你,一起探讨?不知道是否可以直接留下我的邮箱,我先尝试留下 lang@shortplus.io

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1064891

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.