假设要合成 60 秒的视频,总共有 6 张图片,每张图片大约 10 秒种,对应 2-3 句话,每句话有一个 mp3 文件,有一段文本(字幕)要显示在图片上,切换图片时有点转场效果。
就这么一个任务,GPT4 跟狗屎一样说的全都不对,一运行就各种错。
有各种方案:
a 方案: 每个图片和它的 mp3 生成一个视频,然后 6 个视频连接,然后总视频加上字幕;
b 方案: 所有 mp3 连接得到总音频,6 个图片生成总视频,然后总音频,总字幕加到总视频上;
我一点经验没有,让 gpt4 实现转场就没有一个达到目地的,说的全都不对。
我很奇怪,这应该是最基础的需求,为何 ffmpeg 的开发者就想不到让人轻松点
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.