请教关于 AI 生图、音频、视频的本地部署及 api 问题

请教有 AI 生图、音频、视频的本地部署经验的朋友，有客户呢，对这块兴趣挺高，想合作做一点事情，但是需要我们先做到能演示的地步再谈下一步合作。技术背景，后端开发背景。AIGC 生成文本的各大厂家的各种 api 调用，或是自建 llm3 服务都熟悉。前两天 sd3(英文生成图这不也开源了嘛），就是视频这块，一直没有打通可用的大厂 api 或者自建。自建平台，目前只有咸鱼购的两块 3060Ti 的显卡，可验证一些本地的可行性，然后再租赁 gpu 部署... 大概这思路。 AI 音视频确实太陌生，没太多时间摸索。特向有经验者请教几个问题： 1.文生视频、图生视频，目前是否有可以 API 调用的厂家服务。 2.文生视频、图生视频，自部署测试的话，3060Ti ，够不够扛，用到哪些开源框架，有没有例子。 3.数字人克隆的全流程，可以私有化部署的框架？哪种比较可靠运转。 4.那种给一张图片，就来一段 2 分钟左右的 ktv 音乐的，自部署怎么搞的。谢谢有经验的人分享一下经验，个人动手能力比较强，后面就争取动手干起来给客户演示，再看下一步

joyarise

13 天前

@KINGWAY 是的，chatgpt 里训练时间都是半年之前或者更靠前的，最新的东西，它少点。文生视频方案它没法给出最优的了。油管里有很多介绍，玩了几个，目前没有合适的。这些都是大部头，动不动十几个 G ，部署调试都很耗时间，本身呢，有比较忙。1 个月前遇到 1 人说他全流程打通了数字人训练(私有部署)，估计也都是开源方案的整合，但是人家也不愿意细说呢。我这一个合作的客户，非常看好这些，经常问我。故问问 v2 有没有可以指点一二的

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1049522

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.