求多模态对齐方法

2023-09-11 06:48:01 +08:00
 JOKERdmb
最近在搞多模态搞得有点抑郁了,三个模态语音视频文本,不知道该怎么去对齐了,看了论文有的是抽关键帧,有的是把三维降维到二维做后续运算。。。求 v 友点拨。T T
1009 次点击
所在节点    问与答
3 条回复
passive
2023-09-11 09:30:49 +08:00
看标题我还以为你要接光纤。。。
aeron
2023-09-11 11:30:31 +08:00
没搞过多模态,点拨不了
zhangyichent
2023-09-11 11:46:28 +08:00
图片和文本的应该可以借鉴现在很多多模态大模型的吧,视频是应该加上一些帧间对比的东西?我觉得可以借鉴下现在做生成视频时候减少抖动的思路?语音感觉实在不行你先转文字,把他转成两个模态的?(没真研究过,随便扯扯)

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/972587

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX