求多模态对齐方法

This topic created in 985 days ago, the information mentioned may be changed or developed.

最近在搞多模态搞得有点抑郁了，三个模态语音视频文本，不知道该怎么去对齐了，看了论文有的是抽关键帧，有的是把三维降维到二维做后续运算。。。求 v 友点拨。T T

3 replies • 2023-09-11 11:46:28 +08:00

passive

Sep 11, 2023 via Android

看标题我还以为你要接光纤。。。

aeron

Sep 11, 2023 via iPhone

没搞过多模态，点拨不了

zhangyichent

Sep 11, 2023

图片和文本的应该可以借鉴现在很多多模态大模型的吧，视频是应该加上一些帧间对比的东西？我觉得可以借鉴下现在做生成视频时候减少抖动的思路？语音感觉实在不行你先转文字，把他转成两个模态的？（没真研究过，随便扯扯)