最近在搞多模态搞得有点抑郁了,三个模态语音视频文本,不知道该怎么去对齐了,看了论文有的是抽关键帧,有的是把三维降维到二维做后续运算。。。求 v 友点拨。T T
1
passive Sep 11, 2023 via Android
看标题我还以为你要接光纤。。。
|
2
aeron Sep 11, 2023 via iPhone
没搞过多模态,点拨不了
|
3
zhangyichent Sep 11, 2023
图片和文本的应该可以借鉴现在很多多模态大模型的吧,视频是应该加上一些帧间对比的东西?我觉得可以借鉴下现在做生成视频时候减少抖动的思路?语音感觉实在不行你先转文字,把他转成两个模态的?(没真研究过,随便扯扯)
|