3b1b Attention 模型视频中的 Q 矩阵 K 矩阵乘法是不是写错了?

10 天前
 huzhikuizainali

视频中 10:33 处,解释了 Qn Kn 代表矩阵的第 n 列。

10:43,介绍了 Ki 和 Qj 点积的计算结果应该是 Attention 矩阵的第 i 行 j 列。然而 Attention 的公式是 QK',QK'无法得到这样的计算结果!相反,能够获得视频中所示的 Attention 矩阵的应该是 K'Q 。那么,视频中的公式是不是写错了?还是 Attention 矩阵错了?

下面是说明这个问题的 MATLAB 代码,请在 MATLAB 的实时脚本中执行此代码,以达到最佳的显示效果。

clear
syms  Q K q k;
Q=sym('q',[3 3]);
K=sym('k',[3 3]);
Q
K
Q*K'
K'*Q

谁知道为什么这里的 markdown 编辑为什么不支持 latex 行间公式?

203 次点击
所在节点    机器学习
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1050738

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX