一个有趣的数学题(机器学习 embedding 设计相关)

226 天前
 ddddd0
最近在学习 embedding ,想到了一个问题,如下:

---

有 2 种特征:性别,物种

性别分为: 男,女
物种分为: 人,狗

设计向量表示,要求:
向量维度尽量小
向量每个位置是实数

向量点积结果要在 [0, 1]
0 代表无关,比如男人*母狗 = 0 ,女人*公狗=0
1 代表完全一样,比如男人*男人=1
0-1 之间代表有点相关,比如 女人*母狗=0.5 ,或者,男人*公狗=0.5 ,公狗*母狗=0.5 ,注意这种组合的点积一定要大于 0 小于 1 ,表示有一定相关性,具体的值大小你来定,但不能是 0 或 1

---


想知道满足上述要求的向量表示的最小的维度是多少?以及具体的设计方法
1728 次点击
所在节点    数学
6 条回复
huangsijun17
226 天前
哪里来的“公”“母”?
ddddd0
226 天前
@huangsijun17 “公”“母”是 [性别特征: 男,女] ,等价的说法
geelaw
226 天前
就是要找四个单位向量 abcd ,使 ad 、bc 正交且 ab 、ac 、bd 、cd 都是锐角。

很明显零维不行:没有单位向量。

很明显一维不行:两个单位向量从不正交。

很明显二维不行:令 ad 为 xy 轴,则 bc 必须都和坐标轴不重合,此时 abcd 中存在钝角。

三维,考虑 a=(1,0,0), d=(0,1,0), b=(1,1,sqrt2)/2, c=(1,1,-sqrt2)/2 ,所以可以。
chen88ijn
226 天前
需要 2bit 的信息量,所以二维向量就可以了?
ddddd0
226 天前
@geelaw 谢谢,很完美
ddddd0
226 天前
@chen88ijn 我试了下,应该不行,总有要求不能满足

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1029854

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX