可以不进行 onehot 吗?

2020-11-25 10:05:15 +08:00
 galileo1214
如果特征种类过多,或者是数量级的,可以不 onehot 吗,还是需要分类
如果大多数都是数量级的,是否可以直接扔进模型呢,还是要做个标准化
2043 次点击
所在节点    Python
7 条回复
cclin
2020-11-25 10:28:21 +08:00
举个例子,你用 l2 距离,北京是 0,上海是 1,广州是 2,不做 onehot 意味着在这个维度广州和北京距离是广州到上海的二倍,然而实际上他们的距离应该相同
galileo1214
2020-11-25 10:33:58 +08:00
@cclin 类型过多会离散化
levylll
2020-11-25 11:04:02 +08:00
图省事儿可以做特征 hash,压缩特征到同一个 hash 空间
Escapist367
2020-11-25 11:11:27 +08:00
有的模型不需要 one-hot
TimePPT
2020-11-25 11:21:05 +08:00
one-hot encoding 不是万能的,这些分类变量编码方法你值得拥有
https://www.jiqizhixin.com/articles/2020-09-16-6

机器学习中的特征工程总结!
https://mp.weixin.qq.com/s/RgSejEbxwhnFUKR2POmqmg

一文讲解特征工程!经典外文 PPT 及中文解析
https://mp.weixin.qq.com/s/GWMZ1jwbchE8O0r6EduYtQ
galileo1214
2020-11-25 11:34:20 +08:00
@TimePPT #5 谢谢
TimePPT
2020-11-25 11:56:29 +08:00
@galileo1214 客气
俗话说得好
特征做得好,模型差不了
😆

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/728975

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX