想用 sklearn 做个多特征的分类器,特征分别是:
我现在做的时候使用TF-IDF
,做分类,单其它特征就没有用上,有什么办法能把所有特征用上呢?
这个个分类器主要是用于鉴定用户发帖中是否存在spam,我想用基于行为加上正文内容来做分类,我现在正文用的是sklearn
中的tfidfvectorizer
,fit之后会有一个矩阵,但是我如何把其它特征和fit后的结果合并到一起呢?
1
qza1212 2020-01-11 02:29:56 +08:00
直接特征拼起来 + 树形分类器 e.g. rf xgboost
|
2
GrayXu 2020-01-11 03:25:21 +08:00
看你的模型是什么呗,比如 ls 说的如果使用 xgb 之类的重家伙,直接 concat 就好了
|
3
xmoiduts 2020-01-11 07:55:11 +08:00 via Android
树形结构例如 rf 的话,特征数量会不会有点少……最近做项目用的是 9 个特征,多个 rf 模型做 4 个输出的回归 /分类。效果(也就那样吧),很神奇的是:均方差比神经网络低一半,rf 和 xgboost 表现几乎一样。
|
4
kuhung 2020-01-11 08:29:16 +08:00 via iPhone
直接拼接。不过事先要观察相关性,无脑上特征不一定好。
|
5
xou130 2020-01-11 10:12:43 +08:00
lightgbm, 但是这类分类器吃特征数量,做比赛一般是 40 个特征起
|